您现在的位置是：首页 > 人工智能 >

语料筑基创造智能未来

2024-09-26 17:02:30作者：路沙于帆来源：信息主管网

摘要当下，高质量的语料对于大模型在各行各业的应用十分关键，有助于大模型更好地适配实际应用场景。...

　　当下，高质量的语料对于大模型在各行各业的应用十分关键，有助于大模型更好地适配实际应用场景。更重要的是，丰富多样的语料数据集可以极大地提高模型的泛化能力，使其能够应对各种情形。

　　大模型语料库建设任重道远

　　在人工智能的飞速发展中，大模型语料库的建设成为了一个关键环节。语料库作为人工智能，尤其是自然语言处理(NLP)领域中的重要资产，其质量与规模直接影响到模型的性能和应用的拓展。

　　不久前，多家机构联合发布了“语料运营平台 1.0”、《语料库建设导则》，以及一批语料产品;上海交通大学生成式人工智能实验室推出了一套专门针对数学领域的高质量、多样化预训练语料库，其中包含约 95 亿 tokens(文本中最小单位);腾讯公司联合 BotdeDream、复且大学老龄研究院、清华大学无障碍发展研究院，发起了一项面向全社会的AI向善语料库共创行动……

　　这些行业进展不仅展示了大模型语料库在学术研究中的重要性，也凸显了其在商业应用中的潜力。因此，大模型语料库的建设正成为人工智能领域的一项重要工作，吸引了来自全球的研究者、开发者和行业专家的广泛关注。

　　目前，在国际上，谷歌、Meta、微软等大型科技公司持续投入大量资源建设大规模语料库，以支持其语言模型的发展。同时，也有多个开源项目和研究团队致力于构建和分享高质量的语料库，如WikiText、ComonCmaw等。国内在大模型语料库建设方面也取得了显著进展。中国的科技公司和研究机构正在积极构建大规模的中文语料库，以支持中文自然语言处理技术的发展。

　　赛迪顾问人工智能与大数据研究中心常务副总经理邹德宝表示，大模型语料库的重要性在于为机器学习模型提供了丰富的语言环境，使得模型能够学习到语言的复杂性和多样性，从而更好地理解和生成自然语言。在人工智能领域，大模型语料库被用于训练自然语言处理模型，这些模型能够执行各种任务，如文本分类、情感分析、机器翻译、语音识别与生成等。随着深度学习技术的发展，大模型语料库对提高模型性能和泛化能力起到了关键作用。

　　“通过提供大量高质量和多样化的数据，能够帮助模型学习复杂的语言模式和知识。通过不断'喂人’语料，使模型在训练过程中以解码方式了解语料之间的关联。同时，大模型的快速迭代及应用，必须有足够多的数据予以支撑。因此，覆盖更多领域是增强大模型基础能力的重要条件。”明略科技集团高级技术总监吴昊字如是说。

　　从另外一个角度来看，语料库的建设也推动了技术创新。吴昊宇表示，在准备大规模语料库的过程中，会使用自监督学习、迁移学习等先进技术。通过开放和共享语料库，使研究人员能够专注于技术验证，而不是花费大量时间在语料收集上，从而降低研发成本，减少基础工作，如高质量语言判断、去重和聚类等。

　　对于新兴人工智能企业来讲，不仅要根据公司的需求和目标，评估和选择最适合的语料库资源，还要充分利用现有的语料库资源，提升模型性能和应用场景的覆盖能力。这通常分为两个阶段。在第一阶段，当需要海量数据时，应充分利用现有的开放数据集，并将现有语料库与公司自有数据相结合，以提高模型的准确性和适用性。

　　在第二阶段，可以寻求与学术机构和媒体平台的合作，共同补充开放数据集。同时，在第二阶段训练大语言模型的特定风格时，创业公司应特别注重自身数据时，应充分利用现有的开放阶段训练大语言模型的特定风格数据集，并将现有语料库与公司时，创业公司应特别注重自身数据集的积累，并根据特定的应用场景，对语料库进行定制化处理和优化。因为这一部分数据是创业公司的核心数据源，只有掌握在自己手中，才能确保大模型的应用与特定领域和场景的结合。

　　不难看出，随着人工智能技术的不断进步，语料库建设不仅朝着更加智能化、自动化的方向发展，也更加注重多模态的融合，以及行业化、个性化和定制化的发展，以支持更丰富的应用场景，并满足不同领域和应用的特定需求。然而，在语料库的建设过程中，仍然面临着数据集的规模和质量控制、数据获取与处理、隐私和安全性、专业语料缺乏、语料的多样性和均衡性等技术挑战。

　　呈现多模态融合和行业化、个性化趋势
大模型语料库建设正显现出多模态融合和行业化两大发展趋势。多模态融合意味着语料库正整合文本、图像、声音等不同形式的数据，以期构建更为全面和深入的理解能力。这种融合不仅丰富了数据的表现形式，还增强了模型对复杂信息处理的能力。

　　行业化及个性化趋势则体现了语料库建设正朝着更专业、更细分的领域发展。随着人工智能在各行各业的深入应用，对于特定行业知识的理解和处理需求日益增长。因此，语料库建设开始注重收集和整合特定行业的数据，包括专业术语、行业案例、法规标准等，以训练出能够解决行业特定问题的高性能模型。

　　中国软件评测中心发布人工智能大语言模型技术发展研究报告(2024年)》提出，未来大语言模型应用的发展趋势将更加注重多模态数据融合。而作为大模型学习和训练的重要“燃料”，语料库建设也需要紧跟这一趋势。

　　未来的 AI 系统将不局限于处理单一类型的数据，而是能够综合文本、语音、图像等多种类型的数据进行学习和推理。这种多模态的语料将极大地丰富 AI的理解和表达能力，使其能够更全面地模拟人类的感知和认知过程。例如，结合文本和图像的多模态语料可以帮助 A 更好地理解描述中的对象和场景，进而生成更加生动和准确的内容。这种跨领域的知识融合将为 A 带来更深层次的智能，推动其在教育、医疗、娱乐等多个领域实现更广泛的应用。

　　关于行业化、个性化的发展趋势，标贝科技数据事业部副总裁吴本谷表示，事实上，一个企业很难掌握所有行业的数据。因此，企业利用语料库进行模型训练的原则应该取决于自身所要发展的方向以及所应用的场景。也就是说，大模型语料应该着重关注能够应用到哪些场景中，并满足这些场景下的特定需求。例如，用大模型制作 PPT，关于PPT 文本和模板数据的获取，就会涉及很多专业问题。

　　“大模型训练第一阶段主要是进行基础模型训练。基础模型相当于通过大量语料提供基础知识，让模型了解这些知识之间的关联性。因此，语料越多越精准，效果越好。大模型训练第二个阶段与具体的领域或应用场景相关，称为人类偏好训练。这阶段需要人工语料进行引导。例如，对话需要符合人类偏好的对话语料库，多模态问答需要提出相关问题并提供人类喜欢的答案。通过人工创造的问答，可以使大模型表现出预期的样子。吴昊宇进一步说道。

　　高质量中文语料仍然匮乏

　　目前，国际主流大模型的训练数据集主要以英文为主，中文数据占比较小，特别是在一些重直细分领域。“在大模型语料库建设中，行业高质量语料相对缺乏，尤其是优质、专业、多元的中文数据供给存在明显短板。邹德宝说。

　　中国政法大学数据法治研究院教授、博士生导师张凌寒表示，中文训练数据语料总体量级不足以及在全球语料总量中占比较低的问题由来已久，难以在短期内改变。中文训练数据语料总量的不足，使高质量语料缺少积累，导致高质量中文语料尤为稀缺。中文训练数据语料在数量和质量上的弱势，间接导致中文大模型企业只能退而求其次，通过语料翻译、降低质量要求甚至从其他模型中提取语料的方式获取数据，进而增大了大模型的不稳定和不安全的风险。

　　知乎创始人兼 CEO 周源表示，截至2023 年年底，中国累计发布 200 多个人工智能大模型，其中有 20 多个大模型产品获批向公众提供服务。尽管国内在大模型领域取得一定成就，但仍面临着一些挑战，其中最显著的问题是高质量中文语料资源的短缺。

　　相关机构分析预测，2021年-2026年中国数据量规模将由18.51ZB 增长至 56.16ZB，年复合增长率达到 24.9%%，高于全球平均水平。然而，尽管国内存最数据资源丰富，但由于数据挖掘不足、数据流通不畅等问题，目前中文优质数据仍然稀缺，如ChatGpT 训练数据中中文资料比重不足千分之一，而英文资料占比超过 92.6%。

　　总体来看，受版权和隐私保护问题、开发利用不足、流通共享不畅、标准化和结构化程度较低等因素的影响，在大模型语料库建设中，高质量中文语料供给仍然匮乏。

　　对此，邹德宝表示，可以采取以下创新方法来解决这一问题:一是在国家层面建立统一的数据平台，完善法律法规，设置激励政策，鼓励社会力量参与训练公共数据集的开发。二是行业协会应主动引导行业自律，开展相关标准化建设，提高行业生态水准，共同推动高质量语料库建设。三是构建综合语料价值指数(CCVI)，综合考虑语料的质量、所属分类的权值以及数量，可以更客观地反映垂直领域大模型语料的资源价值。四是发布语料运营管理平台，实现面向语料数据“采、洗、标、测、用”五位一体的工具链能力，提高语料数据供给的效率和质量。

　　数据合规和隐私保护问题亟待解决
大模型语料库涉及大量的个人数据和企业商业机密，因此数据隐私和安全问题是大模型语料库面临的重要挑战之一。如何在保证数据隐私和安全的前提下实现数据的共享和应用是一直困扰着行业发展的难题。

　　吴本谷强调，由于大模型使用的数据量庞大，且数据来源多样，如何确定数据的版权归属并进行授权成为一个挑战。如果数据未经授权就用于训练，可能会引发版权纠纷。除此之外，在大模型语料库建设中，还应着重保护用户个人及企业信息。“这需要在模型的输入输出过程中针对敏感度高、隐私性强的数据构建审核机制，防止出现数据的合规性以及隐私数据泄露的问题。吴本谷说。

　　邹德宝表示，确保在收集和使用数据时遵守相关的隐私保护法规，可以采取以下措施:一是数据脱敏。对敏感数据进行处理，使其在保留数据使用价值的同时，无法被逆推出原始信息，例如对电话号码或信用卡号进行部分屏蔽或替换。二是差分隐私。通过在查询结果中加入噪声，使得单个数据记录的添加或删除不会对整体数据的输出结果产生显著影响，从而保护个人隐私。三是同态加密。允许在加密数据上直接进行计算，计算结果解密后与在原始数据上进行相同计算的结果相同，从而保护数据在处理过程中的隐私。四是最小化原则。仅收集实现目的所必需的最少量的个人信息，并限制数据的使用和披露。五是数据主体权利。尊重并保障数据主体的权利，包括访问权、更正权、删除权等。

　　对此，吴昊字也表达了类似的观点。他表示，这一部分可以从数据本身的私有化和合规性问题两个方面来讨论。首先，从数据本身来说，需要对这些数据进行匿名化和去标识化处理。匿名化和去标识化是指在语料中可能包含大最个人信息，如姓名、身份证号码、手机号或网络标识等。在识别出这些可能属于个人信息的内容时，需要对其进行匿名化处理。例如，将姓名转化为普通的张三、李四等，将手机号处理成非常见的号码组合，以确保这些数据无法直接追溯到个人。其次，这些数据需要符合最小化原则。在收集语料时，可能包括用户名、用户四以及个人信息如性别、年龄等。在处理这些数据时，应秉承最小化原则，即只保留对训练最为必要的数据。例如，用户发的帖子或帖子的标题是训练所需的，那么在训练时应过滤掉无关字段。

　　“关于合规性，我们需要遵守全球各地的隐私保护法规，如欧盟的《通用数据保护条例》(GDPR)、美国加州的《消费者隐私法案》以及中国的数据安全法等。此外，还需建立数据源的合规管理制度和团队，以确保数据的合规性。在与第三方合作时，必须明确这些数据是在用户明确授权后才使用的。在收集用户数据之前，需明确告知用户这些数据将用于训练目的。”吴昊宇进一步解释道。

　　语料库更新需平衡新旧数据比例

　　语料库的更新是一个动态过程需要在引人新数据以反映语言的最新使用趋势和保留旧数据以保持历史连续性之间找到平衡点，以确保语言模型既能捕捉到语言的当前状态，又不失去对语言演变过程的理解。

　　吴昊宇表示，这种更新分为几种情况。如果基础模型工作良好，可以先不动底层模型，仅通过微调来补充新的语料。例如，在进入一个新领域时，只需训练一个基于该领域语料的模型，从而使大模型增加对该领域的了解，这样大模型即可正确回答该领域的问题。另一种情况是模型本身已经过时，或使用的是一两年前的语料。在这种情况下，需要首先评估当前基座模型的训练数据阶段。一般来说，训练大模型不会从头开始，而是基于一个表现良好的基座模型进行训练。因此，需要针对基座模型的训练阶段，有针对性地补充更新的语料或某个领域的语料。

　　“目前，很多企业都可以实现按年更新或者按月更新语料库。不过，由于数据训练是一个很耗时的过程，因此很难做到实时性的动态更新。为解决这一问题，需要进行一些筑略和技术框架上的调整。”吴本谷说道。邹德宝表示，语料库的定期维护和更新旨在确保语料库的数据保持高质量、时效性和相关性。其中，平衡新旧数据比例的策略主要包括:一是根据语料库的使用目标和应用场景来决定新旧数据的比例。二是确保语料库中的数据覆盖不同的时间,地区、风格和主题，以保持多样性。三是通过统计分析来确定新旧数据的最佳比例，这可能涉及模型训练和验证的过程。四是采用分层抽样方法，确保每个时间段的数据在语料库中都有代表。五是定期评估模型在新旧数据上的性能，以指导数据更新策略。