近期,国产人工智能大模型DeepSeek以其广博的知识储备和快速的思考应答能力火爆出圈,作为其训练的基础与关键“燃料”——语料数据也走入公众视野,成为各方热议的焦点。
在今年2月21日至23日上海举办的2025全球开发者先锋大会上,业界针对大模型语料展开深度布局,不仅发布2025语料风云榜招募令,还启动了具身智能语料专项工程、成立语料工作委员会等。
随着DeepSeek大模型时代的到来,如何进一步加强语料数据应用?助力行业廓清产业生态,推动克服发展瓶颈,加快语料库建设?中国城市网记者走访报道。
场景应用贴合本土文化特征
“如何能够让匈牙利语模型在交互过程中更好展示出中国文化?比如借助常见的GPT-4大模型将‘上海city不city?’翻译成匈牙利语,易出现‘上海是一座城市还是一座城市?’的直译,缺少实际语句里包含的上海时尚感。”上海人工智能创新中心场景与数据联盟合作中心负责人王宇在日前一场论坛现场介绍,“而在我们最新开发的‘万卷·丝路’多语言语料库的助力下,通过对中国语义进行保真和本地化处理,在翻译时注重传递出‘city’作为一种流行热词所包含的一种时尚的生活方式和氛围。”
中国城市报记者了解到,“万卷·丝路”是一款围绕“一带一路”高质量建设专门打造的多语种语料库,首期开源了包含泰语、俄语、阿拉伯语、韩语、越南语等五个语种的语料,总规模超1.2TB(单语种均超过150GB),Token总数超过300B,涵盖使用上述语种国家地区的生活、百科、文化、新闻等七大领域数据,收集了多国网络公开信息、文献、专利等资料。
除了上述教育场景中的应用,“万卷·丝路”语料库在文旅场景下也有精彩表现。例如,多语言的支持能够满足来自不同语言背景的游客的需求,提升跨文化交流的体验。此外,这一语料库还通过专家人工标注和数据智能处理,建立了包含七个维度的文本数据质量评估体系,确保数据的完整性、有效性、可理解性、流畅性、相关性、相似性和安全性。这种高质量的语料可以用于训练智能导览系统,在游客参观游览的过程中,不仅可以提供精准、流畅的语音导览,还可以进行信息查询服务,向游客讲述更多景点背后的历史故事,展示丰富的人文内涵。
当前大模型语料应用的聚焦点及特点有哪些?对此,中国信通院华东分院院长廖运发告诉中国城市网记者,当前语料应用集中在通用服务、垂直行业与前沿探索三大领域。其中通用服务以智能客服、内容生成为主,如百度“文心一言”依托搜索引擎语料优化问答体验;垂直行业中,金融、医疗、教育是重点。例如,财跃星辰的大模型通过万亿级金融语料训练,已实现智能投研与风险预警;前沿探索则包括自动驾驶的视觉语料训练、元宇宙的多模态内容生成等。
廖运发强调,国产大模型的语料应用特点可概括为“本土适配”与“政策驱动”。一方面,国产模型注重融入主流媒体、古籍文献等中式价值观语料,进一步契合本土用户的文化认知。另一方面,政策引导推动语料向合规与安全倾斜。例如,《生成式人工智能服务管理暂行办法》要求训练数据需符合社会主义核心价值观,促使企业优先采用经过清洗和审核的语料。
自今年年初上海AI实验室联合大模型语料数据联盟成员发布“万卷·丝路”语料库以来,相关应用不断深化。作为项目团队的一员,王宇深有感触。“要加强对各类场景需求的了解和挖掘,才能更好推动语料数据的实际应用。在大模型训练过程中,需要结合诸如外事、出海等具体场景下对语料数据的需求进行价值挖掘。”她说。
结合人工智能加速生态构建
语料应用如火如荼开展的同时,语料产业生态也在加速构建。去年12月召开的中央经济工作会议提出,要开展“人工智能+”行动,培育未来产业。北京、上海、深圳等多地在这股科技浪潮中崭露头角,成为推动相关产业发展的中坚力量。
上海市经济和信息化委员会副主任张宏韬在近期举办的一场语料专题论坛上表示,上海积极落实国家战略任务,加快建设人工智能“上海高地”。在顶层设计方面,瞄准技术前沿、坚持应用牵引,实施“模塑申城”行动方案,建设智能算力集群、语料供给体系、虚实融合实训场,行业基座大模型等基础底座。在示范平台方面,依托公共算力平台,建设带动产业链协同发展。围绕上海仪电(集团)有限公司、上海库帕思科技有限公司(以下简称“库帕思”)等建设市级的智能算力公共服务平台、语料公共服务平台,构建规模化先进算力调度和供给能力,打造大模型语料的超级工厂。
产业的发展为人才提供了机会和平台,而人才是产业升级和创新的核心动力。作为一家专注于语料服务的公司,库帕思格外注重招募语料行业人才。其CEO黄海清对中国城市报记者表示,无论是人工智能公司还是大模型公司,最核心的资产就是人才。“在人才培养方面,我们最关心的是如何能让年轻人能够快速成长与发展,提升技术技能。为此,我们提出了Work Smarter、Work Harder、Work Happily三‘W’文化,即聪明地工作、努力地工作、开心地工作。我们由衷地希望团队能在开心的氛围里工作,这也是我们致力于打造的企业文化。”黄海清说。
跨界合作破解语料库建设难题
大规模、高质量的语料数据能够显著提升大模型的理解、生成和推理能力。而有业内人士认为,高质量语言数据或将在2027年内被消耗殆尽。此外,当前主流大模型的训练大多基于英文语料,这极大影响了国产大模型的性能提升和泛化推广,建设高质量中文语料库成为当务之急。
廖运发分析,当前中文语料库建设面临多重挑战,核心问题可归纳为规模、质量、结构和生态四个维度。一是数据规模与多样性不足。尽管中文互联网内容庞大,但全球高质量语料库中中文占比不足5%,且通用语料多、垂直领域语料少;二是数据质量参差不齐。现有中文语料存在大量未经清洗的噪声数据,如错别字、语法错误甚至价值观偏差等内容,直接影响模型输出的准确性和可靠性;三是标准化与共享机制缺失。国内语料库标注标准不统一,元数据规范化程度低,导致不同机构间的语料难以互通,资源重复建设现象严重;四是版权与隐私风险突出。语料收集需平衡知识产权保护与数据利用需求,而现行法律对语料使用的界定模糊,企业常因版权争议或隐私合规成本高而受限。
如何突破建设过程中的障碍?廖运发建议,可从政策引导、技术创新、生态协同三方面发力。即在政策层面上强化顶层设计。例如设立国家级语料库建设专项基金,支持专业领域语料采集与标注,同时推动《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》在语料领域的实施细则,明确版权合理使用边界。在技术层面上提升智能化处理能力。例如开发自动化清洗工具降低噪声数据比例,利用半监督学习减少人工标注成本,并通过分布式存储和加密技术保障语料安全。在生态层面上构建开放共享机制,可借鉴欧洲语言资源协调机构经验,由权威机构牵头制定元数据标准,推动高校、企业、出版机构共建语料联盟。例如,中国大模型语料数据联盟的“书生”系列语料库已初步实现跨机构协作。此外,还可探索“语料银行”商业模式,通过数据确权与交易平台促进语料流通。
“未来,中文语料库将具备实时更新(从静态学习到动态学习与更新)、精细加工(从源语料到精标语料)、品类丰富(多来源、多模态、多场景)等特点。总体来看,中文语料库建设是AI竞争的战略高地,需以规模扩容、质量提升、生态协同为核心,同时把握多模态与专业化趋势。国产大模型唯有扎根本土语料资源,才能在全球化竞争中凸显差异化优势,为数字经济时代提供坚实底座。” 廖运发说。
名词解释:语料数据(Corpus Data)是指用于训练、测试和优化自然语言处理(NLP)模型或人工智能系统的一系列文本或语言数据。这些数据通常以文本形式存在,包括但不限于书籍、文章、新闻报道、对话记录、社交媒体内容、专业文献等。对于大语言模型(LLMs)的训练和优化而言,语料数据是自然语言处理和人工智能领域中不可或缺的基础资源。
《中国城市报》社有限公司版权所有,未经书面授权禁止使用
Copyright © 2015-2025 by www.zgcsb.com. all rights reserved