11月26日,全球数商大会“数据要素市场与大模型语料库论坛暨中国数据联盟开放日活动”圆满举行。此次活动由中国大模型语料指导,由上海数据交易所携手星环信息科技(上海)股份有限公司联合主办,上海市数商协会提供协助。超过200名来自大模型数据、人工智能技术企业及相关机构的代表参与了此次盛会。
活动现场,上海人工智能实验室(上海AI实验室)携手人民网,共同倡议成立中国大模型语料数据联盟安全治理委员会,旨在强化大模型数据的安全管理与隐私保护,为大模型技术的快速发展保驾护航。
此外,中国大模型语料数据联盟的“朋友圈”在活动期间进一步壮大。上海市新能源汽车公共数据采集与监测研究中心、华院计算技术(上海)股份有限公司等12家新成员单位的加入,为联盟注入了新的活力。这些新成员的加入,将共同推动大模型技术的深度发展与应用,为行业提供更加丰富、多元的数据支持。
值得一提的是,联盟自成立以来,各成员单位积极发挥自身优势,不断提供高质量的数据资源。上海市统计和大数据研究院、上海图书馆(上海科学技术情报研究所)等单位相继发布了《上海统计年鉴数据集》、《中国家谱总目数据集》及《国际仲裁法律、规则与实践数据集》等三部专业数据集,为大模型训练提供了宝贵的参考资源。
中国大模型语料数据联盟是在2023年7月6日世界人工智能大会开幕式上宣布成立的。该联盟由上海人工智能实验室联合中央广播电视总台、人民网等10家单位共同发起。联盟旨在应对大模型发展对高质量、大规模、安全可信语料数据资源的需求,保障大模型科研攻关及相关产业生态发展。通过链接模型训练、数据供给、学术研究、第三方服务等多方面机构,联盟致力于打造多知识、多模态、标准化的高质量语料数据,探索形成基于贡献、可持续运行的激励机制,构建国际化、开放型的大模型语料数据生态圈。