深度解析:大模型真的在吞噬人类的一切数据吗?

AI资讯3个月前发布 快创云
43 0

在弗兰克·赫伯特的《沙丘》中,沙漠星球厄拉科斯的沙丘下隐藏着一种无价之宝:香料。这种神秘物质使太空旅行成为可能,能延长寿命,并具有扩展意识的效果,是宇宙中最宝贵的财富。“谁控制了香料,谁就控制了宇宙”。在当今的生成式人工智能时代,数据也承载着类似角色。

现实世界里,各方势力在为数据资源展开激烈角逐。海量的数据如同埋藏在数字世界沙丘下的“香料”,蕴藏着难以估量的价值。能够高效采集、管理和利用数据的企业,就像小说中控制香料的势力,在数据争夺战中占据优势地位。

如同香料在《沙丘》宇宙中的供应并不是无限的,如果开采过度或生态系统受到破坏,香料的产量可能会大幅减少甚至耗尽,数据也可能被耗尽。根据非营利研究机构Epoch AI的最新论文,大语言模型会在2028年耗尽互联网文本数据。

大模型的数据需求

人类生成的数据量有限,一旦这些文本数据被耗尽,可能会成为语言模型继续扩展的主要瓶颈。相关论文认为,语言模型将在2026年到2032年之间利用完这些数据。如果考虑到利润最大化,过度训练数据可能会导致数据在2025年就被用完。

深度解析:大模型真的在吞噬人类的一切数据吗?

月之暗面创始人杨植麟认为大模型通向AGI最大的挑战是数据。他表示,“假设你想最后做一个比人类更好的AI,但可能根本不存在这样的数据,因为现在所有的数据都是人产生的。所以最大的问题是怎么解决这些比较稀缺、甚至一些不存在的数据。”

根据Epoch研究员Pablo Villalobos的观点,OpenAI在训练GPT-4时使用了大约1200万个token,GPT-5需要60到100万亿个token才能跟上预期的增长。即使用尽互联网上所有可能的高质量数据,仍然需要10万到20万亿token,甚至更多。


合成数据与数据质量

面对如此庞大的数据需求,合成数据是学术界和产业界都在尝试的重要方向。合成数据基于现有数据进行扩充,这种能力对未来的训练数据规模至关重要。然而,用AI生成的数据进行训练也存在一些局限性,例如可能导致模型崩溃等问题。

目前,大模型厂商主要从网络上抓取科学论文、新闻文章、维基百科等公开信息来训练模型。从长远来看,仅依靠新闻文章和社交媒体等内容可能无法维持人工智能的发展需求。这可能迫使企业开始利用一些敏感的私有数据,如电子邮件、聊天记录等,或不得不依赖于聊天机器人自身生成的质量不高的数据。

数据是否真的不够用?

没有数据就无法训练大语言模型,但数据真的不够用了吗?星环科技孙元浩认为,这是一个“假新闻的判断”。他认为,除了现有互联网的存量数据,各个企业内部还有大量的数据没有被利用,“现在数据多到远远超过模型可以处理的量”。

其中的一个重要问题,是数据处理范式从结构化数据到非结构化数据的转变。结构化数据,例如数据库中的表格数据,有明确的字段和格式,易于存储和查询。而文本文档、合同协议、教材等非结构化数据,虽然包含丰富的信息和知识,但由于缺乏统一的格式,难以直接存储和检索,企业内部的非结构化数据往往也需要更专业的数据标注处理。


挖掘企业内部数据的重要性

摩根大通拥有150PB的专有数据集,而GPT-4仅在不到1PB的数据上训练。大模型面临的挑战主要在于获取高质量、多样化且合法可用的训练数据,而非简单的数据量不足。

数据服务商景联文科技创始人刘云涛表示,“我们现在真实数据都来不及处理,数据不够是杞人忧天了。”他预估,中国的高质量数据大概有150TB,世界上还有很多个国家的数据。

他认为目前的问题主要在于数据清洗、数据工程。大模型时代的核心变化首先是数据量变大了,“以前一个题库10 万、20万道已经很大的项目。现在以亿为单位,技术处理能力就变得非常重要了,因为你不可能靠人工。”

数据处理的新标准

LLaMA3通过将训练数据从2T增加到15T,即使模型架构保持不变,模型性能得到了显著提升。然而,这种“暴力扩展”的方法虽然有效,但也面临着边际效应递减和资源消耗增加的问题。

语料规模并非越大越好,而是高信息密度的语料规模越大越好。例如,Common Crawl是400TB的数据集,包含了互联网上数十亿网页,内容非常广泛但未经清洗。而C4则是对CC进行了过滤噪声、重复内容等清洗后的305GB数据集。经评估发现基于C4训练的模型性能优于CC,这既说明了数据清洗的重要性,也说明了语料规模不能一味追求大。

深度解析:大模型真的在吞噬人类的一切数据吗?

清华博士秦禹嘉表示,前scaling law时代我们强调的是scale up,即努力追求数据压缩后的模型智能上限,后scaling law时代大家比拼的是scale down,即谁能训练出“性价比”更高的模型。

例如,PbP团队利用较小模型的性能评价来过滤数据,从而提升大型模型的训练效果和收敛速度。类似地,DeepSeek通过使用fastText来清洗高质量数据,为特定场景下的模型训练提供了优质数据。

这些研究成果暗示,通过彻底优化数据的质量,小型模型的训练效果可以接近或等同于使用大规模“脏数据”训练的大型模型。这不仅示范了数据清洗在提升模型效率中的重要性,也说明在某些情况下,模型的参数规模并非越大越好,关键在于如何有效地利用每一份数据。

随着AI领域的不断发展,这种对“效率”和“质量”的追求正在成为研究和实践中的新趋势。未来,数据处理的方法,包括数据去噪、改写预训练数据等策略,将成为推动大模型发展的关键因素。同时,这也意味着数据质量可能成为衡量AI模型性能的新标准,而不仅仅是数据规模。

深度解析:大模型真的在吞噬人类的一切数据吗?

在当今快速发展的人工智能领域,数据成为了推动技术前进的基石,它的角色越来越像《沙丘》中珍贵的香料——无处不在,价值巨大。随着对数据需求的增长,如何有效地收集、处理和利用这些“数字香料”成为了关键问题。从提高数据质量到拓宽数据获取渠道,未来的AI发展不仅取决于我们如何应对这些挑战,更在于我们如何在数据的海洋中探寻新的可能。正如《沙丘》展示的那样,真正的力量来自于对这些资源的理解和利用——谁解决好了数据问题,谁就拥有了未来的钥匙。

© 版权声明

相关文章