美媒揭秘大模型训练数据集:部分内容有些"脏"

AI百科2个月前发布 快创云
26 0

  4月20日,最新数据显示,近四个月来,人工智能聊天机器人正迅速走红,其能力令人瞩目,能胜任从撰写复杂学术论文到参与紧张对话等多样化任务。然而,这些机器人并非如人类般思考,甚至对自身言语一无所知。它们之所以能模拟人类语言,是因为背后庞大的文本数据支撑,这些资源大多源自互联网的抓取。

  这些文本数据构成了人工智能认识世界的基础,对其回应方式产生深远影响。例如,若某AI在司法考试中表现卓越,可能是因为其训练数据中包含了数千份LSAT资料。尽管如此,科技公司对其向AI提供的信息始终保密。为此,《华盛顿邮报》携手艾伦人工智能研究所的研究人员,对谷歌的C4数据集进行了深入分析,揭示了训练AI所依赖的专有、个人及攻击性网站类型。

  研究团队利用Similarweb的数据对网站进行了分类,排除了因不再存在而无法分类的大约三分之一网站后,对剩余的1000万个网站进行了排名。这些网站涵盖了新闻、娱乐、软件开发、医疗及内容创作等多个领域,解释了为何这些领域可能成为新一波AI威胁的焦点。排名前三的网站分别为谷歌专利搜索、维基百科及付费数字图书馆Scribd。此外,排名前列中还包括了非法电子书市场Library(第190位),该网站因非法行为已被美国司法部查封。数据集中还发现了至少27个被美国政府认定为盗版和假冒产品市场的网站。

  值得注意的是,一些顶级网站也赫然在列,如《魔兽世界》玩家论坛wowhead(第181位)及帮助缓解职业倦怠的网站thriveglobal(第175位),后者由阿里安娜·赫芬顿创立。同时,数据集中还包含了至少10个出售垃圾箱的网站,但部分网站已无法访问。

  尽管大部分网站安全无害,但部分网站存在严重隐私问题。例如,两个排名进入前100位的网站私下存储了州选民登记数据库的副本,尽管这些数据公开可用,但模型可能会以未知方式利用这些个人信息。

  工商业网站占据最大类别(占分类token的16%),其中提供投资建议的The Motley Fool(第13位)位居榜首。紧随其后的是允许用户为创意项目进行众筹的Kickstarter网站(第25位)。然而,艺术家们担忧AI可能会复制他们的作品用于建议或营销文案。目前,艺术家的作品被纳入AI培训数据时,他们无法获得任何补偿,并已向文本转图像生成器Stable Diffusion、MidJourney和DeviantArt提出侵权索赔。

  此次分析还揭示了更多法律挑战:C4数据集中出现了超过2亿次版权符号。

  技术网站是第二大类别,占分类token的15%,包括帮助人们建立网站的多个平台。C4数据集还包含了50多万个个人博客,占分类内容的3.8%。发布平台Medium排名第46位,是第五大科技网站。此外,还有在WordPress、Tumblr、Blogpot和Live Journal等平台上撰写的博客。这些博客形式多样,从职业到个人都有。

  值得注意的是,社交网络如Facebook和Twitter的内容被禁止抓取,这意味着大多数用于训练AI的数据集都无法访问这些平台。科技巨头们坐拥海量对话数据,但尚未明确如何在使用或销售AI模型时利用这些个人信息。

  新闻和媒体网站在所有类别中排名第三,前十位中半数属于新闻媒体。《纽约时报》网站排名第四,《洛杉矶时报》网站排名第六,《卫报》网站排名第七,《福布斯》网站排在第八位,《赫芬顿邮报》网站排名第九,《华盛顿邮报》网站排名第11位。多家新闻机构批评科技公司在未经授权或提供补偿的情况下使用他们的内容。同时,《华盛顿邮报》还发现了几家媒体在NewsGuard的独立可信度评级中排位较低。

  聊天机器人已被证明能分享错误信息。不可信的训练数据可能导致它们传播偏见和错误信息,而用户却难以追踪其来源。专家表示,尽管C4数据集庞大,但大型语言模型可能会使用更大的数据集进行训练。随着公司面临解释聊天机器人决策过程的挑战增加,透明性成为高管们亟需解决的问题。

© 版权声明

相关文章