今年4月,中科院联合滑铁卢大学等机构发布了一项关于AI行业的重磅研究,这一成果在业界引发了广泛讨论,被网友戏称为“乐子人”直呼不可思议。
这项研究揭示了百度贴吧“弱智吧”作为数据集,训练出的AI大模型在多项测试中表现卓越,包括问答、头脑风暴、分类、生成及总结等8项任务,均获得最高分,超越了包括百科、知乎、豆瓣和小红书等在内的多个平台。这一发现令“弱智吧”,这个充满荒诞段子的中文社区,一跃成为最佳的中文AI训练数据库之一。
然而,“弱智吧”的发言风格却充满了令人捧腹的幽默,如“生鱼片是死鱼片”、“等红灯是在等绿灯”等看似荒谬的语句。这些看似无厘头的段子,为何能与AI技术产生如此紧密的关联?答案在今年外滩大会的创新者舞台上揭晓。
“弱智吧”的核心成员首次公开亮相,不仅分享了他们的段子创作心得,还揭秘了这群段子手的真实身份。他们与AI专家在现场进行了深入交流,探讨了为何许多AI公司会选择“弱智吧”作为语料库。
无界方舟CEO曾晓东表示,他们的目标是让机器人更具备人类特征,因此一直在寻找口语化、多轮问答的语料。而“弱智吧”中的段子不仅有趣,而且质量高,是训练AI的理想选择。
9月7日,“弱智吧”成员胡萝北讲述了该吧与AI的有趣交手经历。早在2022年,他就尝试用段子来测试AI的理解能力,但发现即便AI能搜集大量信息来解释名词,却仍无法理解段子的真正含义。胡萝北幽默地表示:“没有一个AI能笑着走出‘弱智吧’,因为它不懂幽默。”
实际上,“弱智吧”的段子看似无厘头,却蕴含了深刻的逻辑性。曾晓东指出,正是这些充满语言陷阱的段子,锻炼了语言大模型对中文的解读和推理能力,使其能更自然地与人类进行交流。
胡萝北感慨道,没想到有一天“弱智吧”的段子会成为训练大模型的语料。他强调,虽然AI看似与普通人无关,但实际上机器人是对人类的模仿。因此,每个人都在为未来的AI提供数据。
值得一提的是,“弱智吧”的成员背景多样,包括AI从业者、脱口秀演员等。胡萝北透露,他自己曾是数学系毕业生,而吧主公孙闬也是高学历人才。他们中的许多人都是理科生,经常在群里分享数学题并一起解答。
这个诞生于PC时代的兴趣社区已走过20年历程。吧主公孙闬表示,“贴吧的吧主已经交替了好几代,我们都已长大并进入了各行各业。有人从事AI相关工作,大家把生活中的见闻经历写成段子,让社区保持活力。”他强调,这些来自不同领域、取材于真实生活的段子具有强大的逻辑和浪漫的修辞。
最后,胡萝北用“内”字总结了人与AI的关系:尽管我们生活在一个被AI包围的时代,但“内”字里的“人”并未被完全困住。“正如网友们所说,‘弱智吧’是人与AI之间的最后一道防线。”