与谷歌Gemini核心负责人对话:数据即将耗尽,AI下一阶段的突破口在哪里?

AI百科4个月前更新 快创云
37 0

  在最新的AI深度对话中,知名播客主持人与Drastic Research的副总裁兼Gemini联合负责人Oriol Vinyals,就人工智能的前沿发展进行了深入探讨。作为Gemini项目的核心领导人物,Vinyals分享了当前AI模型从专用向通用演进的洞见。

  在AI领域,我们正见证着模型能力的重大演进。从最初的单任务专用模型,到如今如Gemini这样的通用多模态系统,AI正朝着更灵活和通用的方向发展。Vinyals指出,这一进步涉及复杂的预训练(模仿学习)和后训练(强化学习)过程。这两个阶段的突破为实现真正的通用人工智能奠定了重要基础。

  设想一个具体场景:若我们想让一个语言模型或视觉语言模型学会玩《星际争霸》,可以采取全新方式。不同于开发专门的游戏AI,这个模型能像人类玩家一样学习——观看游戏视频、阅读攻略、参与论坛讨论,然后将知识应用于实战。通过持续学习和实践,它最终可能会告诉你:“我已经掌握了这款游戏,要不要来对战看看?”

  这种自主学习和行动的能力展现了AI向通用智能迈进的重要一步。它不再局限于预设的知识范围,而是能主动获取、整合和应用新知识。当然,这种深度学习模式并非适用于所有场景——比如对于“今晚吃什么”这样的简单问题,我们显然不需要、也不应等待模型花费数周时间来研究答案。

  主持人Hannah Fry:欢迎回来,Oriol,很高兴再次与你交流!

  Oriol Vinyals:你好,谢谢你再次邀请我。

  主持人:开始之前,你能介绍一下“Drastic Research”是什么吗?

  Oriol Vinyals:当然可以!我经常告诉团队要“drastic”思考,即不要局限于所有人都在关注的增量改进。我们需要大胆设想几年后可能发生的重大变化,然后将这些想法“回溯”到今天并付诸实践。“drastic”正是这种激进创新的思维方式。

  主持人:上次见到你时,你还在研究一个能够使用键盘和鼠标完成任务的智能体,比如在“画图”中画画或玩《星际争霸》。现在看来,技术发展了不少吧?

  Oriol Vinyals:是的,当时的智能体基于非常通用但相对简单的机器学习原理。我们主要专注于让模型在特定任务上表现出色,当时采用了一种逐步提高任务难度的“课程式”训练方法。比如《星际争霸》,这是一款非常复杂的现代战略游戏。而更早之前,DeepMind以《Atari》开创了风潮,这种游戏相对简单。但即便如此,这些算法被设计得非常通用,以便我们能够逐步攻克更复杂的任务。现在的模型不仅训练过程更高效,其适用范围也广泛得多。当年那些模型虽然复杂,但能力相对局限。如今的模型则可以广泛应用于更多领域。

  主持人:当时你们的核心方法是强化学习吧?现在和那时相比,有什么不同呢?

  Oriol Vinyals:算法层面,从AlphaGo到AlphaStar的核心算法是相似的。这些算法与大型语言模型或多模态模型的构建方式有一定共性。无论是过去还是现在,我们主要有两个关键阶段:预训练和强化学习。预训练阶段模仿大量人类数据;强化学习阶段则让模型通过与自己对战进一步优化。这两个阶段共同为实现超越人类水平的能力奠定了基础。

  主持人:目前已经实现了这么多成就,目标正如我理解的那样,是实现更多的自主行为,让这些模型能够做出自主决策。这些成就如何帮助实现这一目标?

  Oriol Vinyals:是的,我们可以深入探讨当前的趋势。我们称之为大型语言模型,但它们实际上是多模态的。主持人:这个模型会不断改进它对输入的推理能力,比如“这张图片是关于什么的?”“用户在问什么?”等等。这些都是我们现在都能体验到的互动。但这只是其中的一部分,我们可以把它当成核心处理器(CPU),并在其基础上添加更多功能。比如假设这个模型可以为你做研究?

  Oriol Vinyals:一个例子是,我们可以要求一个语言模型或视觉语言模型学会玩《星际争霸》。这和直接创建一个专门玩《星际争霸》的智能体完全不同。另一个方式是,这个模型可以自己上网、观看游戏视频、下载游戏并与之交互、从中学习规则和策略等。它还可以在线搜索资料、浏览论坛、阅读玩家讨论等然后回到游戏中改进自己的弱点。经过几周的学习后它可能给你发一封邮件说:“我现在已经学会了玩《星际争霸》,我们可以来对战一下。”这样的场景离我们并不遥远。这种能力让模型可以采取行动、学习任何可用的新知识这是非常强大的想法极大推动了模型的通用性发展也让我们觉得AGI(通用人工智能)的目标似乎更近了。如果我理解正确的话目前的大型语言模型或多模态模型是一个核心下一步的目标是基于这个核心让它“解锁”更多的能力自主行动。如果它能访问所有的知识并利用时间进行深入研究提出假设、编写代码等等从而回答非常复杂的问题那么可能性将大大扩展当然这并不适用于所有场景比如如果你问“我喜欢米饭今晚该做什么吃?”它没必要花三周时间深度研究答案否则你大概不会很高兴等这么久。

  主持人:我明白你提到的边际收益递减的问题那么在改进这些模型方面是不是只有数据、计算能力和模型规模这几个杠杆可以利用?

  Oriol Vinyals:确实如果你冻结了架构比如说在接下来的一年中没有任何创新只是依赖更好的硬件进行扩展这种策略的趋势看起来可能还不错但在Gemini项目中我们有其他的创新比如从如何组织提供给模型的数据到架构的细节再到训练过程的运行方式以及运行时间的长短等所有这些都属于超参数的调整此外我们还非常仔细地研究算法的改进因为训练模型的过程非常昂贵所以我们必须确保每一项创新都值得投入当我们准备好下一代模型时不仅仅是依靠规模的提升还会有算法层面的突破但关于扩展的问题你提到的规模好像没有限制理论上计算能力的投入也没有限制但数据的规模是有限的比如人类的语言总量是有上限的实际上我们已经开始意识到数据量正在接近枯竭现在有一些方法比如生成合成数据我们可以用不同的方式重写现有的数据但目前互联网上大部分内容是英语大约占60%通过重写相同的知识我们可能可以拓展数据量这是一个很多人开始投入研究的领域因为当数据枯竭时扩展法则的效果会变得更差。

  主持人:比如说你可以让Gemini自己生成一个版本的互联网然后用这个版本来训练新的Gemini模型?但是这样的话会不会有一种风险就是如果模型不断使用自己生成的输出作为训练数据可能会形成一些不利的反馈循环?

  Oriol Vinyals:这是一个很好的问题这种方式确实存在潜在问题从表面上看让模型重新生成整个互联网并不是一个好主意数据集的内容是有限的而重新生成的内容如何创造出新信息?这是个未知数这种方法可能在一定程度上有帮助因为目前的机器学习算法并不能完全从互联网中提取所有信息我们的算法虽然很优秀但仍然不完美。

© 版权声明

相关文章