绝地反击!谷歌推出AI模型Gemini:语言理解首次超越人类专家,听说看写样样精通

AI百科4周前更新 快创云
30 0

  在一段视频中,一位男子以慢动作展示了后仰躲避的特技,AI立即推断这模仿了《黑客帝国》中的“子弹时间”场景。另一场景中,当人类用画笔在纸上描绘出一只鸭子并涂上蓝色时,AI敏锐地指出:“这不是鸭子常见的颜色。”

  接下来,三个空杯并排置于桌上,一个蓝色纸团被放入其中一个杯子中。经过一系列令人眼花缭乱的操作后,AI准确预测:“纸团在最左边的杯子里!”此外,当向AI展示一道手写物理题时,它不仅能理解题目,还能判断手写答案的正确与否,并详细解释解题步骤。

  这些令人惊叹的片段,是Google在12月6日最新发布的AI大模型Gemini的演示场景。“我们距离实现新一代人工智能模型的愿景越来越近了。”Google DeepMind产品副总裁Eli Collins在系列视频演示后向媒体表示,Gemini是Google迄今为止功能最强大、最通用的大模型。

  与市面上现有大模型相比,Gemini从设计之初就定位为多模态模型,这意味着它能高效理解、操作及组合包括文本、代码、音频、图像和视频在内的多种类型信息,且能在从数据中心到移动设备等多种环境中灵活运行。值得注意的是,在MMLU(大规模多任务语言理解)测试中,Gemini Ultra以90.0%的高分首次超越了人类专家。

  Gemini被视为Google在AI大模型领域的一次重大突破。多年前,Google凭借AlphaGo在全球掀起了AI热潮。但此次在OpenAI的ChatGPT引发的AI新浪潮中,Google面临巨大压力。因此,Google迫切需要一款现象级AI产品来证明自身实力。

  Gemini具备多种能力:据界面新闻,Gemini 1.0是谷歌筹备一年之久的GPT4真正竞品,也是目前功能最强、适配最灵活的大模型之一。它包含三种不同套件:Gemini Ultra、Gemini Pro和Gemini Nano。其中,Ultra能力最强,能处理最复杂的多模态任务;Pro能力稍弱,但可扩展到多任务;Nano则专为手机端设计。这显示Gemini的覆盖范围广泛,既适用于数据中心,也适用于移动设备。

  Gemini经过海量数据训练,擅长识别和理解文本、图像、音频等内容,并能回答复杂主题相关的问题。它特别擅长解释数学和物理等复杂学科的推理任务。此外,Gemini能生成和理解Python、Java、C++和Go等主流代码。在多个编码基准测试中,Gemini Ultra表现出色。

  谷歌还基于Gemini开发了专业的代码模型AlphaCode 2。与前一代相比,其性能提升了至少50%以上。Gemini的多模态功能使其在视觉理解和文本生成等方面表现出色。例如,它能从数十万字的小说中整理出重要观点,从200页的金融报告中找出最有价值的内容。这对金融、科技、医疗等领域的科研和业务人员来说非常有帮助。

  据澎湃新闻,谷歌DeepMind首席执行官、Gemini团队代表德米斯·哈萨比斯在发布会上直接对比了GPT-4与Gemini。“我们对系统进行了全面分析并进行了基准测试。”哈萨比斯表示,“谷歌进行了32项基准测试来比较这两个模型。”他略带微笑地说:“我认为我们在32项基准中的30项中大幅领先。”

  此外,Gemini还可应用于智能手机。从发布日起,它已开始在Bard和Pixel 8 Pro智能手机上应用,并将很快与谷歌服务中的其他产品集成。目前,谷歌计划通过谷歌云将Gemini授权给客户使用。12月13日起,开发者和企业客户可通过谷歌AI Studio或谷歌Cloud Vertex AI中的Gemini API访问Gemini Pro;安卓开发人员可使用Gemini Nano进行构建。

  Gemini Ultra是首个在MMLU方面超越人类专家的模型。该模型在包括数学、物理、历史、法律、医学和伦理学等57个科目中进行了测试。谷歌在一篇博客文章中表示,它能理解复杂主题中的细微差别和推理。而据CNBC报道,谷歌高管们在新闻发布会上表示Gemini Pro的表现优于GPT-3.5。至于与GPT-4的比较问题,他们未直接回应。对于是否对Bard Advanced的访问收费的问题,Bard总经理表示谷歌专注于提供良好的体验,目前尚未确定任何相关盈利细节。

  除了新模型外,谷歌还推出了新版本的TPU芯片TPU v5p以缩短训练大语言模型的时间。TPU是谷歌为神经网络设计的专用芯片能加速机器学习模型的训练和推断速度。谷歌自2016年起推出第一代TPU以来不断更新迭代。

  据谷歌介绍TPU v5p的浮点运算性能是TPU v4的两倍在高带宽内存方面提高了3倍。使用谷歌的600 GB/s芯片间互连可以将8960个v5p加速器耦合在一个Pod中从而更快或更高精度地训练模型。作为参考该值比TPU v5e大35倍是TPU v4的两倍多。

  谷歌称TPU v5p是其迄今为止最强大的能够提供459 teraFLOPS的bfloat16性能或918 teraOPS的Int8性能支持95GB的高带宽内存能够以2.76 TB/s的速度传输数据。这意味着TPU v5p可以比TPU v4更快地训练大型语言模型如GPT-3的速度快2.8倍。

  除了新硬件外谷歌还引入了“人工智能超级计算机”的概念。谷歌云将其描述为一种超级计算架构包括一个集成系统具有开放软件、性能优化硬件、机器学习框架和灵活的消费模型。

  谷歌计算和机器学习基础设施部门副总裁马克·洛迈尔在博客文章中解释“传统方法通常通过零碎的组件级增强来解决要求苛刻的人工智能工作负载这可能会导致效率低下和瓶颈。”“相比之下人工智能超级计算机采用系统级协同设计来提高人工智能训练、调整和服务的效率和生产力。”这可以理解为与单独看待每个部分相比这种合并将提高生产力和效率。换句话说超级计算机是一个系统其中任何可能导致性能低下的变量(硬件或软件)都受到控制和优化。

© 版权声明

相关文章