2024年谷歌I/O大会圆满结束,谷歌在此次大会上发布了一系列重要更新,涵盖了从最新的人工智能技术到Android系统的多项改进。本次大会特别关注谷歌的Gemini人工智能模型,并详细介绍了这些模型如何被整合到Workspace、Chrome等多个应用程序中,展示了谷歌在智能技术领域的最新进展。
一、视频搜索新功能:利用AI技术简化问题描述与解答
谷歌在本次开发者大会上宣布,用户现在可以通过上传视频到谷歌镜(Google Lens)来搜索网络。这项新功能使得描述问题比使用关键词搜索更直观、更简单。谷歌镜是谷歌的视觉搜索工具,此前仅支持静态图像搜索,现在新增了视频及音频搜索功能,用户可以直接通过视频询问问题。
二、谷歌照片的新助手:“询问照片”
谷歌首席执行官桑达尔·皮查伊在大会上演示了即将推出的“询问照片”功能。这一新功能将在今年夏天正式上线,旨在提升谷歌照片服务的智能搜索能力。谷歌照片已具备令人印象深刻的搜索功能,但通过使用Gemini AI技术,谷歌希望将这些功能提升到一个全新的水平。
三、更快的AI模型:Gemini 1.5 Flash
Gemini 1.5 Flash承诺在保持与Gemini Pro同等强大的处理能力的同时,实现更快的处理速度。该模型专为需要快速响应的任务设计,如实时客户服务和快速图像生成,而其兄弟模型Gemini 1.5 Pro则更适合处理不依赖快速回答的复杂任务,如阅读并总结研究论文。
四、轻量级AI助手Gemini Nano集成进Chrome浏览器
在本次大会上,谷歌宣布其正在将Gemini AI集成到桌面版Chrome浏览器中。即将推出的Chrome 126将利用Gemini Nano来支持设备上的人工智能特性,如文本生成。这一集成将使用户能够直接在Chrome内部生成产品评论、社交媒体帖子和其他简短内容。
五、Project Astra:未来的人工智能通用助理
在本次Google I/O上,谷歌DeepMind的负责人兼谷歌人工智能项目领导者德米斯·哈萨比斯展示了一项名为Project Astra的雄心勃勃的新计划。哈萨比斯长期以来一直梦想打造一款全方位的通用助理,而Project Astra正是向这一目标迈出的重要一步。
六、新型生成AI视频模型Veo,全面挑战Sora
大会上宣布了一款名为Veo的新型生成AI视频模型。谷歌表示,Veo能够根据文本、图片和视频提示生成“高质量”的1080p分辨率视频,视频长度超过一分钟,且支持多种视觉和电影风格。
七、SynthID水印:识别AI生成的文本和视频内容
大会上,谷歌宣布新的SynthID水印系统,扩展其AI内容水印和检测技术到两种新的媒体格式。升级后的SynthID水印系统能够标记数字生成的视频以及AI生成的文本。
八、Gemini AI全新的语音对话模式
谷歌的Gemini AI助手将为Gemini Advanced订阅者推出全新的语音聊天功能,名为Gemini Live,计划在今年内上线。这一功能将支持与聊天机器人进行双向语音对话,具备智能助手功能和视觉识别能力。
九、“环形搜索”:助力数学作业解题
谷歌正在通过其新的LearnLM人工智能模型,增强Android上的“环形搜索”功能。这一功能允许用户在Android手机屏幕上用手指圈选内容即可进行搜索,现在它还可以生成解决学校数学和物理问题的指导。
十、“AI概览”:改变搜索方式
谷歌已经开始在美国推出名为“AI概览”的功能,旨在通过链接提供对查询问题的一般性解答和更多信息。这一功能此前被称为搜索生成体验(SGE),并将很快在全球范围内推广。不久后,数十亿谷歌用户将在许多搜索结果的顶部看到由AI生成的摘要。
十一、为Android推出AI驱动的诈骗电话检测功能
谷歌正在开发新的保护措施,以帮助Android用户防范电话诈骗。在本次I/O开发者大会上,谷歌宣布正在测试一项新的来电监控功能,该功能将警告用户如果与之通话的人可能在尝试诈骗,并鼓励用户结束这类通话。
十二、Gemini将更加懂得你的屏幕
谷歌正在对其Android设备上的Gemini AI进行一次关键更新,此举旨在充分利用和理解用户屏幕上显示的内容。通过这一更新,Gemini将能够更有效地协助用户解析日常生活中的数据信息。
十三、将Gemini 1.5 Pro变成用户的个人助理
谷歌宣布,其最新的主流语言模型Gemini 1.5 Pro即将集成到Docs、Sheets、Slides、Drive和Gmail的侧边栏中。当这一更新下月向付费订阅者推出时,它将转变为一个更通用的助理。此外,这一智能助理还将能够执行多种任务。目前一些早期测试者已经可以访问这些功能,但谷歌表示下个月将向所有付费的Gemini订阅者推出这一功能。