微软发布Magma多模态AI代理基础模型，具备UI与机器人操作能力

　　微软研究院最新发布Magma模型，专为多模态人工智能代理设计。该模型融合了视觉与语言理解能力，能够直接执行UI操作与机器人控制，突破了传统视觉语言模型仅限于静态理解的限制。Magma单一模型即可处理数字与物理环境中的互动任务，无需特定领域微调，便展现出优于现有专用模型的性能。

　　Magma的核心技术是Set-of-Mark（SoM），通过标记可操作对象，如UI按钮或机器手臂，使模型能够准确理解形象中的互动元素，进而做出适当动作。例如，在UI操作中，Magma能够识别可点击的按钮，并执行指令来完成复杂的操作流程。在机器人控制方面，SoM让人工智能能够判断环境中的物体位置与特性，控制机械手臂稳定执行物品抓取、移动等任务。

　　此外，Magma还运用了Trace-of-Mark（ToM）技术，该技术重点在于学习时序，通过标记形象中的轨迹，让人工智能理解对象在时间轴上的变化。ToM使Magma能够预测未来动作，例如判断机器手臂在操作过程中的最佳移动路径，或分析视频中人物的行为模式，更精确地规划下一步动作。相比传统逐帧预测方法，ToM使用更少的Token，但能捕捉更长时间范围的变化，提升人工智能在动态场景中的决策能力，并降低环境噪声的影响。

　　在多项基准测试中，Magma表现优异。在UI操作领域，Magma在Mind2Web和AITW测试中完成高准确率操作，证明其能够操作复杂的网页与移动设备UI。在机器人操控方面，Magma在WidowX和LIBERO测试中超越现有的机器人视觉语言模型OpenVLA，成功执行软件操控与拾取放置任务，并在已知与未知场景下展现良好的泛化能力。

　　Magma的强项在于零样本与少样本学习能力，能够直接应用于未见过的环境，而无需额外微调。测试显示，Magma在UI操作与机器人任务中，都能够在零样本场景下执行完整任务。除了UI操作与机器人应用外，Magma在视觉问答、时序推理等任务上也表现出色。在空间推理测试中，其表现甚至超越了GPT-4o。微软提到，空间推理评估对于GPT-4o来说仍然具有挑战性，但Magma尽管预训练数据少得多，却能更好地回答这类问题。

本网站上的所有资源均来源于本网站，所有网址和文章版权均归原作者所有。如有侵权行为，请将相关证明发送至以下电子邮件地址：dxsen@qq.com

微软发布Magma多模态AI代理基础模型，具备UI与机器人操作能力

首届“当AI遇见非遗••••••” 学生主题活动来啦！

ai文件用什么打开？打开ai格式的文件要知悉

相关文章

AI修改符号后自动保存了怎么办？

汉字才是AI发展的根基？解锁中文的“超能力”

春运必看：AI智能地图助力回家之旅

海航航空新设科技公司，AI领域迎来重大突破！

网址

PPT模板、PP案例、PPT课件免费下载网站

【官网】闪剪

怪兽AI数字人

蝉镜

慧播星·百度电商数字人直播

音视频内容 AI

热门网址

Huawei Enterprise: Accelerate Industrial Intelligence

快写红薯通AI

畅问AI

慧星云

新壹科技

星火网文助手

滴文

标书制作

AI小说家

百度作家平台

微软发布Magma多模态AI代理基础模型，具备UI与机器人操作能力

首届“当AI遇见非遗••••••” 学生主题活动来啦！

ai文件用什么打开？打开ai格式的文件要知悉

相关文章

AI修改符号后自动保存了怎么办？

汉字才是AI发展的根基？解锁中文的“超能力”

春运必看：AI智能地图助力回家之旅

海航航空新设科技公司，AI领域迎来重大突破！

网址

PPT模板、PP案例、PPT课件免费下载网站

【官网】 闪剪

怪兽AI数字人

蝉镜

慧播星·百度电商数字人直播

音视频内容 AI

热门网址

Huawei Enterprise: Accelerate Industrial Intelligence

快写红薯通AI

畅问AI

慧星云

新壹科技

星火网文助手

滴文

标书制作

AI小说家

百度作家平台

【官网】闪剪