微软发布Magma多模态AI代理基础模型,具备UI与机器人操作能力

AI百科2个月前更新 快创云
32 0

  微软研究院最新发布Magma模型,专为多模态人工智能代理设计。该模型融合了视觉与语言理解能力,能够直接执行UI操作与机器人控制,突破了传统视觉语言模型仅限于静态理解的限制。Magma单一模型即可处理数字与物理环境中的互动任务,无需特定领域微调,便展现出优于现有专用模型的性能。

  Magma的核心技术是Set-of-Mark(SoM),通过标记可操作对象,如UI按钮或机器手臂,使模型能够准确理解形象中的互动元素,进而做出适当动作。例如,在UI操作中,Magma能够识别可点击的按钮,并执行指令来完成复杂的操作流程。在机器人控制方面,SoM让人工智能能够判断环境中的物体位置与特性,控制机械手臂稳定执行物品抓取、移动等任务。

  此外,Magma还运用了Trace-of-Mark(ToM)技术,该技术重点在于学习时序,通过标记形象中的轨迹,让人工智能理解对象在时间轴上的变化。ToM使Magma能够预测未来动作,例如判断机器手臂在操作过程中的最佳移动路径,或分析视频中人物的行为模式,更精确地规划下一步动作。相比传统逐帧预测方法,ToM使用更少的Token,但能捕捉更长时间范围的变化,提升人工智能在动态场景中的决策能力,并降低环境噪声的影响。

  在多项基准测试中,Magma表现优异。在UI操作领域,Magma在Mind2Web和AITW测试中完成高准确率操作,证明其能够操作复杂的网页与移动设备UI。在机器人操控方面,Magma在WidowX和LIBERO测试中超越现有的机器人视觉语言模型OpenVLA,成功执行软件操控与拾取放置任务,并在已知与未知场景下展现良好的泛化能力。

  Magma的强项在于零样本与少样本学习能力,能够直接应用于未见过的环境,而无需额外微调。测试显示,Magma在UI操作与机器人任务中,都能够在零样本场景下执行完整任务。除了UI操作与机器人应用外,Magma在视觉问答、时序推理等任务上也表现出色。在空间推理测试中,其表现甚至超越了GPT-4o。微软提到,空间推理评估对于GPT-4o来说仍然具有挑战性,但Magma尽管预训练数据少得多,却能更好地回答这类问题。

© 版权声明

相关文章