大模型玩星际争霸能秀到什么程度?有意识,有预判,中科院和汪军团队发布

AI百科1个月前更新 快创云
20 0

  全球电竞赛事 DreamHack 近日落下帷幕,星际争霸 II 顶尖选手们在比赛中展开激烈较量,其中人族选手 CLEM 凭借卓越战术和操作,击败世界冠军 Dark,赢得其首个线下大赛冠军。在 AI 领域,DeepMind 的 AlphaStar 虽为重要里程碑,但在长期战略规划和决策可解释性方面存在局限。在此背景下,中国科学院自动化研究所与伦敦大学学院合作,将 LLM Agent 技术应用于星际争霸 II 的 AI 研究。通过 LLM 理解与分析能力,团队提升了 AI 的长期战略规划与可解释性决策。

  他们设计了 TextStarCraft II 环境和 Chain of Summarization (CoS) 方法,以提升 LLM 的长期战略规划能力。CoS 方法有效提升了 LLM 对复杂环境的理解能力,极大提高了其战略规划和宏观策略能力。此外,团队邀请多位大师和宗师级选手对 LLM 在星际争霸 II 的相关知识进行测评,发现 LLM agent 展现出超越 AlphaStar 的危险预测和兵种转型能力,以及前期快攻、前期侦察、加速研发科技等类人策略。

  TextStarCraft II 环境将星际争霸 II 转换成文字游戏,基于 python-sc2 框架,将游戏状态信息和动作空间映射到文本空间。Chain of Summarization 方法则分为单帧总结和多帧总结,通过处理多步观测信息,提高了 LLM 在复杂环境中的理解和决策能力。实验结果显示,Chain of Summarization 不仅将 LLM 与游戏端的交互速度提升十倍,还显著增强了模型对游戏情境的理解及决策能力。

  在实验中,LLM agent 展现了前所未有的智能水平,超越了人类专家手动编写的策略。此外,LLM agent 展现出许多与人类玩家类似的策略,包括前期侦察、前期快攻、加速升级科技和兵种转型等。这些发现不仅支持了团队关于 LLM 在其预训练阶段学习星际争霸 II 相关知识的假设,也为理解 LLM agent 在复杂现实场景中的应用提供了新的视角。

  展望未来,TextStarCraft II 环境有望成为评估 LLM 及 LLM Agent 能力的重要标准。结合强化学习,LLM 可能会产生更高级的策略和更佳的可解释性,解决更复杂的决策场景。这不仅有望超越 AlphaStar,还可能为 AI 在现实社会中的应用开辟新道路。

© 版权声明

相关文章