AI杀入斗地主领域,快手开发DouZero对标AlphaZero,干掉344个AI获第一

AI百科6个月前更新 快创云
85 0

  在AlphaGo震撼围棋界后,有人提出了挑战:让AI尝试斗地主。快手团队欣然接受,并推出了名为DouZero的斗地主AI,其<a href="https://www.ecreat.cn/tag/%e8%ae%be%e8%ae%a1″ target=”_blank”>设计理念与AlphaZero相似,从零开始训练,无需依赖人类知识。

  在短短几天内,借助仅4个GPU,DouZero在Botzone排行榜上的344个斗地主AI中脱颖而出,占据首位。此外,用户可以通过在线试玩体验(链接在文末提供),甚至手机也能轻松运行。

  试玩中展示的是三人斗地主,玩家可选择扮演地主、地主的上家或下家。开启显示AI手牌功能,可更清晰地观察AI的决策过程。AI的考虑时间可设置,默认为3秒。在AI的回合,会展示面临的决策及每种打法的预测胜率。有时可见AI并非仅选当前胜率最高的打法,而是有更为全局的考量。

  斗地主对AI而言是一大挑战。从博弈论角度看,斗地主属于“不完全信息博弈”,与围棋这类完全信息博弈(棋子均置于盘上,双方可见)不同,斗地主中每位玩家均无法看到其他玩家手牌,这对AI构成更大难度。尽管斗地主的信息集大小及数量不及麻将,但其行动空间与德州扑克相当,达到10^4,而多数强化学习模型难以处理如此庞大的行动空间。

  斗地主所有牌型有27472种可能,某些手牌甚至有391种打法。此外,斗地主行动难以抽象化,导致搜索计算成本高昂。Deep Q-Learning和A3C等强化学习模型在此类任务中的胜率均不足20%。作为不对称游戏,斗地主要求农民在沟通有限的情况下合作对抗地主,传统算法如“反事实后悔最小化”在此类竞争与合作建模上表现不佳。

  DouZero采用Deep Q-Learning的改进版本,将手牌状态编码为4×15的独热矩阵,利用LSTM编码历史出牌信息,最终通过多层感知机(MLP)计算Q值以决定打法。除全局网络外,还设有三个角色网络分别模拟地主、地主上家及下家进行并行学习,通过共享缓冲区实现信息交换。在48个内核和4个1080Ti GPU的服务器上训练10天后,DouZero击败了此前冠军,成为最强斗地主AI。

  未来工作方向包括尝试用ResNet等CNN网络替代LSTM,以及在强化学习中引入Off-Policy学习以提高训练效率。此外,还将着重对农民间的合作进行建模。

  在线试玩链接:https://www.douzero.org
GitHub项目地址:https://github.com/kwai/DouZero
论文地址:https://arxiv.org/pdf/2106.06135.pdf

  参考链接:
[1] https://www.sohu.com/a/285835432_498635

  — 完 —

© 版权声明

相关文章