AI杀入斗地主领域，快手开发DouZero对标AlphaZero，干掉344个AI获第一

　　在AlphaGo震撼围棋界后，有人提出了挑战：让AI尝试斗地主。快手团队欣然接受，并推出了名为DouZero的斗地主AI，其<a href="https://www.ecreat.cn/tag/%e8%ae%be%e8%ae%a1″ target=”_blank”>设计理念与AlphaZero相似，从零开始训练，无需依赖人类知识。

　　在短短几天内，借助仅4个GPU，DouZero在Botzone排行榜上的344个斗地主AI中脱颖而出，占据首位。此外，用户可以通过在线试玩体验（链接在文末提供），甚至手机也能轻松运行。

　　试玩中展示的是三人斗地主，玩家可选择扮演地主、地主的上家或下家。开启显示AI手牌功能，可更清晰地观察AI的决策过程。AI的考虑时间可设置，默认为3秒。在AI的回合，会展示面临的决策及每种打法的预测胜率。有时可见AI并非仅选当前胜率最高的打法，而是有更为全局的考量。

　　斗地主对AI而言是一大挑战。从博弈论角度看，斗地主属于“不完全信息博弈”，与围棋这类完全信息博弈（棋子均置于盘上，双方可见）不同，斗地主中每位玩家均无法看到其他玩家手牌，这对AI构成更大难度。尽管斗地主的信息集大小及数量不及麻将，但其行动空间与德州扑克相当，达到10^4，而多数强化学习模型难以处理如此庞大的行动空间。

　　斗地主所有牌型有27472种可能，某些手牌甚至有391种打法。此外，斗地主行动难以抽象化，导致搜索计算成本高昂。Deep Q-Learning和A3C等强化学习模型在此类任务中的胜率均不足20%。作为不对称游戏，斗地主要求农民在沟通有限的情况下合作对抗地主，传统算法如“反事实后悔最小化”在此类竞争与合作建模上表现不佳。

　　DouZero采用Deep Q-Learning的改进版本，将手牌状态编码为4×15的独热矩阵，利用LSTM编码历史出牌信息，最终通过多层感知机(MLP)计算Q值以决定打法。除全局网络外，还设有三个角色网络分别模拟地主、地主上家及下家进行并行学习，通过共享缓冲区实现信息交换。在48个内核和4个1080Ti GPU的服务器上训练10天后，DouZero击败了此前冠军，成为最强斗地主AI。

　　未来工作方向包括尝试用ResNet等CNN网络替代LSTM，以及在强化学习中引入Off-Policy学习以提高训练效率。此外，还将着重对农民间的合作进行建模。

　　在线试玩链接：https://www.douzero.org
GitHub项目地址：https://github.com/kwai/DouZero
论文地址：https://arxiv.org/pdf/2106.06135.pdf

　　参考链接：
[1] https://www.sohu.com/a/285835432_498635

　　— 完 —

本网站上的所有资源均来源于本网站，所有网址和文章版权均归原作者所有。如有侵权行为，请将相关证明发送至以下电子邮件地址：dxsen@qq.com

AI杀入斗地主领域，快手开发DouZero对标AlphaZero，干掉344个AI获第一

大模型和生成式AI在医疗行业的落地应用｜非凡观点

ai扇形边框绘画

相关文章

人工智能研究综述

华为ai音箱2怎么联接

《汉语拼音ai ei ui》教案

DeepSeek是真懂西安啊！

网址

标书制作

快写红薯通AI

滴文

PPT模板、PP案例、PPT课件免费下载网站

音视频内容 AI

【官网】闪剪

热门网址

Huawei Enterprise: Accelerate Industrial Intelligence

快写红薯通AI

畅问AI

慧星云

新壹科技

星火网文助手

滴文

标书制作

AI小说家

百度作家平台

AI杀入斗地主领域，快手开发DouZero对标AlphaZero，干掉344个AI获第一

大模型和生成式AI在医疗行业的落地应用｜非凡观点

ai扇形边框绘画

相关文章

人工智能研究综述

华为ai音箱2怎么联接

《汉语拼音ai ei ui》教案

DeepSeek是真懂西安啊！

网址

标书制作

快写红薯通AI

滴文

PPT模板、PP案例、PPT课件免费下载网站

音视频内容 AI

【官网】 闪剪

热门网址

Huawei Enterprise: Accelerate Industrial Intelligence

快写红薯通AI

畅问AI

慧星云

新壹科技

星火网文助手

滴文

标书制作

AI小说家

百度作家平台

【官网】闪剪