最新报道,来自DeepMind的研究团队在2017年末宣布其AI程序进化至AlphaZero阶段,通过自对弈强化学习,迅速超越了顶尖的国际象棋和将棋程序,即在仅了解基本规则的情况下,AlphaZero通过自对弈掌握了围棋、国际象棋和将棋。上周,DeepMind在《科学》期刊上发表了一篇关于通用强化学习算法的论文(预印本PDF),并获得了评审编辑的初步确认与更新。该论文阐述了AlphaZero如何快速学习并掌握了这三种棋类游戏,成为史上最强的棋手,尽管它仅了解游戏的基本规则,没有领域专业知识,且无需任何内置指导。
前国际象棋世界冠军加里·卡斯帕罗夫表示:“它在对弈中表现出的活力与能量让我感到莫名兴奋,在这一点我们是共通的!”这种从零开始学习棋类技艺的能力,不受人类思维方式的限制,催生出一种独特、不同于传统且极具创造力及动态思考风格的对弈方法。国际象棋大师Matthew Sadler与女子国际象棋大师Natasha Regan在即将于明年1月出版的《Game Changer》一书中对AlphaZero的数千盘对弈进行了分析,发现其棋路完全不同于任何以往国际象棋引擎。Matthew表示,“它的出现,就像是带来了古代象棋大师的秘传一般。”
传统国际象棋引擎如世界计算机国际象棋冠军Stockfish与IBM公司打造的“深蓝”,依赖于大量由顶尖人类棋手提供的规则与启发式方法。这些信息用于解释对弈中的每一种可能性。将棋也是如此,因此相关程序仅适用于一种棋类游戏,采用彼此相近的搜索引擎与算法。而AlphaZero的方法则完全不同,它利用一套深层神经网络与大量通用型算法取代了手工编写的规则,且除了基本规则之外,这些算法中没有预设任何固有方法。
图:在国际象棋中,AlphaZero用4小时成功击败Stockfish;击败将棋世界冠军Elmo只花了2个小时;而在围棋方面,AlphaZero用30个小时打败了曾击败围棋世界冠军李世石的AlphaGo。每个训练步骤代表4096个盘面位置。
在学习过程中,这套未训练神经网络通过强化学习这一实验与试错流程进行数百万轮自我对弈。最初,其下棋方式较为随意,但随着时间的推移,系统会从胜利、失败与平局中汲取经验,调整神经网络参数,以确保未来的选择更加有利。Yoshiharu Habu,职业九段且是唯一一位斩获七大将棋赛桂冠的大师表示:“它选择的某些棋步,例如将王移动至棋盘中心,与原有将棋理论明显冲突;而且从人类的角度看,这可能导致其陷入不利局面。但令人难以置信的是,AlphaZero仍然牢牢把握着主动权,其独特的棋路让我们意识到将棋中还隐藏着新的可能性。”
训练完成后,这套网络将指导蒙特卡洛树搜索(Monte-Carlo Tree Search,简称MCTS)算法选择当前盘面中最有利的走法。在每一步棋中,AlphaZero进行的位置搜索量只相当于传统棋类引擎的极小一部分。以国际象棋为例,AlphaZero每秒只需搜索6万个位置,而Stockfish则需搜索约6000万个位置。
训练完成后,这套系统开始与最强大的传统国际象棋(Stockfish)和将棋(Elmo)引擎对抗,甚至与其前代版本AlphaGo进行了一场“同室操戈”。所有比赛均在专门设计的硬件上进行。Stockfish与Elmo需要44个CPU核心(与TCEC世界大赛时的硬件配置相同),而AlphaZero与AlphaGo Zero则采用4个第一代TPU与44个CPU核心。第一代TPU的推理速度与英伟达Titan V GPU等商用硬件相当,但二者架构差别较大,难以直接比较。
所有比赛时长均为3小时,每步棋额外增加15秒。最终,AlphaZero在所有比拼中大获全胜:在国际象棋中击败了206年第9届TCEC世界锦标赛冠军Stockfish;在将棋比赛中击败了2017年CSA世界锦标赛冠军Elmo;在围棋方面则击败了AlphaGo Zero。
除了胜负之外,更重要的是AlphaZero在对弈中展现出的风格。Matthew Sadler表示:“它的走法拥有强烈的目的性与攻击性,且一直将矛头指向对方的王。”在此基础上,AlphaZero还在对抗中展现出极高的动态能力,包括尽可能提高我方棋子的灵活度与可移动性,同时最大程度限制对方棋子的灵活度与可移动性。同样值得一提的是,现代棋艺理念中认为所有棋子具有价值,因此某一选手棋盘上棋子价值总高更高则表明其在对弈中占据优势。而AlphaZero并不太重视各种棋子的具体价值而更倾向于在开局阶段通过牺牲部分棋子获得中远期竞争优势。Matthew评论称:“它在各种棋子类型及位置上都表现出这种强烈的价值取向这无疑令人印象深刻。”他同时观察到AlphaZero会在开局阶段非常刻意地选择“与人类高度相似的棋步。”此外Matthew还提到传统引擎非常稳定几乎不会出现明显的失误但在没有可供参考的具体解决思路时其往往有点无所适从相比之下AlphaZero能够在这样的情况下表现出「感觉」、「洞察」与「直观」等倾向。“这种影响绝不仅限于我最深爱的棋盘……这些自我学习的专业机器不仅棋艺超群也能够让我们从其产生的新知识中得到启发。”——加里·卡斯帕罗夫如此评价AlphaZero的深远意义。
这种其他传统棋类引擎所不具备的独特能力给众多棋类爱好者们带来了新的思路与启发。在最近的世界国际象棋锦标赛中Magnus Carlsen与Fabiano Caruana就采取了类似的战略。Natasha Regan在《Game Changer》一书中提到:“对AlphaZero、各类顶级国际象棋引擎乃至顶级大师的棋路进行分析确实是件令人着迷的事。AlphaZero有可能成为整个棋坛的重要学习工具。”
同样地AphaGo在2016年与传奇大师李世石对阵时也展现出了类似的惊艳棋步。在这轮比赛中AlphaGo仅用37步就快速胜出这彻底颠覆了人类几百年来对围棋的理解。李世石本人在内的众多棋手也开始进行深入研究。在对第37步棋进行评论时李世石说道“我一直以为AlphaGo属于一种以概率为基础的计算工具毕竟它终究只是一台机器但在看到这一步后我的看法发生了改变必须承认AlphaGo确实具有创造力。”
与围棋类似我们对AlphaZero在国际象棋中表现出的创造力同样感到兴奋。自计算机时代开始以来国际象棋一直是人工智能面临的重要挑战之一。巴贝奇、图灵、香农以及冯-诺依曼等众多先驱都在努力寻找能够解决国际象棋难题的方案。AlphaZero的出色之处在于其用途不仅限于国际象棋、将棋或围棋。为了解决各种现实问题我们要求智能系统拥有强大的灵活性并能够适应不同新情况。虽然我们在这方面取得了一定进展但问题在根本层面仍然没有得到克服。现有智能系统虽然能够以极高的标准学会特定技能却仍无法处理哪怕只是做出了略微调整的任务。而AlphaZero能够掌握三种不同的复杂棋类项目甚至有望搞定一切可提供完美信息的项目这代表着我们在实现通用型智能系统方面迈出了重要一步。就此来看单一算法完全有可能在不同的规则束缚之下学习并发现新的知识。另外尚处于早期发展阶段的AlphaZero已经能够带来创造性的见解;再加上我们在AlphaFold等其它项目中得出的激动人心的成果如今我们对于建立通用学习系统开始充满信心。总结来讲我们也许能够发现更多新型解决方案并最终克服那些最为重要、最为复杂的科学问题。