围棋AI的弱点探究

安徽小刀 · 发表于 2019-4-19 13:14:11

星阵团队的金涬博士领奖

原题：囲碁AIの弱点を探れ

译自：《月刊围棋世界》2019年第2期

原作：大桥拓文六段

翻译：洋子棋

去年12月15、16日，在日本棋院东京本部举办了2018年AI竜星战。来自中国的星阵围棋参战，这款在实力上与“绝艺”不相上下的程序如人们所预想的那样，发挥了超强的实力，最终获得了冠军。在这次大会期间，我与星阵团队进行了充分的讨论，并将它与上期介绍的ELFOpenGo V1版等程序进行了对比研究，度过了一段非常充实的时光。

在这篇文章里，我想通过对比冠军星阵与其他围棋程序，来谈一谈AI的弱点。

围棋AI的特性

首先，迄今为止的围棋AI都只考虑“胜负”，对“地”并没有多少概念，结果导致它们都有如下弱点：

（1）取得优势后的着法变得不正常；

（2）以中国规则（黑贴7目半）为前提，如果改变贴目，实力会大幅下降；

（3）如果要下非19路盘的棋，需要重新学习。

现在的主流方法没有解决这些难题，AI一旦陷入明显不利的状况就会“暴走”。

但是，星阵（Golaxy）却克服了这些弱点，对应各种条件可以灵活地处理：

（1）优势下也不退让；

（2）擅长下不贴目的让子棋；

（3）可以下非19路盘的围棋。

星阵为什么能做到这些呢？答案很简单，因为它有计算目数的功能。它可以以占地多少来进行思考，故能做到优势下不退让，下实力差距大的让子棋。

以“地”来思考的优点和缺点

对下围棋的人而言，当然以“地”来思考。但是，据说迄今为止的围棋程序一旦要考虑“地”，其实力就会打折扣。尽管也不乏有AI开发者进行尝试，但都以失败告终。

例如，无法用以数值表示的因素（厚势和棋的厚薄等）一旦处理得不够精细，全局的平衡就会被打破，从而无法取胜。而星阵却很好地融合了“地”和胜率这两个指标。我可以给大家看点数据，譬如它可以表示成“胜率60%，领先1.6目”。在上一期我们曾介绍过一种说法，即“序盘的10%大约等于1目”，看来这一说法比较恰当。

以“地”来思考，优势下会使领先最大化，落后时会尽力逆转，于是棋盘上可能会出现绝妙的手筋，正因为如此，星阵在常用围棋AI的年轻棋手中很受欢迎。

不同的AI不同的评价

我在这里做了个实验，让星阵和我自己常用的ELF V1对图1（下图）的局面进行胜率评价。图1中的左上角是著名的“点三三”常型，一力辽八段在本期的附录中对此做了专门研究，请感兴趣的读者参考附录。

在图1（下图）中，星阵给出的最有力选点是白A的碰，而ELF V1则给出了另外的选择。下面让我们来看一下ELF V1对选点评价的变化过程。

图1 实战局面

图2（下图）是ELF V1对局面的初始评价结果。排在第一的选点挂角白胜率25%，搜索次数达50万次（这是围棋程序评价结果的首要标准）。而星阵给出的最优选点在ELF V1眼里的白胜率是13%，且ELF V1只搜索了5次。这说明它在刚开始搜索时就过早放弃了星阵给出的选点。这是围棋程序的弱点，说明它并不是万能的。与此相应，星阵对该选点给出的胜率是40%以上，说明围棋程序之间有非常大的差异。

图2 ELF V1的评价（白方胜率）被抛弃的选点胜率13%（搜索5次），最优选点25%（搜索50万次）

在图3（下图）中，我们强迫ELF V1下了星阵给出的选点白1，结果白棋的胜率上升到35%。这的确是人类很难发现的一手，显然这也在ELF V1的意料之外。

图3 星阵给出的最优选点强迫ELF V1走出后，白方胜率35% 胜率飙升！

再下几步，当ELF V1发现图4（下图）中的白9扳时，胜率竟然飙升到57%，也就是说在短短的10手之内，胜率就达到了几乎60%。即使ELF V1的第一选点搜索次数已经达到了50万次，它还是会出现这样的结果。尽管在实验前我就预测到可能会出现这种情况，但真出现这一结果时，我还是感到震撼。

图4 此时ELF V1的评价：局势逆转 ELF V1的白方胜率57%

围棋AI不是万能的

围棋AI只搜索它自己看起来不错的选点。因此，它在对选点进行选择取舍时，有可能会漏看很多有力的手段。例如，本刊第96页讲座中我所解说的“碰的二段对策”这类强手就不是ELF V1的优先候选点。

人们常以为，既然围棋程序已经超越人类，那么只有它给出的选点才是正确的。而且，由于实际的搜索结果是以数据的形式反馈的，往往给人以很强的说服力。自己过去也陷入了这种错觉。

但是，这次的实验案例证明：“围棋AI所显示的选点以外，仍然可能存在更好的手段”。在实际的对局中，围棋AI即使进行多次深度搜索，有时也很难发现在它思考过程中被抛弃的好手（尽管如此，搜索的次数越多，着法的准确度就越高）。

对未来的展望

可以预见的是，几年后，超越AlphaGo的围棋将AI将会普及，谁都可以使用。其局面评价的准确度也肯定比现在高。即便如此，也不能保证它给出的就是最优解。因此，越是在这个围棋AI的时代，越是要相信棋手自己的感觉，学会使用AI，这才是最重要的。

本专栏到下期就结束了。下期我将与此前两期不同的角度来介绍围棋AI的弱点。期待下期再见！

围棋AI 星阵的强大之处

这是星阵后台运行的画面。地的后台数据用0-10的数值来评价局面。它似乎加入了对人类棋谱的学习，采取了学习地的大小的方法。

此外，星阵以清华大学的“神算子”为母体，现在由深客科技公司对它进行了升级。它在2018“中信证券杯”世界智能围棋公开赛和这次的“AI龙星战”中获得了冠军，能在AI世界大赛中两次折冠，说明了其拥有屈指可数的实力。

AlphaGo Zero和星阵

去年12月AlphaGo Zero团队公开发表了不包括围棋，只对应日本将棋和国际象棋等棋盘游戏的论文。发表本身早在一年前就已经开始，这次是将日本将棋和国际象棋的棋谱一起发表，内容更为详细。与此同时，Deepmind公司还发表了预测蛋白质结构的AlphaFold。与从零开始展开自我对局一样，它能从零开始预测蛋白质的结构，可能会有助于开发治疗阿尔茨海默和帕金森病的新药。

另一方面，要做强大的围棋AI，吸收人类的智慧非常重要，星阵团队的这一说法给我留下了深刻的印象。星阵让自己学习了大量的人类棋谱，很好地解决了征子等问题。

顺便说一句，熟悉围棋AI的人也许会认为AlphaGo Zero已经超越了学习人类棋谱的AlphaGo Master。这主要是因为AlphaGo Zero的神经网络规模是Master的两倍。关于这一点，我在拙著《围棋AI大全》中做了介绍，请读者参照。

要在其他领域进行应用的AlphaGo Zero，与要极力模仿人类使其得到进一步发展的星阵，它们在棋盘上展现出来的棋风也有差别。具体说来，AlphaGo Zero的风格是以胜率为标准，最终以半目取胜；而星阵的风格则是即使有风险也要以最多的目数取胜。

围棋达到极致，下法可能会相似。但是，棋风差异的存在不正是印证了围棋的深不可测吗？

		自动登录	找回密码
密码			立即注册