【科技百科】No.007：AlphaGo

2136 阅读 0 评论 0 点赞

就在被人机围棋大战，李世石，AlphaGo等怒刷屏并成为茶余饭后谈论话题的时候，生活在四次元的问题少年问了一句“到底你们嘴里整天说的阿尔法狗多少钱一条？”在懵逼的同时觉得这个来的太猛烈的稍新词汇仍需普及！

AlphaGo的出身

AlphaGo（简称：阿尔法狗）是谷歌旗下人工智能公司DeepMind的程序，甚至并不是谷歌的主营项目！杰米斯·哈萨比斯是DeepMind的创始人！

DeepMind专攻的是深度学习和强化学习研究，这些技术能让机器自己进行大量学习。2014年1月接受谷歌出价四亿英镑的收购。被谷歌收购之前，DeepMind团队已经搭建了一些会玩经典雅达利视频游戏(比如，Pong，Breakout以及Space Invaders)的系统。

人工智能之父马文·明斯基曾提出一个假设：人类与机器之间并没有真正的区别。人类实际上也是一种机器，大脑由许多半自治但很愚蠢的“代理”(agent)组成，而“不同的任务需要完全不同的机制。”根据苏雷曼的描述，DeepMind的测试机制也是让系统中的“代理”从原始数据中学习并找出最优方法、得到最大产出。

强化学习将系统能做的事情向前推进一步。一旦搭建起一个很善于玩游戏的神经网络，你就能让它和自己对战。随着两个版本的神经网络彼此对阵数以千计次后，系统就能追查出哪些招数回报最高——也就是说得分最高——并以这种方式学会以更高的水平玩游戏。再次重申，这种原理同样适用于其他决策。

阿尔法狗的开发使用了这一切成果，而且还远不止此。哈萨比斯和他团队添加了一个二级“深度强化学习”，预测每一步的长效成果。他们还采用了过去驱动围棋游戏人工智能系统的传统人工智能技术，包括蒙特卡洛树搜索。借鉴新旧技术，他们搭建起能够击败顶级职业选手的系统。　

人工智能程序AlphaGo究竟是怎么下棋的？

AlphaGo的工作原理在于它突破了传统的程序，有了一些深度学习的能力。研究人员在阿尔法狗的程序中搭建了两套模仿人类思维方式的深度神经网络。AlphaGo这个程序利用“价值网络”去计算局面，用“策略网络”去选择下子。高逼格的词汇理解起来总有很大难度，通俗点讲阿尔法狗究竟是怎么下棋的？

第一种叫“策略网络”它让程序学习人类棋手的下法，挑选出比较有胜率的棋谱，抛弃明显的差棋，使总运算量维持在可以控制的范围内。

另一种叫价值网络：主要用于减少搜索的深度，它不会一下子搜索一盘棋所有的步数，而是一边下一边进行未来十几步的计算，这样也就大量减少计算量。

我们举一个简单的例子：人类给机器输入大量的小狗图像，机器运用深度神经网络处理图像，机器总结小狗特征，举一反三从而做出正确的判断！

阿尔法狗学习围棋同样也是相同的原理，给阿尔法狗输入3000万步人类围棋大师的走法，让阿尔法狗自我对弈3000万局积累经验，在自我对弈的训练中形成全局观对局面做出评估！

这款程序还会自己与自己下棋，通过大量的锻炼，抛弃可能失败的方案，精中选精。“深度思维”研究人员大卫·希尔韦表示，普通人一生时间能够进行的比赛数量是有限的，一年可能下一千盘，但阿尔法狗每天能下三百万盘棋。

AlphaGo主要战绩：

在挑战李世石才被大家广泛熟知的时候，AlphaGo已经战胜了欧洲围棋冠军，虽然这个冠军在全世界排名为633名并且在当时有点发挥失常，并且以5局全胜的成绩击败了第三届"孔子杯"围棋锦标赛冠军樊麾。并且在此前研究者也让“阿尔法围棋”和其他的围棋人工智能机器人进行了较量，在总计495局中只输了一局，胜率是99.8%。它甚至尝试了让4子对阵CrazyStone、Zen和Pachi三个先进的人工智能机器人，胜率分别是77%、86%和99%。

真正让AlphaGo被人熟知的则是和李世石（1983年出生于韩国，继独步天下李昌镐之后，韩国最具代表性棋手）的五场比赛。

第一句比赛：AlphaGo

本次开局阶段，双方开局非常特别。由于是对战机器人，李世石开始的打法就选择了不常规的走法，但在开局阶段，AlphaGo获得了比较大的优势。在中盘期间，李世石有所反击，逐渐有了比较大的赢面。但在后期的一个失误导致李世石全盘皆输。

AlphaGo与韩国棋手的第二局较量在首尔四季酒店举行，在此次较量中双方互换黑白，由AlphaGo执黑对战李世石。最终，AlphaGo再下一城，以总比分2：0领先李世石。

第三局李世石仍然战败！

李世石在第四战逆境中，下出神之一手撼动了AlphaGo的优势，让它计算出现了紊乱。最终，李世石为人类扳回一城，完成了不可能完成的任务。

3月15日第五局落幕，李世石再次输给阿尔法狗，最后以1：4结束了这场战争！

在这场轰轰烈烈的人机大战结束后李世石表示：这并不是人类的失败而是个人的失败。李世石坦言，如果双方再次交手，他依然没有什么信心！

总结

1997年，IBM的胜利宣告人工智能攻克了国际象棋，机器在诸多领域的智力游戏中都都击败过人类，但在闻棋领域人工智能始终无法战胜人类高手，因此围棋挑战被称作为人工智能的“阿波罗计划”！从遭遇对手到寻觅对手再到创造对手人类活动在本质上就是一场复杂的博弈！此次，人机大战阿尔法狗的胜利恰恰证明了其学习能力给未来创造了更多的可能性，无关胜负，这都是一次了不起的挑战！

本文为“科技新知”原创，首发于百略网，转载请注明来源。

点赞(0) 打赏