AlphaGo Zero横空出世，DeepMind Nature论文解密不使用人类知识掌握围棋

2017-10-19新智元

　
来源：Nature；DeepMind
编译：闻菲，刘小芹
　
【新智元导读】新智元AI World 2017世界人工智能大会倒计时进入20天，DeepMind 如约公布了他们最新版AlphaGo论文，也是他们最新的Nature论文，介绍了迄今最强最新的版本AlphaGo Zero，使用纯强化学习，将价值网络和策略网络整合为一个架构，3天训练后就以100比0击败了上一版本的AlphaGo。AlphaGo已经退休，但技术永存。DeepMind已经完成围棋上的概念证明，接下来就是用强化学习创造改变世界的价值。

今年5月乌镇围棋大赛时，DeepMind CEO Hassabis 表示，将在今年晚些时候公布战胜了柯洁的那版AlphaGo的技术细节。今天，这个承诺如约兑现，DeepMind在他们最新发表于Nature的一篇论文中，描述了迄今最强大的一版AlphaGo——　AlphaGo Zero 的技术细节。

AlphaGo Zero完全不依赖于人类数据，因此，这一系统的成功也是朝向人工智能研究长期以来的目标——创造出在没有人类输入的条件下，在最具挑战性的领域实现超越人类能力的算法——迈进的一大步。

作者在论文中写道，AlphaGo Zero 证明了即使在最具挑战的领域，纯强化学习的方法也是完全可行的：不需要人类的样例或指导，不提供基本规则以外的任何领域知识，使用强化学习能够实现超越人类的水平。此外，纯强化学习方法只花费额外很少的训练时间，但相比使用人类数据，实现了更好的渐进性能（asymptotic performance）。

在很多情况下，人类数据，尤其是专家数据，往往太过昂贵，或者根本无法获得。如果类似的技术可以应用到其他问题上，这些突破就有可能对社会产生积极的影响。

是的，你或许要说，AlphaGo已经在今年5月宣布退休，但AlphaGo的技术将永存，并进一步往前发展、进化。DeepMind已经完成围棋上的概念证明，接下来，就是用他们的强化学习改变世界。

这也是为什么接下来我们要介绍的这篇论文如此重要——它不仅是很多人期盼已久的技术报告，也是人工智能一个新的技术节点。在未来，它将得到很多引用，成为无数AI产业和服务的基础。

迄今最强大的围棋程序：不使用人类的知识　

DeepMind这篇最新的Nature，有一个朴素的名字——《不使用人类知识掌握围棋》。

摘要

人工智能长期以来的一个目标是创造一个能够在具有挑战性的领域，以超越人类的精通程度学习的算法，“tabula rasa”（译注：一种认知论观念，认为指个体在没有先天精神内容的情况下诞生，所有的知识都来自于后天的经验或感知）。此前，AlphaGo成为首个在围棋中战胜人类世界冠军的系统。AlphaGo的那些神经网络使用人类专家下棋的数据进行监督学习训练，同时也通过自我对弈进行强化学习。

在这里，我们介绍一种仅基于强化学习的算法，不使用人类的数据、指导或规则以外的领域知识。AlphaGo成了自己的老师。我们训练了一个神经网络来预测AlphaGo自己的落子选择和AlphaGo自我对弈的赢家。这种神经网络提高了树搜索的强度，使落子质量更高，自我对弈迭代更强。从“tabula rasa”开始，我们的新系统AlphaGo Zero实现了超人的表现，以100：0的成绩击败了此前发表的AlphaGo。

DOI：10.1038/nature24270

　
全新的强化学习：自己成为自己的老师　
AlphaGo Zero　得到这样的结果，是利用了一种新的强化学习方式，在这个过程中，AlphaGo Zero 成为自己的老师。这个系统从一个对围棋游戏完全没有任何知识的神经网络开始。然后，通过将这个神经网络与一种强大的搜索算法相结合，它就可以自己和自己下棋了。在它自我对弈的过程中，神经网络被调整、更新，以预测下一个落子位置以及对局的最终赢家。
这个更新后的神经网络又将与搜索算法重新组合，进而创建一个新的、更强大的 AlphaGo Zero 版本，再次重复这个过程。在每一次迭代中，系统的性能都得到一点儿的提高，自我对弈的质量也在提高，这就使得神经网络的预测越来越准确，得到更加强大的 AlphaGo Zero 版本。

这种技术比上一版本的 AlphaGo 更强大，因为它不再受限于人类知识的局限。相反，它可以从一张白纸的状态开始，从世界上最强大的围棋玩家——AlphaGo 自身——学习。

AlphaGo Zero　在其他方面也与之前的版本有所不同：

AlphaGo Zero 只使用围棋棋盘上的黑子和白子作为输入，而上一版本的 AlphaGo 的输入包含了少量人工设计的特征。

它只使用一个神经网络，而不是两个。以前版本的 AlphaGo 使用一个“策略网络”（policy network）来选择下一个落子位置和一个“价值网络”（value network）来预测游戏的赢家。这些在 AlphaGo Zero 中是联合进行的，这使得它能够更有效地进行训练和评估。

AlphaGo Zero 不使用“走子演算”（rollout）——这是其他围棋程序使用的快速、随机游戏，用来预测哪一方将从当前的棋局中获胜。相反，它依赖于高质量的神经网络来评估落子位置。

上面的所有这些不同之处都有助于提高系统的性能，使其更加通用。但使得这个系统更加强大和高效的是算法的改变。

在进行了3天的自我训练后，AlphaGo Zero 在100局比赛中以100：0击败了上一版本的 AlphaGo——而上一版本的 AlphaGo 击败了曾18次获得围棋世界冠军的韩国九段棋士李世乭。经过 40 天的自我训练后，AlphaGo Zero 变得更加强大，超越了“Master”版本的 AlphaGo——Master 曾击败世界上最优秀的棋士、世界第一的柯洁。

在经过数以百万计的 AlphaGo vs AlphaGo 的对弈后，这个系统逐渐从零开始学会了下围棋，在短短几天内积累了人类数千年积累的知识。AlphaGo Zero 也发现了新的知识，开发出非常规的策略和创造性的新下法，这些新下法超越了它在与柯洁和李世乭比赛时发明的新技巧。

尽管目前仍处于早期阶段，但 AlphaGo Zero 成为了朝着这个目标迈进的关键一步。DeepMind 联合创始人兼 CEO　Demis Hassabis 评论称：“AlphaGo在短短两年里取得了如此令人惊叹的成果。现在，AlphaGo Zero是我们项目中最强大的版本，它展示了我们在更少的计算能力，而且完全不使用人类数据的情况下可以取得如此大的进展。

“最终，我们希望利用这样的算法突破来帮助解决现实世界的各种紧迫问题，例如蛋白质折叠或新材料设计。如果我们能在这些问题上取得与AlphaGo同样的进展，就有可能推动人类理解，并对我们的生活产生积极影响。”

AlphaGo Zero　技术细节拆解：将价值网络和策略网络整合为一个架构，整合蒙特卡洛搜索不断迭代　

新方法使用了一个深度神经网络　fθ，参数为 θ。这个神经网络将原始棋盘表征 s（棋子位置和历史）作为输入，输出落子概率和一个值　(p, v)= fθ(s)。

落子概率向量 p 表示选择下每一步棋（包括不下）的概率。值 v 是一个标量估值，衡量当前棋手在位置 s 获胜的概率。

这个神经网络将最初的 AlphaGo（下文中的 AlphaGo Fan 和 AlphaGo Lee，分别指对战樊麾和对战李世石的版本）的策略网络和价值网络整合到一个架构里，含有很多基于卷积神经网络的残差模块，这些残差模块中使用了批正则化（batch normalization）和非线性整流函数（rectifier nonlinearities）。

AlphaGo Zero 的神经网络使用自我对弈数据做训练，这些自我对弈是在一种新的强化学习算法下完成的。在每个位置 s，神经网络 fθ　都会进行蒙特卡洛树搜索（MCTS）。MCTS 输出下每步棋的落子概率 π。这样搜索得出的概率通常比神经网络 fθ(s) 的原始落子概率 p 要更加强一些；MCTS 也因此可以被视为一个更加强大的策略提升 operator。

系统通过搜索进行自我对弈，也即使用增强的基于 MCTS 的策略选择下哪步棋，然后使用获胜者 z 作为价值样本，这个过程可以被视为一个强有力的策略评估 operator。

这一新的强化学习算法的核心思想是，在策略迭代的过程中，反复使用这些搜索　 operator：神经网络的参数不断更新，让落子概率和价值 (p,v)= fθ(s) 越来越接近改善后的搜索概率和自我对弈赢家 (π, z)。这些新的参数也被用于下一次自我对弈的迭代，让搜索更强。下面的图1 展示了自我对弈训练的流程。

图1：AlphaGo Zero 自我对弈训练的流程：a. 程序自己和自己下棋，标记为s1, ..., sT。在每个位置st，一个MCTS αθ被执行（见图2），使用最新的神经网络fθ。每个走子选择的依据是通过MCTS, at πt计算的搜索概率。最终的位置sT根据游戏规则计算对局的最终胜者z。b. AlphaGo Zero 中神经网络的训练。该神经网络将棋盘位置st作为输入，与参数θ一起讲它传送到许多的卷积层，并同时输出表示每一走子的概率分布的向量 pt 和一个表示当前玩家在位置 st 上的赢率的标量值 vt。

MCTS 使用神经网络 fθ　指导其模拟（参见图2）。搜索树中的每条边 (s, a) 都存储了一个概率先验 P(s, a)，一个访问数 N(s, a)，以及动作值 Q(s, a)。每次模拟都从根节点状态开始，不断迭代，选择能将置信区间 Q(s, a)+ U(s, a) 的上层最大化的落子结果，直到走到叶节点 s′。

然后，网络会扩充这个叶节点，并且只进行一次评估，生成概率先验和评估值，(P(s′, ·), V(s′))= fθ(s′)。在模拟中，遍历每条边 (s, a) 后，会更新访问量 N(s, a)，然后将动作值更新，取所有模拟的平均值：

。

MCTS 可以被看做一种自我对弈算法：给定神经网络参数 θ 和一个根节点位置 s，计算搜索概率向量推荐落子 π = αθ(s)，与每步棋的访问量指数成正比，τ 是温度参数：

。

图2：MCTS 使用神经网络 fθ 模拟落子选择的过程示意

神经网络使用这个自我对弈的强化学习算法做训练，正如上文介绍，这个算法使用 MCTS 下每一步棋。首先，神经网络使用随机权重 θ0　初始化。在随后的每一次迭代中，i ≥ 1，生成自我对弈棋谱（参见图1的a）。在每个时间步长 t，运行一个 MCTS 搜索 πt　= αθ　(st)，使用上一次神经网络 fθi1　迭代的结果，然后根据搜索概率采样下出一步棋。一局棋在第 T 步结束，也就是双方都无法落子，搜索值降低到阈值以下的时候。随后，进行计分，得出奖励 rT ∈ {1,+1}。

每一个时间步长 t 的数据都被存储为 (st, πt, zt)，其中 zt = ± rT 就是从当前这步棋 t 看来最终获胜的赢家。

同时（参见图1 b），使用从最后一次自我对弈迭代的所有时间步长中获取的数据　 (s, π, z)，对新的网络参数 θi 进行训练。调整神经网络 (p, v) = fθi (s)，将预测值 v 和自我对比胜者 z 之间的误差降低到最小，同时将神经网络落子概率 p 和搜索概率 π 之间的相似度提升到最大。

具体说，我们用损失函数 l 的梯度下降来调节参数 θ，这个损失函数表示如下，其中 c 是控制 L2 权重正则化水平的参数（防止过拟合）：

评估结果：21天就比战胜柯洁的Master更加厉害　
DeepMind官方博客上介绍了AlphaGo Zero与此前版本的对比。完全从零开始，3天超越AlphaGo李世石版本，21天达到Master水平。

几个不同版本的计算力对比如下：

论文中，为了分开结构和算法的贡献，DeepMind研究人员还比较了 AlphaGo Zero 的神经网络架构和先前与李世乭对弈时的 AlphaGo （记为 AlphaGo Lee）的神经网络架构的性能（见图4）。

我们构建了4个神经网络，分别是在 AlphaGo Lee 中使用的分开的策略网络和价值网络，或者在 AlphaGo Zero 中使用的合并的策略和价值网络；以及 AlphaGo Lee 使用的卷积网络架构，或 AlphaGo Zero 使用的残差网络架构。每个网络都被训练以最小化同一个损失函数（公式1），训练使用的是 AlphaGo Zero 在72小时的自我对弈之后产生的同一个自我对弈棋局数据集。

使用残差网络的准确率更高，误差更低，在 AlphaGo 达到600 Elo（等级分）的性能提高。将策略（policy）和价值（value）结合到一个单一的网络中的话，走子预测的准确性略微降低了，但是价值错误也降低了，并且将 AlphaGo 的性能再提高了600 Elo。这在一定程度上是由于提高了计算效率，但更重要的是，双目标使网络成为支持多个用例的常规表示。

图4：AlphaGo Zero 和 AlphaGo Lee 的神经网络架构比较。使用分开的策略和价值网络记为（sep），使用组合的策略和价值网络记为（dual），使用卷积网络记为（conv），使用残差网络记为（res）。“dual-res”和“sep-conv”分别表示在 AlphaGo Zero 和 AlphaGo Lee 中使用的神经网络架构。每个网络都在同一个数据集上训练，该数据集由 AlphaGo Zero 的自我对弈产生。a，每个训练好的网络都与 AlphaGo Zero 的搜索相结合，以得到一个不同的玩家。Elo等级分是由这些不同玩家之间的评估游戏计算得到的，每一步棋有5秒的思考时间。b，对每个网络架构的职业棋手的走法（从GoKifu数据集得来）的预测准确性。c，每个网络架构的人类职业棋手的棋局结果（从GoKifu数据集得来）的MSE。

AlphaGo Zero学到的知识。a，AlphaGo Zero训练期间发现的五个人类定式（常见的角落序列）。b）自我对弈中爱用的5个定式。c）在不同训练阶段进行的3次自我对弈的前80步棋，每次搜索使用1,600次模拟（约0.4s）。最开始，系统关注夺子，很像人类初学者。而后，关注势和地，也即围棋根本。最后，整场比赛体现出了很好的平衡，涉及多次战斗和一场复杂的战斗，最终以白棋多半子获胜。

AlphaGo 小传　
姓名：AlphaGo（Fan，Lee，Master，Zero）
别名：阿老师，阿尔法狗
生日：2014年
出生地：英国伦敦
　
1
击败樊麾
2015年10月，AlphaGo击败樊麾，成为第一个无需让子即可在19路棋盘上击败围棋职业棋手的电脑围棋程序，写下了历史，相关成果在2016年1月发表于Nature
2
击败李世石
2016年3月，AlphaGo在一场五番棋比赛中4:1击败尖端职业棋手李世石，成为第一个不借助让子而击败围棋职业九段棋手的电脑围棋程序，再创历史。五局赛后韩国棋院授予AlphaGo有史以来第一位名誉职业九段
3
排名短暂超越柯洁
2016年7月18日，AlphaGo在Go Ratings网站的排名升至世界第一。但几天之后被柯洁反超。
4
化名“Master”横扫棋界

2016年底至2017年年初，再度强化的AlphaGo以“Master”为名，在未公开其真实身份的情况下，借非正式的网络快棋对战进行测试，挑战中韩日台的一流高手，60战全胜
5
战胜柯洁，成为世界第一
2017年5月23至27日乌镇围棋峰会，最新的强化版AlphaGo和世界第一棋手柯洁对局，并配合八段棋手协同作战与对决五位顶尖九段棋手等五场比赛，获取3比零全胜的战绩，团队战与组队战也全胜。这次AlphaGo的运算资源消耗仅李世石版本的十分之一。在与柯洁的比赛结束后，中国围棋协会授予AlphaGo职业围棋九段的称号
AlphaGo在没有人类对手后，2017年5月25日，AlphaGo之父杰米斯·哈萨比斯宣布AlphaGo退役。AlphaGo的研究计划于2014年开始，从业余棋手的水平到世界第一，AlphaGo的棋力获取这样的进步，仅仅花了两年左右。

AlphaGo虽已退休，但技术永存。

谨以此文，致敬AlphaGo，以及研发AlphaGo的人。

0 条评论

默认排序时间排序

2 个回答

仲雄绿 2019-07-14 11:14

目测data scientist也会失业啊
机器自己会调参数了啊

仲雄绿 2019-07-14 11:14

还有一篇：人类其实把阿法狗教坏了
去年，有个小孩读遍人世所有的棋谱，辛勤打谱，苦思冥想，棋艺精进，4-1打败世界冠军李世石，从此人间无敌手。他的名字叫阿法狗。
今年，他的弟弟只靠一副棋盘和黑白两子，没看过一个棋谱，也没有一个人指点，从零开始，自娱自乐，自己参悟，100-0打败哥哥阿法狗。他的名字叫阿法元。
DeepMind这项伟大的突破，今天以Mastering the game of Go without human knowledge为题，发表于Nature，引起轰动。知社特邀国内外几位人工智能专家，给予深度解析和点评。文末有DeepMind David Silver博士专访视频。特别致谢Nature和DeepMind提供讯息和资料授权。
　

Nature今天上线的这篇重磅论文，详细介绍了谷歌DeepMind团队最新的研究成果。人工智能的一项重要目标，是在没有任何先验知识的前提下，通过完全的自学，在极具挑战的领域，达到超人的境地。去年，阿法狗（AlphaGo）代表人工智能在围棋领域首次战胜了人类的世界冠军，但其棋艺的精进，是建立在计算机通过海量的历史棋谱学习参悟人类棋艺的基础之上，进而自我训练，实现超越。
　

阿法狗元棋力的增长与积分比较
　
可是今天，我们发现，人类其实把阿法狗教坏了！新一代的阿法元(AlphaGo Zero), 完全从零开始，不需要任何历史棋谱的指引，更不需要参考人类任何的先验知识，完全靠自己一个人强化学习（reinforcement learning）和参悟,　棋艺增长远超阿法狗，百战百胜，击溃阿法狗100-0。
　
达到这样一个水准，阿法元只需要在4个TPU上，花三天时间，自己左右互搏490万棋局。而它的哥哥阿法狗，需要在48个TPU上，花几个月的时间，学习三千万棋局，才打败人类。
　

　
这篇论文的第一和通讯作者是DeepMind的David Silver博士,　阿法狗项目负责人。他介绍说阿法元远比阿法狗强大，因为它不再被人类认知所局限，而能够发现新知识，发展新策略：

This technique is more powerful than previous versions of AlphaGo because it is no longer constrained by the limits of human knowledge. Instead, it is able to learn tabula rasa　 from the strongest player in the world: AlphaGo itself. AlphaGo Zero also discovered new knowledge, developing unconventional strategies and creative new moves that echoed and surpassed the novel techniques it played in the games against Lee Sedol and Ke Jie.
　

　
DeepMind联合创始人和CEO则说这一新技术能够用于解决诸如蛋白质折叠和新材料开发这样的重要问题：
　
AlphaGo Zero is now the strongest version of our program and shows how much progress we can make even with less computing power and zero use of human data. Ultimately we want to harness algorithmic breakthroughs like this to help solve all sorts of pressing real world problems like protein folding　or designing new materials.
　
美国的两位棋手在Nature对阿法元的棋局做了点评：它的开局和收官和专业棋手的下法并无区别，人类几千年的智慧结晶，看起来并非全错。但是中盘看起来则非常诡异：

the AI’s opening choices and end-game methods have converged on ours — seeing it arrive at our sequences from first principles suggests that we haven’t been on entirely the wrong track. By contrast, some of its middle-game judgements are truly mysterious.
　
为更深入了解阿法元的技术细节，知社采访了美国杜克大学人工智能专家陈怡然教授。他向知社介绍说：
　
　DeepMind最新推出的AlphaGo Zero降低了训练复杂度，摆脱了对人类标注样本(人类历史棋局)的依赖，让深度学习用于复杂决策更加方便可行。我个人觉得最有趣的是证明了人类经验由于样本空间大小的限制，往往都收敛于局部最优而不自知（或无法发现），而机器学习可以突破这个限制。之前大家隐隐约约觉得应该如此，而现在是铁的量化事实摆在面前！
　
他进一步解释道：

这篇论文数据显示学习人类选手的下法虽然能在训练之初获得较好的棋力，但在训练后期所能达到的棋力却只能与原版的AlphaGo相近，而不学习人类下法的AlphaGo Zero最终却能表现得更好。这或许说明人类的下棋数据将算法导向了局部最优(local optima)，而实际更优或者最优的下法与人类的下法存在一些本质的不同，人类实际’误导’了AlphaGo。有趣的是如果AlphaGo Zero放弃学习人类而使用完全随机的初始下法，训练过程也一直朝着收敛的方向进行，而没有产生难以收敛的现象。
　
阿法元是如何实现无师自通的呢？杜克大学博士研究生吴春鹏向知社介绍了技术细节：

之前战胜李世石的AlphaGo基本采用了传统增强学习技术再加上深度神经网络DNN完成搭建，而AlphaGo Zero吸取了最新成果做出了重大改进。

首先，在AlphaGo Zero出现之前，基于深度学习的增强学习方法按照使用的网络模型数量可以分为两类:　一类使用一个DNN"端到端"地完成全部决策过程(比如DQN)，这类方法比较轻便，对于离散动作决策更适用; 另一类使用多个DNN分别学习policy和value等(比如之前战胜李世石的AlphaGoGo)，这类方法比较复杂，对于各种决策更通用。此次的AlphaGo Zero综合了二者长处，采用类似DQN的一个DNN网络实现决策过程，并利用这个DNN得到两种输出policy和value，然后利用一个蒙特卡罗搜索树完成当前步骤选择。

其次，AlphaGo Zero没有再利用人类历史棋局，训练过程从完全随机开始。随着近几年深度学习研究和应用的深入，DNN的一个缺点日益明显: 训练过程需要消耗大量人类标注样本，而这对于小样本应用领域(比如医疗图像处理)是不可能办到的。所以Few-shot learning和Transfer learning等减少样本和人类标注的方法得到普遍重视。AlphaGo Zero是在双方博弈训练过程中尝试解决对人类标注样本的依赖，这是以往没有的。
　
第三，AlphaGo Zero在DNN网络结构上吸收了最新进展，采用了ResNet网络中的Residual结构作为基础模块。近几年流行的ResNet加大了网络深度，而GoogLeNet加大了网络宽度。之前大量论文表明，ResNet使用的Residual结构比GoogLeNet使用的Inception结构在达到相同预测精度条件下的运行速度更快。AlphaGo Zero采用了Residual应该有速度方面的考虑。
　

杜克大学博士研究生谢知遥对此做了进一步阐述：

DeepMind的新算法AlphaGo Zero开始摆脱对人类知识的依赖：在学习开始阶段无需先学习人类选手的走法，另外输入中没有了人工提取的特征。

在网络结构的设计上，新的算法与之前的AlphaGo有两个大的区别。首先，与之前将走子策略(policy)网络和胜率值(value)网络分开训练不同，新的网络结构可以同时输出该步的走子策略(policy)和当前情形下的胜率值(value)。实际上 policy与value网络相当于共用了之前大部分的特征提取层，输出阶段的最后几层结构仍然是相互独立的。训练的损失函数也同时包含了policy和value两部分。这样的显然能够节省训练时间，更重要的是混合的policy与value网络也许能适应更多种不同情况。

另外一个大的区别在于特征提取层采用了20或40个残差模块，每个模块包含2个卷积层。与之前采用的12层左右的卷积层相比，残差模块的运用使网络深度获得了很大的提升。AlphaGo Zero不再需要人工提取的特征应该也是由于更深的网络能更有效地直接从棋盘上提取特征。根据文章提供的数据，这两点结构上的改进对棋力的提升贡献大致相等。

因为这些改进，AlphaGo Zero的表现和训练效率都有了很大的提升，仅通过4块TPU和72小时的训练就能够胜过之前训练用时几个月的原版AlphaGo。在放弃学习人类棋手的走法以及人工提取特征之后，算法能够取得更优秀的表现，这体现出深度神经网络强大的特征提取能力以及寻找更优解的能力。更重要的是，通过摆脱对人类经验和辅助的依赖，类似的深度强化学习算法或许能更容易地被广泛应用到其他人类缺乏了解或是缺乏大量标注数据的领域。
　
这个工作意义何在呢？人工智能专家、美国北卡罗莱纳大学夏洛特分校洪韬教授也对知社发表了看法：
　
我非常仔细从头到尾读了这篇论文。首先要肯定工作本身的价值。从用棋谱(supervised learning)到扔棋谱，是重大贡献(contribution)！干掉了当前最牛的棋手（变身前的阿法狗），是advancing state-of-the-art 。神经网络的设计和训练方法都有改进，是创新（novelty）。从应用角度，以后可能不再需要耗费人工去为AI的产品做大量的前期准备工作，这是其意义(significance)所在！
　
接着，洪教授也简单回顾了人工神经网络的历史：

人工神经网络在上世纪四十年代就出来了，小火了一下就撑不下去了，其中一个原因是大家发现这东西解决不了“异或问题”，而且训练起来太麻烦。到了上世纪七十年代，Paul Werbos读博时候拿backpropagation的算法来训练神经网络，提高了效率，用多层神经网络把异或问题解决了，也把神经网络带入一个新纪元。上世纪八九十年代，人工神经网络的研究迎来了一场大火，学术圈发了成千上万篇关于神经网络的论文，从设计到训练到优化再到各行各业的应用。
　
Jim Burke教授，一个五年前退休的IEEE Life Fellow，曾经讲过那个年代的故事：去开电力系统的学术会议，每讨论一个工程问题，不管是啥，总会有一帮人说这可以用神经网络解决，当然最后也就不了了之了。简单的说是大家挖坑灌水吹泡泡，最后没啥可忽悠的了，就找个别的地儿再继续挖坑灌水吹泡泡。上世纪末的学术圈，如果出门不说自己搞神经网络的都不好意思跟人打招呼，就和如今的深度学习、大数据分析一样。
　
然后，洪教授对人工智能做了并不十分乐观的展望：
　
回到阿法狗下棋这个事儿，伴随着大数据的浪潮，数据挖掘、机器学习、神经网络和人工智能突然间又火了起来。这次火的有没有料呢？我认为是有的，有海量的数据、有计算能力的提升、有算法的改进。这就好比当年把backpropagation用在神经网络上，的确是个突破。
　
最终这个火能烧多久，还得看神经网络能解决多少实际问题。二十年前的大火之后，被神经网络“解决”的实际问题寥寥无几，其中一个比较知名的是电力负荷预测问题，就是用电量预测，刚好是我的专业。由于当年神经网络过于火爆，导致科研重心几乎完全离开了传统的统计方法。等我刚进入这个领域做博士论文的时候，就拿传统的多元回归模型秒杀了市面上的各种神经网络遗传算法的。我一贯的看法，对于眼前流行的东西，不要盲目追逐，要先审时度势，看看自己擅长啥、有啥积累，看准了坑再跳。
　
美国密歇根大学人工智能实验室主任Satinder Singh也表达了和洪教授类似的观点：这并非任何结束的开始，因为人工智能和人甚至动物相比，所知所能依然极端有限：

This is not the beginning of any end because AlphaGo Zero, like all other successful AI so far, is extremely limited in what it knows and in what it can do compared with humans and even other animals.

不过，Singh教授仍然对阿法元大加赞赏：这是一项重大成就, 显示强化学习而不依赖人的经验，可以做的更好：

The improvement in training time and computational complexity of AlphaGo Zero relative to AlphaGo, achieved in about a year, is a major achievement… the results suggest that AIs based on reinforcement learning can perform much better than those that rely on human expertise.

陈怡然教授则对人工智能的未来做了进一步的思考：

AlphaGo Zero没有使用人类标注，只靠人类给定的围棋规则，就可以推演出高明的走法。有趣的是，我们还在论文中看到了AlphaGo Zero掌握围棋的过程。比如如何逐渐学会一些常见的定式与开局方法，如第一手点三三。相信这也能对围棋爱好者理解AlphaGo的下棋风格有所启发。
　
除了技术创新之外，AlphaGo Zero又一次引发了一个值得所有人工智能研究者思考的问题: 在未来发展中，我们究竟应该如何看待人类经验的作用。在AlphaGo Zero自主学会的走法中，有一些与人类走法一致，区别主要在中间相持阶段。AlphaGo Zero已经可以给人类当围棋老师，指导人类思考之前没见过的走法，而不用完全拘泥于围棋大师的经验。也就是说AlphaGo Zero再次打破了人类经验的神秘感，让人脑中形成的经验也是可以被探测和学习的。
　
陈教授最后也提出一个有趣的命题：

未来我们要面对的一个挑战可能就是: 在一些与日常生活有关的决策问题上，人类经验和机器经验同时存在，而机器经验与人类经验有很大差别，我们又该如何去选择和利用呢？
　
不过David Silver对此并不担心，而对未来充满信心。他指出：

If similar techniques can be applied to other structured problems, such as protein folding, reducing energy consumption or searching for revolutionary new materials, the resulting breakthroughs have the potential to positively impact society.
　
更多讯息，请参见Nature论文链接http://nature.com/articles/doi:10.1038/nature24270

AlphaGo Zero横空出世，DeepMind Nature论文解密不使用人类知识掌握围棋

2 个回答

相似问题