围棋吧 关注:338,744贴子:10,252,680
  • 3回复贴,共1

简单翻译了一下AlphaGo论文的摘要

只看楼主收藏回复

正好刚刚看到有人贴链接,就把摘要翻译了一下。 我个人对计算机技术有一定了解,所以中间一些术语做了一点简单的注释。大家如果对外面瞎扯的新闻有疑问,可以参考。 先放英文,后放译文
The gameof Go has long been viewed as the most challenging of classic games for ar-tificial intelligence due to its enormous search space and the difficulty ofevaluating board positions and moves. We introduce a new approach to computerGo that uses value networks to evaluateboard positions and policy networks toselect moves. These deep neural networks are trained by a novel combination ofsupervised learning from human expert games, and reinforcement learning fromgames of self-play. Without any lookahead search, the neural networks play Goat the level of state-of-the-art Monte-Carlo tree search programs that sim-ulate thousands of random games of self-play. We also introduce a new searchalgorithm that combines Monte-Carlo simulation with value and policy networks.Using this search al- gorithm, our program AlphaGoachieved a 99.8% winning rate against other Go programs, and defeatedthe European Go champion by 5 games to 0. This is the first time that a com-puter program has defeated a human professional player in the full-sized gameof Go, a feat previously thought to be at least a decade away.


IP属地:上海1楼2016-03-09 11:36回复
    围棋,由于其巨大的搜索空间(SearchSpace)[1]和局面评估的困难性,长期以来被看成传统游戏中对AI最大的挑战。以下介绍一个新的计算机围棋方法:其使用估值网络(Value Networks)来评估局面和使用策略网络(Policy Network)来选择着法[2]。这些深度神经网络通过一个较新的组合方法来训练:人类专家棋谱的监督学习[3]和自身对战的强化学习[4]。不使用前向搜索的情况下,神经网络即可达到模拟了上千局的采用蒙特卡洛树搜索程序的水平[5]。我们还引入了一种新的算法结合了蒙特卡罗模拟和估值/策略网络。使用这个算法,我们的程序AlphaGo,对其他的围棋程序获得了99.8%的胜率,并且以5:0击败欧洲围棋冠军。这是计算机程序首次在19路棋盘击败人类职业棋手——而这之前被认为至少还需要10年。
    翻译注:
    [1] 搜索空间,指从开始下到结束的所有下法的总数。经常提到的361的阶乘就是对围棋的搜索空间大小的一种预估。
    [2] 这里说的选择招法,应该指不使用其它策略的情况下(仅凭"棋感"),完整情况下,程序给出的招法一定是所有算法结合的最后产出
    [3] 监督学习(supervised learning)指人工提供训练数据(正反例)的机器学习算法
    [4] 强化学习(reinforcementlearning)属于非监督学习,即不由人工提供训练数据,而是提供目标,机器自行根据目标进行学习。
    [5] 蒙特卡罗树搜索实际上和以前的国际象棋搜索的思路是差不多的。重点是加入了一个叫做蒙特卡洛模拟的方法,也就是如何判断局面好坏。这个算法简单的描述是:从局面A开始,双方随机(或采用某种简单的策略)下到完结,看谁赢,这样反复下很多盘,最后根据比分来决定局面A的好坏。


    IP属地:上海2楼2016-03-09 11:37
    回复
      不知道有全文么?看摘要的话大概应该还是在Alpha-Beta的搜索系统上,对估值系统进行进一步的细化和区别以减少搜索结果的冗长数据,并以反馈来矫正估值系统。所以技术要点应该还是在估值这一块吧,从这点来看的话,策略过程和人类的好像还是有一定差异,在预定算法规则的前提下,也许这种策略才是优选
      但是反馈矫正估值系统有没有可能会出现偏差?也就是说在这种模式下,阿发狗只能达到目前人类所达到的顶尖水平而不可能进一步提高了?


      IP属地:贵州3楼2016-03-09 12:26
      收起回复