简单翻译了一下AlphaGo论文的摘要【围棋吧】

围棋吧关注：338,744贴子：10,252,680

3回复贴，共1页

简单翻译了一下AlphaGo论文的摘要

正好刚刚看到有人贴链接，就把摘要翻译了一下。我个人对计算机技术有一定了解，所以中间一些术语做了一点简单的注释。大家如果对外面瞎扯的新闻有疑问，可以参考。先放英文，后放译文
The gameof Go has long been viewed as the most challenging of classic games for ar-tificial intelligence due to its enormous search space and the difficulty ofevaluating board positions and moves. We introduce a new approach to computerGo that uses value networks to evaluateboard positions and policy networks toselect moves. These deep neural networks are trained by a novel combination ofsupervised learning from human expert games, and reinforcement learning fromgames of self-play. Without any lookahead search, the neural networks play Goat the level of state-of-the-art Monte-Carlo tree search programs that sim-ulate thousands of random games of self-play. We also introduce a new searchalgorithm that combines Monte-Carlo simulation with value and policy networks.Using this search al- gorithm, our program AlphaGoachieved a 99.8% winning rate against other Go programs, and defeatedthe European Go champion by 5 games to 0. This is the first time that a com-puter program has defeated a human professional player in the full-sized gameof Go, a feat previously thought to be at least a decade away.

送TA礼物

IP属地:上海

1楼2016-03-09 11:36回复

围棋，由于其巨大的搜索空间(SearchSpace)[1]和局面评估的困难性，长期以来被看成传统游戏中对AI最大的挑战。以下介绍一个新的计算机围棋方法：其使用估值网络(Value Networks)来评估局面和使用策略网络(Policy Network)来选择着法[2]。这些深度神经网络通过一个较新的组合方法来训练：人类专家棋谱的监督学习[3]和自身对战的强化学习[4]。不使用前向搜索的情况下，神经网络即可达到模拟了上千局的采用蒙特卡洛树搜索程序的水平[5]。我们还引入了一种新的算法结合了蒙特卡罗模拟和估值/策略网络。使用这个算法，我们的程序AlphaGo，对其他的围棋程序获得了99.8%的胜率，并且以5:0击败欧洲围棋冠军。这是计算机程序首次在19路棋盘击败人类职业棋手——而这之前被认为至少还需要10年。
翻译注:
[1] 搜索空间，指从开始下到结束的所有下法的总数。经常提到的361的阶乘就是对围棋的搜索空间大小的一种预估。
[2] 这里说的选择招法，应该指不使用其它策略的情况下（仅凭"棋感"），完整情况下，程序给出的招法一定是所有算法结合的最后产出
[3] 监督学习（supervised learning）指人工提供训练数据（正反例）的机器学习算法
[4] 强化学习（reinforcementlearning）属于非监督学习，即不由人工提供训练数据，而是提供目标，机器自行根据目标进行学习。
[5] 蒙特卡罗树搜索实际上和以前的国际象棋搜索的思路是差不多的。重点是加入了一个叫做蒙特卡洛模拟的方法，也就是如何判断局面好坏。这个算法简单的描述是：从局面A开始，双方随机（或采用某种简单的策略）下到完结，看谁赢，这样反复下很多盘，最后根据比分来决定局面A的好坏。

IP属地:上海

2楼2016-03-09 11:37

不知道有全文么？看摘要的话大概应该还是在Alpha-Beta的搜索系统上，对估值系统进行进一步的细化和区别以减少搜索结果的冗长数据，并以反馈来矫正估值系统。所以技术要点应该还是在估值这一块吧，从这点来看的话，策略过程和人类的好像还是有一定差异，在预定算法规则的前提下，也许这种策略才是优选
但是反馈矫正估值系统有没有可能会出现偏差？也就是说在这种模式下，阿发狗只能达到目前人类所达到的顶尖水平而不可能进一步提高了？

IP属地:贵州

3楼2016-03-09 12:26

收起回复

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧热议榜

3回复贴，共1页

<返回围棋吧

发表回复

发贴请遵守贴吧协议及“七条底线”贴吧投诉

内容:

使用签名档查看全部

发表

保存至快速回贴

日	一	二	三	四	五	六

简单翻译了一下AlphaGo论文的摘要

登录百度账号

扫二维码下载贴吧客户端