围棋吧 关注:349,242贴子:10,520,778

简单易懂地理解阿法狗

只看楼主收藏回复

首先声明,我既不是计算机专家围棋也不太会下,以下说明如果有错误在所难免,忘各位海涵。会关注这次的人机大战完全是兴趣使然,在这里看文字直播的时候觉得可能有的朋友不太理解阿法狗的原理而产生了奇怪的怀疑。我就写一点东西表示对围棋吧的文字直播的感谢。
另外,以下内容均来源于我对谷歌deepmind团队发表的论文的理解。


IP属地:北京来自iPhone客户端1楼2016-03-10 18:06回复
    在很久很久以前,那是电脑还不会下棋的时代。有一帮闲的蛋疼的程序员每天都在自己的电脑上跑代码。有一天他们觉得电脑一天到晚工作,要是不学点爱好会得抑郁症的,于是他们开始教电脑下棋。


    IP属地:北京来自iPhone客户端2楼2016-03-10 18:08
    回复
      呵呵


      IP属地:北京来自iPhone客户端3楼2016-03-10 18:09
      收起回复
        一开始他们教电脑下黑白棋。电脑通过穷举所有可能的选择学会了,也就是说电脑成为了黑白棋的第一高手。程序员们很开心,决定再教电脑点别的。


        IP属地:北京来自iPhone客户端4楼2016-03-10 18:10
        收起回复
          ibm的一帮程序员开始教国际象棋。然后他们发现,国际象棋的下法太多电脑太笨算不过来。程序员们想了想就跟电脑说,其实你不需要每一步都算那么多,你下一步棋只需要算后边几步就好了,你再记几个定式之类的就行了。


          IP属地:北京来自iPhone客户端5楼2016-03-10 18:14
          回复
            这就是深蓝,深蓝不去想着穷举所有的国际象棋可能,只想着眼前的几步。再加上程序员的各种调教,就这样电脑终于学会了国际象棋。


            IP属地:北京来自iPhone客户端6楼2016-03-10 18:15
            回复
              这个小狗比深蓝厉害多了


              IP属地:上海7楼2016-03-10 18:16
              回复
                然而等到程序员们想教电脑下围棋。这就麻烦了,围棋不是国际象棋,现在下的一步也许到了几十步以后才能发挥出威力,每一步的选择还那么多。电脑虽然能算,但也没能力算那么多,这tmd怎么玩?


                IP属地:北京来自iPhone客户端8楼2016-03-10 18:18
                回复
                  后来有一帮程序员想了个办法。我们应该换个办法训练电脑。这就是我们的阿法狗。阿法狗的训练分成了两个部分。


                  IP属地:北京来自iPhone客户端9楼2016-03-10 18:21
                  回复
                    第一个叫做模仿。让阿法狗下棋,随便下,如果下得和李师师一样给一根骨头,下得和柯洁一样给一根骨头,下的和lz一样不许吃晚饭。进过多次训练,阿法狗在大部分情况下都下的看起来像个高手而不是lz了。


                    IP属地:北京来自iPhone客户端10楼2016-03-10 18:24
                    收起回复
                      但是光这样不行,这么练只是看起来像个高手真的一下棋就露馅了。所以谷歌使用了其独创的瞎jb乱下左右互搏之术训练阿法狗。


                      IP属地:北京来自iPhone客户端11楼2016-03-10 18:27
                      回复
                        阿法狗没下一步不会去考虑这一步是亏还是赚,赚亏几目而是随机下玩后边的棋看看输赢,这个过程中阿法狗只是在瞎jb乱下所以很快,经过无数次乱下,阿法狗得出结论在我和李师师一起瞎jb乱下的情况下,我有70%概率能赢,所以下这里不错。


                        IP属地:北京来自iPhone客户端12楼2016-03-10 18:30
                        收起回复
                          因为没有对手,谷歌一般让阿法狗自己和自己练习。当然谷歌觉得觉得瞎jb乱下这个名字不好听所以改叫做蒙特卡洛模拟下的神经网络算法。


                          IP属地:北京来自iPhone客户端13楼2016-03-10 18:33
                          收起回复
                            于是阿法狗在这样的训练下逐渐学会了下棋。模仿让阿法狗学会了局部优化和定式,自己和自己联系让阿法狗强化了自己的大局观。因为阿法狗下棋时没有亏赚几目的概念的,只有输赢的概念。


                            IP属地:北京来自iPhone客户端14楼2016-03-10 18:36
                            回复
                              深蓝也能跟自己下棋


                              IP属地:湖北15楼2016-03-10 18:38
                              回复