陳經:在AlphaGo完勝後繼續分析其算法巨大優勢與可能的缺陷

【今天上午,小編發出瞭這篇堅持分析AlphaGo弱點的文章,大約6個小時之後,李世石終於在圍棋人機大戰第四盤的“榮譽之戰”中下出妙棋,逆襲取勝。這場來之不易的勝局幾乎驗證瞭本文的預測:要想戰勝目前的AlphaGo,應該采用這樣的策略,大局觀要頂得住,不能早早被它控制住瞭。局部手段小心,不要中招。頂住以後,在開放式的接觸戰中等它自己犯昏。或者在局部定型中看它自己虧目。在接觸戰中,要利用它“不喜歡打劫”的特性,利用一些劫爭的分枝虛張聲勢逼它讓步,但又不能太過分把它逼入對人類不利的劫爭中。

李世石獲勝後,觀察者網編輯立即采訪瞭本文作者陳經,陳經表示,李世石78手的挖,對於人工智能算法來說,有一個劫爭分枝,不一定對人有利,但這個劫爭引發瞭AlphaGo的bug。他說,李世石今天心態非常好,開局中局一直都沒有犯致命錯誤,頂住瞭。然後在中間右邊的局面中發揮非常好,成功將局面導入開放式的復雜接觸戰。李世石78這手,就是與人對局也可以說是神之一手,很難對付。這手一出,局面非常復雜,要點非常多。電腦要計算的分支特別多。人已經確定最強變化是打劫,雖然並不一定對李世石有利。電腦由於天生的“不喜歡打劫”的特性,在這個局面模擬中,終於引發瞭程序中的bug。證明AlphaGo終究是基於MCTS(蒙特卡洛樹搜索)的產物,雖然比之前的圍棋程序zen強大很多,但一樣會出現可笑的bug。之後陳經還會繼續撰文分析。】

2016年3月12日人機大戰第三局,AlphaGo執白176手中盤勝李世石,以3:0的比分提前取得瞭對人類的勝利。

這一局李世石敗得最慘,早早就被AlphaGo妙手擊潰,整盤毫無機會。最後李世石悲壯地造劫,在AlphaGo脫先之後終於造出瞭緊劫。但AlphaGo隻靠本身劫就贏得瞭劫爭,粉碎瞭AlphaGo不會打劫的猜想。這一局AlphaGo表現出的水平是三局中最高的,幾台中清化糞池乎沒有一手棋能被人置疑的,全是好招。三局過去,AlphaGo到底實力高到什麼程度,人們反而更不清楚瞭。

看完這三局,棋界終於差不多絕望瞭,原以為5:0的,都倒向0:5瞭。有些職業棋手在盤算讓先、讓二子是否頂得住。整個歷程可以和科幻小說《三體》中的黑暗戰役類比,人類開始對戰勝三體人信心滿滿,一心想旁觀5:0的大勝。一場戰鬥下來人類艦隊全滅,全體陷入瞭0:5的悲觀失望情緒中。

我也是糾結瞭一陣子,看著人類在圍棋上被機器碾壓的心情確實不好。但是承認機器的優勢後,迅速完成瞭心理建設,又開心地看待圍棋瞭。其實挺容易的,國際象棋界早就有這樣的事瞭。這個可以等五盤棋過後寫。

現在我的感覺是,棋界整體還是對AlphaGo的算法以及風格很不適應。一開始輕視,一輸再輸,姿態越來越低,三盤過後已經降到一個很低迷沉鬱的心理狀態瞭。這也可以理解,我一個圍棋迷都抑鬱瞭一會,何況是視棋如生命的職業棋手。但是不管如何,還是應該從技術的角度平心靜氣地搞清楚,AlphaGo到底是怎麼下棋的,優勢到底在哪些,是不是就沒有一點弱點瞭?

現在有瞭三盤高水平的棋譜,質量遠高於之前和樊麾的五盤棋譜。還有谷歌2016年1月28號發表在《自然》上的論文,介紹瞭很多技術細節,還有一些流傳的消息,其實相關的信息並不少,可以作出一些技術分析瞭。

之前一篇文章提到,從研發的角度看,谷歌團隊把15-20個專傢湊在瞭一起,又提供瞭巨量的高性能計算資源,建立起瞭整個AlphaGo算法研究的“流水線”。這樣谷歌團隊就從改程序代碼的麻煩工作中解放出來,變成指揮機器幹活,開動流水線不斷學習進步,改善策略網絡價值網絡的系數。而且這個研發架構似乎沒有什麼嚴重的瓶頸,可以持續不斷地自我提升,有小瓶頸也可以想辦法再改訓練方法。就算它終於遇到瞭瓶頸,可能水平也遠遠超過人類瞭。

這些復雜而不斷變動的神經網絡系數是AlphaGo的獨門絕技,要訓練這些網絡,需要比分佈式版本對局時1200多個CPU多得多的計算資源。AlphaGo算法裡還是有一些模塊代碼是需要人去寫的,這些代碼可不是機器訓練出來的,再怎麼訓練也改不瞭,谷歌團隊還不可能做到這麼厲害。例如蒙特卡洛搜索(MCTS)整個框架的代碼,例如快速走子網絡的代碼。這裡其實有兩位論文共同第一作者David Silver和Aja Huang多年積累的貢獻。這些人寫的代碼,就會有內在的缺陷,不太可能是完美無缺的。這些缺陷不是“流水線”不眠不休瘋狂訓練能解決的,是AlphaGo真正的內在缺陷,是深度學習、self-play、進化、強化學習這些高級名詞解決不瞭的。谷歌再能堆硬件,也解決不瞭,還得人去改代碼。

第一局開局前,谷歌就說其實還在忙著換版本,最新版本不穩定,所以就用上一個固定版本瞭。這種開發工作,有可能就是人工改台中市抽化糞池代碼消除bug的,可能測試沒完,不敢用。

總之,像AlphaGo這麼大一個軟件,從算法角度看存在bug是非常可能的。在行棋時表現出來就是,它突然下出一些不好的招數,而且不是因為策略網絡價值網絡水平不夠高,而是MCTS框架相關的搜索代碼運行的結果。如果要找AlphaGo潛在的bug,需要去仔細研究它的“搜索 ”。這可能是它唯一的命門所在,而且不好改進。

那麼社區公寓大廈抽肥MCTS的好處壞處到底是什麼?幸運的是,Zen和CrazyStone等上一代程序,以及facebook田淵棟博士開發的Darkforest都用瞭MCTS。它們和AlphaGo雖然棋力相差很遠,但是行棋思想其實很相似,相通之處遠比我們想象的高得多。





這是田淵棟貼的Darkforest對前兩局的局勢評分。可以看出,這個評分和棋局走向高度一致,完全說得通。而且谷歌也透露瞭AlphaGo對局勢的評分,雖然一直領先,但第二局也有接近的時候,能夠相互印證。如果到網上下載一個Zen,輸入AlphaGo和李世石的對局,選擇一個局面進行分析,也會有像模像樣的評分出來。這究竟是怎麼回事?

台灣電動床工廠 電動床

台灣電動床工廠 電動床

AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋

AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots

arrow
arrow

    qcs608wo66 發表在 痞客邦 留言(0) 人氣()