close
揭秘新版AlphaGo,為什麼它能戰勝柯潔?
知道Google會分享,就是不知道會這麼快。
雖然隻有1/4子,但昨天AlphaGo在對戰柯潔時那種遊刃有餘,穩紮穩打的作風已然顯示出其強大的實力。
DeepMind創始人兼CEO Demis Hassabis(左)和首席科學傢David Silver(右)
今天上午,此次圍棋峰會的另外一個重頭戲——中國烏鎮·人工智能高峰論壇正式開始。雷鋒網也第一時間來到瞭現場,首先上臺演講的不是別人,正是打造圍棋人工智能AlphaGo的兩位關鍵人物:DeepMind創始人兼CEO Demis Hassabis,以及DeepMind首席科學傢David Silver。
在各自短暫的演講中,Hassabis和Silver分別對AlphaGo能取得當下成績的原因進行瞭整體說明,同時還收集瞭一大批圍棋界人士的評論。但最令人意料之外的還要屬最新版AlphaGo的信息披露。
之前坊間也一直在猜測,究竟今年年初以Master出現在野狐平臺橫掃60名職業棋手的AlphaGo是什麼版本。
在David Silver展示的PPT中明確提到瞭三種AlphaGo的稱呼:AlphaGo Fan(與樊麾對弈的版本)、AlphaGo Lee(與李世乭對弈的版本)、AlphaGo Master(驅動Master的版本)。相比之前坊間風傳的V18/V20等版本稱號,這三個名字容易理解不少。
他們三者之間最主要的差別就是棋藝水平,Google現場也展示瞭三者的圍棋ELO等級分:
2015年10月登場的AlphaGo Fan等級分大約在2900分左右,2016年3月登場的AlphaGo Lee等級分大約在3700分左右(李世乭本人目前3530分),今年年初登場的AlphaGo Master等級分已經來到瞭4800分左右。
考慮到目前世界第一人柯潔的等級分不過3625,Google還給出瞭一個AlphaGo Lee與AlphaGo Master之間參考性的讓子數目——3子。
柯潔本人在現場目睹這個差距之後也不由得在微博上發表瞭自己的感受:
早就聽說新版alphago的強大....但...讓...讓三個?我的天,這個差距有多大呢?簡單的解釋一下就是一人一手輪流下的圍棋,對手連續讓你下三步...又像武林高手對決讓你先捅三刀一樣...我到底是在和一個怎樣可怕的對手下棋...
值得註意的是,等級分的數值實際上是由一系列比賽中的勝負來確定的,這個數值在輸贏都存在的情況下比較準確(高低都有參考值)。而AlphaGo Master之前一舉面對職業圍棋人士連勝60盤,等級分很可能還遠沒有達到真實的水平(上未封頂)。
雷鋒網(公眾號:雷鋒網)昨天也引用瞭三聯生活周刊科技記者昨天就在朋友圈中的相關觀點,即想要知道最新版AlphaGo到底超出人類多少,讓子再賽很可能是唯台中通馬桶價錢一的證明方法。
當然,這三者在配置、運作方式上也截然不同。以下是根據現場整理的一份簡單表格。
看到這裡肯定會有人驚呼:從50個TPU減少到1個,Google這是要逆天麼?這種想法實際上是錯誤的。
原因在於,AlphaGo Master實際上是站在巨人(AlphaGo Lee)肩膀上的。
AlphaGo Master的強大為啥與 AlphaGo Lee息息相關?
如果非要分個階段,AlphaGo Fan實際上與AlphaGo Lee可以劃為同一時期。
這兩者的整體算法架構都是一樣的:“深度學習+蒙特卡洛搜索樹+強化學習”。或者你可以將他們理解為初中生和高中生的差別,挑戰樊麾的版本在數據積累和算法細部規則上還沒有打磨到極致,而後者則要完美不少。
到瞭AlphaGo Lee 時,我們原來認為的“圍棋人工智能障礙”——圍棋棋局可能性太多,無法窮舉找到最優解,已經被解決。
圍棋中龐大的蒙特卡各級學校抽化糞池洛搜索樹
簡略點來說,Google實際上找瞭兩種“偷懶”的辦法:首先是在進行下一步落子計算時,隻參考通過深度學習得來的人類落子選項。(人類如果不下的地方,它就不計算)
第二是估值網絡,在每一步落子之時想要直接算出結局,同樣是不可能的。因為隨著預測步數增多,蒙特卡洛搜索樹中需要計算的內容也會指數式上漲。所以AlphaGo引入瞭一套打分體系。沒有一個地方是100%贏,隻是對比其他地方,這一個點落子更好。
通過這兩步縱向和橫向的精簡之後,AlphaGo達成瞭一個幾乎不可能完成的任務——在去年3月的比賽中戰勝瞭李世乭。
但除瞭最終結果外,AlphaGo在那次比賽中的少數表現同樣值得關註:時常下出一些人類覺得有問題的棋招;在第四場李世乭神之一手之時,其估值網絡發生瞭斷崖式的波動。
這無疑反映出瞭AlphaGo Lee自身的不成熟。
那麼怎麼樣才能再上一層樓呢?不同於之前很多人猜測的“完全摒棄AlphaGo中的人類元素”,Google采用瞭一條更加穩妥的道路——建一個全新的神經網絡,在AlphaGo Lee的基礎上進行二次“學習”,並且將學習到的東西不斷記下來。
這也使得AlphaGo Master變得比AlphaGo Lee更加嚴謹,同時也更加穩定。這也是為什麼會出現昨天三番棋第一場末尾階段AlphaGo絲毫不怕柯潔追擊,隻采用最穩固策略的原因。當然,其他疑問也依舊存在,例如 AlphaGo Master究竟是如何依靠單臺TPU完成整場比賽的運算?在比賽過程中AlphaGo Master是否需要AlphaGo Lee的幫助?
另外一方面,Google最終沒有選擇“拋棄”人類,總算說明人類2600年的圍公家機關水肥清運棋歷史並不是毫無沉淀。這或許還算一個難得的小欣慰。
關於AlphaGo vs 柯潔接下來的比賽,以及本次圍棋峰會中的更多內容,雷鋒網也將繼續為大傢帶來第一手的報道,敬請關註。
知道Google會分享,就是不知道會這麼快。
雖然隻有1/4子,但昨天AlphaGo在對戰柯潔時那種遊刃有餘,穩紮穩打的作風已然顯示出其強大的實力。
DeepMind創始人兼CEO Demis Hassabis(左)和首席科學傢David Silver(右)
今天上午,此次圍棋峰會的另外一個重頭戲——中國烏鎮·人工智能高峰論壇正式開始。雷鋒網也第一時間來到瞭現場,首先上臺演講的不是別人,正是打造圍棋人工智能AlphaGo的兩位關鍵人物:DeepMind創始人兼CEO Demis Hassabis,以及DeepMind首席科學傢David Silver。
在各自短暫的演講中,Hassabis和Silver分別對AlphaGo能取得當下成績的原因進行瞭整體說明,同時還收集瞭一大批圍棋界人士的評論。但最令人意料之外的還要屬最新版AlphaGo的信息披露。
之前坊間也一直在猜測,究竟今年年初以Master出現在野狐平臺橫掃60名職業棋手的AlphaGo是什麼版本。
在David Silver展示的PPT中明確提到瞭三種AlphaGo的稱呼:AlphaGo Fan(與樊麾對弈的版本)、AlphaGo Lee(與李世乭對弈的版本)、AlphaGo Master(驅動Master的版本)。相比之前坊間風傳的V18/V20等版本稱號,這三個名字容易理解不少。
他們三者之間最主要的差別就是棋藝水平,Google現場也展示瞭三者的圍棋ELO等級分:
2015年10月登場的AlphaGo Fan等級分大約在2900分左右,2016年3月登場的AlphaGo Lee等級分大約在3700分左右(李世乭本人目前3530分),今年年初登場的AlphaGo Master等級分已經來到瞭4800分左右。
考慮到目前世界第一人柯潔的等級分不過3625,Google還給出瞭一個AlphaGo Lee與AlphaGo Master之間參考性的讓子數目——3子。
柯潔本人在現場目睹這個差距之後也不由得在微博上發表瞭自己的感受:
早就聽說新版alphago的強大....但...讓...讓三個?我的天,這個差距有多大呢?簡單的解釋一下就是一人一手輪流下的圍棋,對手連續讓你下三步...又像武林高手對決讓你先捅三刀一樣...我到底是在和一個怎樣可怕的對手下棋...
值得註意的是,等級分的數值實際上是由一系列比賽中的勝負來確定的,這個數值在輸贏都存在的情況下比較準確(高低都有參考值)。而AlphaGo Master之前一舉面對職業圍棋人士連勝60盤,等級分很可能還遠沒有達到真實的水平(上未封頂)。
雷鋒網(公眾號:雷鋒網)昨天也引用瞭三聯生活周刊科技記者昨天就在朋友圈中的相關觀點,即想要知道最新版AlphaGo到底超出人類多少,讓子再賽很可能是唯台中通馬桶價錢一的證明方法。
當然,這三者在配置、運作方式上也截然不同。以下是根據現場整理的一份簡單表格。
看到這裡肯定會有人驚呼:從50個TPU減少到1個,Google這是要逆天麼?這種想法實際上是錯誤的。
原因在於,AlphaGo Master實際上是站在巨人(AlphaGo Lee)肩膀上的。
AlphaGo Master的強大為啥與 AlphaGo Lee息息相關?
如果非要分個階段,AlphaGo Fan實際上與AlphaGo Lee可以劃為同一時期。
這兩者的整體算法架構都是一樣的:“深度學習+蒙特卡洛搜索樹+強化學習”。或者你可以將他們理解為初中生和高中生的差別,挑戰樊麾的版本在數據積累和算法細部規則上還沒有打磨到極致,而後者則要完美不少。
到瞭AlphaGo Lee 時,我們原來認為的“圍棋人工智能障礙”——圍棋棋局可能性太多,無法窮舉找到最優解,已經被解決。
圍棋中龐大的蒙特卡各級學校抽化糞池洛搜索樹
簡略點來說,Google實際上找瞭兩種“偷懶”的辦法:首先是在進行下一步落子計算時,隻參考通過深度學習得來的人類落子選項。(人類如果不下的地方,它就不計算)
第二是估值網絡,在每一步落子之時想要直接算出結局,同樣是不可能的。因為隨著預測步數增多,蒙特卡洛搜索樹中需要計算的內容也會指數式上漲。所以AlphaGo引入瞭一套打分體系。沒有一個地方是100%贏,隻是對比其他地方,這一個點落子更好。
通過這兩步縱向和橫向的精簡之後,AlphaGo達成瞭一個幾乎不可能完成的任務——在去年3月的比賽中戰勝瞭李世乭。
但除瞭最終結果外,AlphaGo在那次比賽中的少數表現同樣值得關註:時常下出一些人類覺得有問題的棋招;在第四場李世乭神之一手之時,其估值網絡發生瞭斷崖式的波動。
這無疑反映出瞭AlphaGo Lee自身的不成熟。
那麼怎麼樣才能再上一層樓呢?不同於之前很多人猜測的“完全摒棄AlphaGo中的人類元素”,Google采用瞭一條更加穩妥的道路——建一個全新的神經網絡,在AlphaGo Lee的基礎上進行二次“學習”,並且將學習到的東西不斷記下來。
這也使得AlphaGo Master變得比AlphaGo Lee更加嚴謹,同時也更加穩定。這也是為什麼會出現昨天三番棋第一場末尾階段AlphaGo絲毫不怕柯潔追擊,隻采用最穩固策略的原因。當然,其他疑問也依舊存在,例如 AlphaGo Master究竟是如何依靠單臺TPU完成整場比賽的運算?在比賽過程中AlphaGo Master是否需要AlphaGo Lee的幫助?
另外一方面,Google最終沒有選擇“拋棄”人類,總算說明人類2600年的圍公家機關水肥清運棋歷史並不是毫無沉淀。這或許還算一個難得的小欣慰。
關於AlphaGo vs 柯潔接下來的比賽,以及本次圍棋峰會中的更多內容,雷鋒網也將繼續為大傢帶來第一手的報道,敬請關註。
- 各軍營單位抽肥 台中通馬桶價格公開~台中通馬桶價格大約多少呢?百搜
- 台中清化糞池 社區公寓大廈抽肥該找哪個店家呢?社區公寓大廈抽肥就找台中抽水肥專業網
- 一般家庭抽肥 台中化糞池清理推薦廠商~找台中抽水肥專業網就對了
AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋
AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots
文章標籤
全站熱搜
留言列表