21

更新時間: 2016-04-21

廣告

谷歌旗下DeepMind公司的戴維·西爾弗、艾佳·黃和傑米斯·哈薩比斯與他們的團隊,開發了一個叫「AlphaGo」的程序,利用「價值網路」去計算局面,用「策略網路」去選擇下子。訓練這些深度神經網路的,是對人類專業棋局的監督學習以及讓它和自己對弈的增強學習。2016年3月9日,李世石與谷歌Alpha go人機圍棋首局比賽中,Alpha go獲勝。2016年3月15日,谷歌AlphaGo與韓國圍棋棋手李世石的世紀之戰落下帷幕。在最後一輪較量中,AlphaGo獲得勝利,最終人機大戰總比分定格在1:4。AlphaGo獲得由韓國棋院頒發的九段棋手榮譽證書。

英文名:AlphaGo其他外文名:Alpha Go
研發:DeepMind公司屬性:程序
策略:價值、策略網路

廣告

1 alphago - 程序原理

阿爾法圍棋(AlphaGo)是一款圍棋人工智慧程序。這個程序利用「價值網路」去計算局面,用「策略網路」去選擇下子。

深度學習

阿爾法圍棋(AlphaGo)的主要工作原理是「深度學習」。「深度學習」是指多層的人工神經網路和訓練它的方法。一層神經網路會把大量矩陣數字作為輸入,通過非線性激活方法取權重,再產生另一個數據集合作為輸出。這就像生物神經大腦的工作機理一樣,通過合適的矩陣數量,多層組織鏈接一起,形成神經網路「大腦」進行精準複雜的處理,就像人們識別物體標註圖片一樣。 

兩個大腦

阿爾法圍棋(AlphaGo)是通過兩個不同神經網路「大腦」合作來改進下棋。這些大腦是多層神經網路跟那些Google圖片搜索引擎識別圖片在結構上是相似的。它們從多層啟髮式二維過濾器開始,去處理圍棋棋盤的定位,就像圖片分類器網路處理圖片一樣。經過過濾,13 個完全連接的神經網路層產生對它們看到的局面判斷。這些層能夠做分類和邏輯推理。
這些網路通過反覆訓練來檢查結果,再去校對調整參數,去讓下次執行更好。這個處理器有大量的隨機性元素,所以人們是不可能精確知道網路是如何「思考」的,但更多的訓練后能讓它進化到更好。
第一大腦:落子選擇器 (Move Picker)
阿爾法圍棋(AlphaGo)的第一個神經網路大腦是「監督學習的策略網路(Policy Network)」 ,觀察棋盤布局企圖找到最佳的下一步。事實上,它預測每一個合法下一步的最佳概率,那麼最前面猜測的就是那個概率最高的。這可以理解成「落子選擇器」。
第二大腦:棋局評估器 (Position Evaluator)
阿爾法圍棋(AlphaGo)的第二個大腦相對於落子選擇器是回答另一個問題。不是去猜測具體下一步,它預測每一個棋手贏棋的可能,在給定棋子位置情況下。這「局面評估器」就是「價值網路(Value Network)」,通過整體局面判斷來輔助落子選擇器。這個判斷僅僅是大概的,但對於閱讀速度提高很有幫助。通過分類潛在的未來局面的「好」與「壞」,AlphaGo能夠決定是否通過特殊變種去深入閱讀。如果局面評估器說這個特殊變種不行,那麼AI就跳過閱讀在這一條線上的任何更多落子。[2-6] 

2 alphago - 主要成績

研究者讓「阿爾法圍棋」和其他的圍棋人工智慧機器人進行了較量,在總計495局中只輸了一局,勝率是99.8%。它甚至嘗試了讓4子對陣CrazyStone、Zen和Pachi三個先進的人工智慧機器人,勝率分別是77%、86%和99%。
人機大戰

據國際頂尖期刊《自然》封面文章報道,谷歌研究者開發的名為「阿爾法圍棋」(Alpha Go)的人工智慧機器人,在沒有任何讓子的情況下,以5:0完勝歐洲圍棋冠軍、職業二段選手樊麾。在圍棋人工智慧領域,實現了一次史無前例的突破。計算機程序能在不讓子的情況下,在完整的圍棋競技中擊敗專業選手,這是第一次。

阿爾法圍棋程序的下一個挑戰對象是世界圍棋冠軍李世石。這場人工智慧與人類的博弈於2016年3月9日在首爾舉行,獎金是由Google提供的100萬美金。
2016年3月12日,「AlphaGo」與韓國14冠高手李世石之間的人機大戰第三局中,李世石沒能挽回賽點,執黑中盤再次失利,在五番棋的較量中總比分0-3落敗,錯失百萬美元獎金。

2016年3月13日,谷歌人工智慧「阿爾法圍棋」(AlphaGo)與韓國棋手李世石繼續進行第四場較量,經過4個多小時的比賽,最終李世石戰勝AlphaGo迎來首勝,終結三連敗的同時將比分扳成以1:3。

歌圍棋人工智慧AlphaGo今天與韓國棋手李世石進行最後一輪較量,AlphaGo獲得本場比賽勝利,最終雙方總比分定格在4:1。[1]

廣告

3 alphago - 授予段位

2016年3月15日晚間消息,谷歌AlphaGo與韓國圍棋棋手李世石的世紀之戰落下帷幕。在最後一輪較量中,AlphaGo獲得勝利,最終人機大戰總比分定格在1:4。而AlphaGo也獲得了其首個榮譽——韓國棋院頒發的名譽九段證書。
比賽結束后的新聞發布會上,韓國棋院總裁洪錫鉉向AlphaGo頒發了名譽九段證書,DeepMind鞏固學習小組負責人大衛-席爾瓦(David Silver)上台領獎。[2]

廣告

4 alphago - 挑戰資訊

2016年3月15日,韓國棋院代表給「阿爾法圍棋」頒發了名譽九段證書,這是它「出生」以來獲得的首個榮譽。韓國棋院方面感嘆阿爾法狗的棋技,稱其在與李世石的比賽中表現出了有創意和卓越的棋風,為圍棋發展做出重大貢獻,因此韓國棋院為阿爾法狗頒發圍棋榮譽九段。
李世石已向AlphaGo下戰書 稱其勝負心被勾起

挑戰
在世界圍棋大賽中敗給谷歌人工智慧「阿爾法」(AlphaGo)的韓國職業九段棋手李世石表示希望與其再次展開對決[3]
李世石21日表示,雖然需要慎重地考慮,但是通過上次與阿爾法的對弈,在一定程度上掌握了阿爾法的實力,如果谷歌願意再次進行對決的話,希望近期就能實現。他還表示,下了圍棋時間很長,慾望也漸漸減弱,但是與阿爾法的對弈重新勾起了他的勝負心,同時更希望有後輩能夠挑戰阿爾法。
韓國棋院方面表示,李世石在勝利4局后的13日向谷歌副總裁哈薩比斯提出再次進行對決的提案。哈薩比斯表示還需與谷歌總部商量,未給出明確答覆。
人類圍棋高手李世石在9-15日與人工智慧阿爾法的「世紀5局」中以1勝4負的成績敗北,最終,阿爾法獲得優勝獎盃。
李世石作為人類的代表,與阿爾法結束了世紀大對決后,重新回歸到平凡的家庭生活中去,為了空出時間陪伴家人,16日開始,在濟州島進行6天5夜的旅行。當天在濟州島結束旅行上飛機前向家人表示自己的愛,只要不下圍棋,就一定會找出時間與家人團聚。
谷歌阿爾法狗確認將與人類對戰"星際爭霸2"
2016-03-27,暴雪娛樂製作總監Tim Morten在WCS中國站決賽上表示,AlphaGo確認將挑戰《星際爭霸2》,但谷歌目前正在和暴雪溝通,具體細節還沒有確定。

廣告