close

揭秘AlphaGo全新棋風:不按常理出手



參與:李澤南、李亞洲、吳攀

4月10日下午,谷歌在北京的中國棋院召開新聞發佈會,正式宣佈AlphaGo將於今年5月23日在浙江烏鎮對決以柯潔為代表的中國頂尖棋手。

據機器之心現場瞭解,中國圍棋協會和浙江省體育局攜手谷歌三方將聯合主辦「中國烏鎮·圍棋峰會」。本次峰會將從5 月 23 日至 27 日在浙江烏鎮展開,除AlphaGo與柯潔的三番棋對戰之外,還將舉辦配對賽和團體賽兩場形式不同的交流比賽。

配對賽中,兩位棋手將分別與AlphaGo組隊,挑戰棋手如何去理解AlphaGo的獨特風格並與之合作;在團隊賽中,將有五位中國頂尖棋手合作,建立棋手「神經網絡」,降低心理因素的影響,從而做出更加客觀的判斷。

在發佈會現場,柯潔表示,「能與AlphaGo對陣是我的榮幸,但我一定會擊敗 AlphaGo」。據悉,此次比賽的獲勝獎金為 150 萬美元。

離 AlphaGo 和油煙分離機李世乭的「人機大戰」已經過去瞭一年,AlphaGo 與柯潔的對弈是業內期待已久的一場對決。去年 AlphaGo 與世界圍棋冠軍李世乭的比賽引起瞭極大的關註,人機對戰成為人工智能領域的熱門話題。不久之前,斬獲 UEC 杯計算機圍棋大賽冠軍的騰訊人工智能系統「絕藝」,在東京舉行的第五屆「電聖戰」世界人機大戰中戰勝瞭日本圍棋界的新銳棋手一力遼七段(世界排名第 44 位,日本第 2)。

谷歌和 DeepMind 對於圍棋的探索並未隨著去年和今年初的兩次「亮相」而結束,由於圍棋近乎無窮的變化,人類棋手在千百年戰術發展的過程中似乎並未觸及圍棋的本質,DeepMind 的研究者一直將目標定為探索圍棋的極限。DeepMind 官方發佈的 2016 年度總結 (http://www.jiqizhixin.com/article/2090) 中寫道,「最激動人心的莫過於 AlphaGo 博弈過程中所呈現出來的創造力,有時,它的棋招甚至挑戰瞭古老的圍棋智慧。圍棋,這一古往今來最富深謀遠慮的遊戲之一,AlphaGo 可以識別並分享其中洞見。」

此前,AlphaGo 在 2016 年 3 月與前圍棋世界冠軍,韓國棋手李世乭九段在韓國首爾進行瞭五次對決,並 4 比 1 獲勝,第一次在正式比賽環境中戰勝瞭人類頂尖棋手。AlphaGo 因此而獲得瞭韓國棋院頒發的「名譽九段」證書。在沉寂瞭一段時間後,去年末,AlphaGo 以「Master」為名出現在騰訊野狐網上圍棋平臺中,與中日韓三國頂尖棋手進行瞭一系列網上快棋對決,並實現瞭 60 勝 0 負的完美戰績。

顯然,AlphaGo 並不滿足於線上圍棋平臺的勝利,谷歌方面很早就與中國棋院達成瞭一致,準備於今年舉行新一輪的圍棋人機大戰。去年 12 月,谷歌聯合創始人、Alphabet 總裁謝爾蓋·佈林和谷歌 CEO 皮查伊(Sundar Pichai)一同造訪中國棋院,觀摩瞭棋手訓練,並與「棋聖」聶衛平九段及中國圍棋隊總教練俞斌九段進行瞭交流。

2016 年 12 月 31 日,柯潔在微博上表示:

「我從(廚房油煙處理2016 年)3 月份開始到現在研究瞭大半年的棋軟,無數次的理論、實踐,就是想知道計算機究竟強在哪裡。昨晚輾轉反側,不想竟一夜無眠。人類數千年的實戰演練進化,計算機卻告訴我們人類全都是錯的。我覺得,甚至沒有一個人沾到圍棋真理的邊。但是我想說,從現在開始,我們棋手將會結合計算機,邁進全新的領域達到全新的境界。新的風暴即將來襲,我將盡我所有的智慧終極一戰!」

AlphaGo 升級版

去年 1 月 28 日,Nature 雜志以封面論文的形式介紹瞭 DeepMind 團隊開發的人工智能程序 AlphaGo,這也就是後來擊敗韓國棋手李世乭的 AlphaGo 版本。據此次發佈會提供的信息,今年年初席卷中國圍棋界的「Master/Magister」是 AlphaGo 的升級版本,但它下的是快棋,與此次對決的規則不同。

AlphaGo 結合瞭監督學習與強化學習的優勢。通過訓練形成一個策略網絡,將棋盤上的局勢作為輸入信息,並對有所可行的落子位置形成一個概率分佈。然後,訓練一個價值網絡對自我對弈進行預測,以-1(對手的絕對勝利)到 1(AlphaGo 的絕對勝利)的標準,預測所有可行落子位置的結果。AlphaGo 將這兩種網絡整合進基於概率的蒙特卡羅樹搜索(MCTS)中,實現瞭它真正的優勢。

在獲取棋局信息後,AlphaGo 會根據策略網絡(policy network)探索哪個位置同時具備高潛在價值和高可能性,進而決定最佳落子位置。在分配的搜索時間結束時,模擬過程中被系統最繁瑣考察的位置將成為 AlphaGo 的最終選擇。在經過先期的全盤探索和過程中對最佳落子的不斷揣摩後,AlphaGo 的探索算法就能在其計算能力之上加入近似人類的直覺判斷。

據瞭解,新版的 AlphaGo 產生大量自我對弈棋局,為下一代版本提供瞭訓練數據,此過程循環往復。

發佈會期間,DeepMind 官方也發佈瞭此次比賽的相關信息,並發表瞭一篇博客對新版 AlphaGo 的下棋思路進行瞭講解。

作為 AlphaGo 的一員,樊麾在 DeepMind 博客中介紹瞭AlphaGo 的棋風。博客中寫到,AlphaGo 在最近的比賽裡展現出瞭開創性的棋風,其中最引人矚目的是早期點三三和全新的「妖刀」變化。每個都違反瞭常規理論,但在更深入的研究中被證明是高明的下法。

AlphaGo 的強大之處不在於一招一式,而在於對每一局比賽展現出的全新視角。雖然圍棋風格略顯抽象,但 AlphaGo 的策略展示瞭靈活與開放的精神:沒有先入為主的訓練讓它找到瞭最有效的下棋方式。正如下面兩張圖顯示的,實用哲學讓 AlphaGo 經常走出違反直覺——但卻最為合理的舉動。

盡管圍棋是一個有關圈地的遊戲,但勝負手卻在於對不同戰區之間的取舍平衡,而 AlphaGo 擅長創造這種平衡。具體來說,AlphaGo 擅長運用「影響力」——已有棋子對自己周圍的影響為自己謀取優勢。雖然 AlphaGo 的價值網絡不能準確地計算出影響的數值,但它的價值網絡能夠一次性考慮棋盤上的所有棋子,以微妙和精確的方式做出判斷。正是這樣的能力讓 AlphaGo 把自己在局部的優勢轉化為整個比賽的勝勢。

在圖 1 中,黑棋(AlphaGo)隻有很小一塊實地,而白棋占有三個角,但黑棋的影響力滲透瞭整個棋局。黑棋在左上角的刺改善瞭自己的局面,一般人類棋手都會避開這種直接交鋒,為形成不確定的厚勢而付出代價,但 AlphaGo 通過純粹的判斷與敏銳的利益計算讓這種下法成為瞭可能。

雖然影響力的價值取決於整體,但 AlphaGo 可以有效地利用自己的大局觀。在圖 2 的一局裡,AlphaGo 下出瞭不可思議的六連爬。在棋手中間有這樣的習語:四線產生影響,三線圍出實地,而二線隻意味著失敗。黑棋(AlphaGo)在二線的舉動看起來是嚴重的錯誤,這一系列落子讓白棋產生瞭厚勢,而黑棋隻在邊上獲得瞭四目的地盤。大多數棋手都不會做出這樣看起來很愚蠢的舉動,但 AlphaGo 認為將中間的白棋和右上角的白棋分開是值得的,在後續的對局中,黑棋緩慢地侵蝕瞭白棋在右上角和下方的影響力,最終將優勢轉化為勝勢。

點三三是圍棋主要的定式之一。

如圖 4 所示,左下角這一入侵立即圍出瞭實地,但棋譜中這種行為一直被認為是愚蠢的,因為這會給白棋造出厚勢。

AlphaGo 的創新是在標記黑子位置的一靠,讓左上角變得更不明確。

雖然黑棋不是很安全,但仍保留瞭在左下角存活,或在之後完成定式的選擇,在失去瞭中等影響力的同時占領瞭實地。這個策略在專業棋手中引起瞭極大的轟動,並已在至少一次正式比賽中被人類棋手所采用。

新妖刀

原來的 AlphaGo 是在營業用抽油煙機人類數據上訓練的,所以它知道現代的定式,並通常據此行動。但是,在妖刀(這是一種得名於「村正妖刀」的定式系列)中,AlphaGo 有瞭新的變化。

從圖 7 的局面開始,用托角交換邊,如圖 8 所示。

但是,AlphaGo 更傾向於犧牲外側而換取更大的實地。




大多數棋手都不會考慮這種下法,因為這給黑棋制造瞭很大的模樣,而白棋後面的走子方式表明黑棋的影響並不如看起來的那樣有價值。如果黑棋不強化自己的外勢,它就可能變成對手攻擊的目標。韓國頂級棋手金志錫九段最近就在一場比賽中使用瞭這種戰術(圖 10),最後他贏得瞭勝利。



本文來源:機器之心

責任編輯:白鑫_NT4464

台灣電動床工廠 電動床

台灣電動床工廠 電動床

AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋

AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots

一川抽水肥清理行|台中抽水肥|台中市抽水肥|台中抽水肥推薦|台中抽水肥價格|台中水肥清運

arrow
arrow
    全站熱搜

    cki048mw46 發表在 痞客邦 留言(0) 人氣()