營業用抽油煙機【mobile01】靜電機ＤＩＹ安裝流程說明～－曾理的超值清單

揭秘AlphaGo全新棋風：不按常理出手

參與：李澤南、李亞洲、吳攀

4月10日下午，谷歌在北京的中國棋院召開新聞發佈會，正式宣佈AlphaGo將於今年5月23日在浙江烏鎮對決以柯潔為代表的中國頂尖棋手。

據機器之心現場瞭解，中國圍棋協會和浙江省體育局攜手谷歌三方將聯合主辦「中國烏鎮·圍棋峰會」。本次峰會將從5 月 23 日至 27 日在浙江烏鎮展開，除AlphaGo與柯潔的三番棋對戰之外，還將舉辦配對賽和團體賽兩場形式不同的交流比賽。

配對賽中，兩位棋手將分別與AlphaGo組隊，挑戰棋手如何去理解AlphaGo的獨特風格並與之合作；在團隊賽中，將有五位中國頂尖棋手合作，建立棋手「神經網絡」，降低心理因素的影響，從而做出更加客觀的判斷。

在發佈會現場，柯潔表示，「能與AlphaGo對陣是我的榮幸，但我一定會擊敗 AlphaGo」。據悉，此次比賽的獲勝獎金為 150 萬美元。

離 AlphaGo 和油煙分離機李世乭的「人機大戰」已經過去瞭一年，AlphaGo 與柯潔的對弈是業內期待已久的一場對決。去年 AlphaGo 與世界圍棋冠軍李世乭的比賽引起瞭極大的關註，人機對戰成為人工智能領域的熱門話題。不久之前，斬獲 UEC 杯計算機圍棋大賽冠軍的騰訊人工智能系統「絕藝」，在東京舉行的第五屆「電聖戰」世界人機大戰中戰勝瞭日本圍棋界的新銳棋手一力遼七段（世界排名第 44 位，日本第 2）。

谷歌和 DeepMind 對於圍棋的探索並未隨著去年和今年初的兩次「亮相」而結束，由於圍棋近乎無窮的變化，人類棋手在千百年戰術發展的過程中似乎並未觸及圍棋的本質，DeepMind 的研究者一直將目標定為探索圍棋的極限。DeepMind 官方發佈的 2016 年度總結 (http://www.jiqizhixin.com/article/2090) 中寫道，「最激動人心的莫過於 AlphaGo 博弈過程中所呈現出來的創造力，有時，它的棋招甚至挑戰瞭古老的圍棋智慧。圍棋，這一古往今來最富深謀遠慮的遊戲之一，AlphaGo 可以識別並分享其中洞見。」

此前，AlphaGo 在 2016 年 3 月與前圍棋世界冠軍，韓國棋手李世乭九段在韓國首爾進行瞭五次對決，並 4 比 1 獲勝，第一次在正式比賽環境中戰勝瞭人類頂尖棋手。AlphaGo 因此而獲得瞭韓國棋院頒發的「名譽九段」證書。在沉寂瞭一段時間後，去年末，AlphaGo 以「Master」為名出現在騰訊野狐網上圍棋平臺中，與中日韓三國頂尖棋手進行瞭一系列網上快棋對決，並實現瞭 60 勝 0 負的完美戰績。

顯然，AlphaGo 並不滿足於線上圍棋平臺的勝利，谷歌方面很早就與中國棋院達成瞭一致，準備於今年舉行新一輪的圍棋人機大戰。去年 12 月，谷歌聯合創始人、Alphabet 總裁謝爾蓋·佈林和谷歌 CEO 皮查伊（Sundar Pichai）一同造訪中國棋院，觀摩瞭棋手訓練，並與「棋聖」聶衛平九段及中國圍棋隊總教練俞斌九段進行瞭交流。

2016 年 12 月 31 日，柯潔在微博上表示：

「我從（廚房油煙處理2016 年）3 月份開始到現在研究瞭大半年的棋軟，無數次的理論、實踐，就是想知道計算機究竟強在哪裡。昨晚輾轉反側，不想竟一夜無眠。人類數千年的實戰演練進化，計算機卻告訴我們人類全都是錯的。我覺得，甚至沒有一個人沾到圍棋真理的邊。但是我想說，從現在開始，我們棋手將會結合計算機，邁進全新的領域達到全新的境界。新的風暴即將來襲，我將盡我所有的智慧終極一戰！」

AlphaGo 升級版

去年 1 月 28 日，Nature 雜志以封面論文的形式介紹瞭 DeepMind 團隊開發的人工智能程序 AlphaGo，這也就是後來擊敗韓國棋手李世乭的 AlphaGo 版本。據此次發佈會提供的信息，今年年初席卷中國圍棋界的「Master／Magister」是 AlphaGo 的升級版本，但它下的是快棋，與此次對決的規則不同。

AlphaGo 結合瞭監督學習與強化學習的優勢。通過訓練形成一個策略網絡，將棋盤上的局勢作為輸入信息，並對有所可行的落子位置形成一個概率分佈。然後，訓練一個價值網絡對自我對弈進行預測，以-1（對手的絕對勝利）到 1（AlphaGo 的絕對勝利）的標準，預測所有可行落子位置的結果。AlphaGo 將這兩種網絡整合進基於概率的蒙特卡羅樹搜索（MCTS）中，實現瞭它真正的優勢。

在獲取棋局信息後，AlphaGo 會根據策略網絡（policy network）探索哪個位置同時具備高潛在價值和高可能性，進而決定最佳落子位置。在分配的搜索時間結束時，模擬過程中被系統最繁瑣考察的位置將成為 AlphaGo 的最終選擇。在經過先期的全盤探索和過程中對最佳落子的不斷揣摩後，AlphaGo 的探索算法就能在其計算能力之上加入近似人類的直覺判斷。

據瞭解，新版的 AlphaGo 產生大量自我對弈棋局，為下一代版本提供瞭訓練數據，此過程循環往復。

發佈會期間，DeepMind 官方也發佈瞭此次比賽的相關信息，並發表瞭一篇博客對新版 AlphaGo 的下棋思路進行瞭講解。

作為 AlphaGo 的一員，樊麾在 DeepMind 博客中介紹瞭AlphaGo 的棋風。博客中寫到，AlphaGo 在最近的比賽裡展現出瞭開創性的棋風，其中最引人矚目的是早期點三三和全新的「妖刀」變化。每個都違反瞭常規理論，但在更深入的研究中被證明是高明的下法。

AlphaGo 的強大之處不在於一招一式，而在於對每一局比賽展現出的全新視角。雖然圍棋風格略顯抽象，但 AlphaGo 的策略展示瞭靈活與開放的精神：沒有先入為主的訓練讓它找到瞭最有效的下棋方式。正如下面兩張圖顯示的，實用哲學讓 AlphaGo 經常走出違反直覺——但卻最為合理的舉動。

盡管圍棋是一個有關圈地的遊戲，但勝負手卻在於對不同戰區之間的取舍平衡，而 AlphaGo 擅長創造這種平衡。具體來說，AlphaGo 擅長運用「影響力」——已有棋子對自己周圍的影響為自己謀取優勢。雖然 AlphaGo 的價值網絡不能準確地計算出影響的數值，但它的價值網絡能夠一次性考慮棋盤上的所有棋子，以微妙和精確的方式做出判斷。正是這樣的能力讓 AlphaGo 把自己在局部的優勢轉化為整個比賽的勝勢。

在圖 1 中，黑棋（AlphaGo）隻有很小一塊實地，而白棋占有三個角，但黑棋的影響力滲透瞭整個棋局。黑棋在左上角的刺改善瞭自己的局面，一般人類棋手都會避開這種直接交鋒，為形成不確定的厚勢而付出代價，但 AlphaGo 通過純粹的判斷與敏銳的利益計算讓這種下法成為瞭可能。

雖然影響力的價值取決於整體，但 AlphaGo 可以有效地利用自己的大局觀。在圖 2 的一局裡，AlphaGo 下出瞭不可思議的六連爬。在棋手中間有這樣的習語：四線產生影響，三線圍出實地，而二線隻意味著失敗。黑棋（AlphaGo）在二線的舉動看起來是嚴重的錯誤，這一系列落子讓白棋產生瞭厚勢，而黑棋隻在邊上獲得瞭四目的地盤。大多數棋手都不會做出這樣看起來很愚蠢的舉動，但 AlphaGo 認為將中間的白棋和右上角的白棋分開是值得的，在後續的對局中，黑棋緩慢地侵蝕瞭白棋在右上角和下方的影響力，最終將優勢轉化為勝勢。

點三三是圍棋主要的定式之一。

如圖 4 所示，左下角這一入侵立即圍出瞭實地，但棋譜中這種行為一直被認為是愚蠢的，因為這會給白棋造出厚勢。

AlphaGo 的創新是在標記黑子位置的一靠，讓左上角變得更不明確。

雖然黑棋不是很安全，但仍保留瞭在左下角存活，或在之後完成定式的選擇，在失去瞭中等影響力的同時占領瞭實地。這個策略在專業棋手中引起瞭極大的轟動，並已在至少一次正式比賽中被人類棋手所采用。

新妖刀

原來的 AlphaGo 是在營業用抽油煙機人類數據上訓練的，所以它知道現代的定式，並通常據此行動。但是，在妖刀（這是一種得名於「村正妖刀」的定式系列）中，AlphaGo 有瞭新的變化。

從圖 7 的局面開始，用托角交換邊，如圖 8 所示。

但是，AlphaGo 更傾向於犧牲外側而換取更大的實地。

大多數棋手都不會考慮這種下法，因為這給黑棋制造瞭很大的模樣，而白棋後面的走子方式表明黑棋的影響並不如看起來的那樣有價值。如果黑棋不強化自己的外勢，它就可能變成對手攻擊的目標。韓國頂級棋手金志錫九段最近就在一場比賽中使用瞭這種戰術（圖 10），最後他贏得瞭勝利。

本文來源：機器之心

責任編輯：白鑫_NT4464

cki048mw46

曾理的超值清單

cki048mw46 發表在痞客邦留言(0) 人氣()

E-mail轉寄

曾理的超值清單

曾理的超值清單

營業用抽油煙機【mobile01】靜電機ＤＩＹ安裝流程說明～

歷史上的今天

留言列表

站方公告

活動快報

【全民...

我的好友

熱門文章

文章分類

最新文章

最新留言

動態訂閱

文章精選

文章搜尋

新聞交換(RSS)

誰來我家

參觀人氣

QR Code

POWERED BY

曾理的超值清單

曾理的超值清單

營業用抽油煙機 【mobile01】靜電機ＤＩＹ安裝流程說明～

歷史上的今天

留言列表

站方公告

活動快報

【全民...

我的好友

熱門文章

文章分類

最新文章

最新留言

動態訂閱

文章精選

文章搜尋

新聞交換(RSS)

誰來我家

參觀人氣

QR Code

POWERED BY

營業用抽油煙機【mobile01】靜電機ＤＩＹ安裝流程說明～