Alphabet旗下人工智能部門(mén)DeepMind一年前宣布開(kāi)發(fā)了一套名為AlphaZero的系統(tǒng),它可以教會(huì)自己如何掌握國(guó)際象棋、日本將棋和中國(guó)圍棋,而且都能擊敗世界冠軍。
雖然DeepMind的說(shuō)法令人印象深刻,但當(dāng)時(shí)卻未能通過(guò)同行評(píng)審。不過(guò),DeepMind今天宣布,經(jīng)過(guò)數(shù)月的反復(fù)修訂,該公司在AlphaZero上的成果已經(jīng)被《科學(xué)》雜志接受,并登上該雜志的首頁(yè)。
“幾年前,我們的AlphaGo以4:1擊敗了18次獲得圍棋世界冠軍的棋手李世石。但對(duì)于我們來(lái)說(shuō),這實(shí)際上是構(gòu)建一個(gè)通用學(xué)習(xí)系統(tǒng)的開(kāi)始,這個(gè)系統(tǒng)可以自己學(xué)習(xí)不同的游戲,最終達(dá)到超越人類(lèi)的水平。“AlphaZero的首席研究員大衛(wèi)·西爾沃(David Silver)對(duì)參加蒙特利爾NeurIPS 2018大會(huì)的記者說(shuō),“AlphaZero是這一段旅程的下一步。它從頭開(kāi)始學(xué)習(xí)擊敗圍棋、國(guó)際象棋和日本將棋的世界冠軍。除了游戲規(guī)則外,它什么知識(shí)都沒(méi)有。“
Silver解釋說(shuō),選擇這些游戲既考慮了它們的復(fù)雜性,也考慮了之前針對(duì)它們進(jìn)行人工智能研究的豐富歷史。
為此,本周發(fā)表的論文描述了DeepMind如何利用深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)優(yōu)于Stockfish、Elmo和IBM深藍(lán)的游戲算法。
“傳統(tǒng)引擎非常強(qiáng)大并且?guī)缀鯖](méi)有明顯的錯(cuò)誤,但當(dāng)面對(duì)沒(méi)有具體和可計(jì)算解決方案的位置時(shí),可能會(huì)發(fā)生漂移。”國(guó)際象棋大師馬修·薩德勒(Matthew Sadler)說(shuō),“正是在這樣的位置,AlphaZero才能實(shí)現(xiàn)‘感覺(jué)’,‘洞察力’或‘直覺(jué)’。“
為了測(cè)試經(jīng)過(guò)全面訓(xùn)練的AlphaZero,除了其前身AlphaGo Zero之外,DeepMind的研究人員還對(duì)上述的Stockfish和Elmo游戲引擎進(jìn)行了測(cè)試。在具有44個(gè)處理器內(nèi)核和4個(gè)谷歌第一代TPU的單臺(tái)機(jī)器上運(yùn)行時(shí),AlphaZero都能輕松贏得大多數(shù)比賽。