Darren Elias是一名撲克玩家。今年32歲的他是唯一一個贏得過四次世界撲克巡回賽冠軍的人,在錦標賽上獲得的獎金累計超過700萬美元。盡管他已經相當專業(yè)了,但今年春天他還是從一個人工智能機器人身上學到了一些新東西。
Elias正在幫助測試由Facebook人工智能實驗室和卡耐基梅隆大學研究人員共同開發(fā)的一款新軟件。他和另一名職業(yè)玩家Chris Ferguson各打出了5000手,對戰(zhàn)五個名為Pluribus的機器人副本。
最后,機器人以很大的優(yōu)勢領先。在這個過程中,Elias注意到一些事情:雖然機器通常被認為是缺乏靈感的,但這個機器人比一般的撲克專家更有膽量。Elias說:“它會賭上兩三倍的賭注,而人類不會這么做。我對它們下的巨額賭注很感興趣,以后將在自己的撲克比賽中嘗試?!?/p>
Pluribus的勝利具有里程碑式的意義,不僅僅是因為一個新機器人向專業(yè)的玩家教授了新策略。這款軟件是第一款在多人游戲《德州撲克》中擊敗頂級專業(yè)人士的游戲。周四發(fā)表在《科學》雜志上的一篇論文描述了Pluribus是如何戰(zhàn)勝Elias和Ferguson的;在一個機器人副本與5名人類專業(yè)人士進行的10000手撲克游戲中,Pluribus也輕松獲勝。
“如果你讓這個機器人與5名精英專業(yè)人士在一起比賽,機器人可以打敗他們,而且能從他們身上賺錢?!盕acebook人工智能實驗室研究員、Pluribus聯(lián)合創(chuàng)始人Noam Brown表示,“就撲克而言,這真的是黃金標準?!?/p>
Brown與卡內基梅隆大學教授Tuomas Sandholm共同創(chuàng)建了Pluribus。Brown之前是桑德霍爾姆實驗室的一名研究生,兩人于2017年建造了一個名為Libratus的機器人,成為第一個在雙人模式下?lián)魯I(yè)人士的軟件。Brown在加入Facebook后啟動了Pluribus項目,但他說這家社交媒體巨頭并沒有考慮這項技術的具體應用。他說:“項目的目標是對不完全信息和大規(guī)模多代理系統(tǒng)進行基礎研究,”,這句話也恰當地描述了Facebook的主要服務。長期來看,在Pluribus上測試的想法可以幫助自動駕駛汽車預測其他司機的行為,或者改進欺詐檢測算法。
Sandholm說,他已經證明了這款軟件的商業(yè)價值,以及國家安全價值。他創(chuàng)辦了兩家公司,將他實驗室的人工智能戰(zhàn)略技術商業(yè)化。Pluribus與Libratus的相似之處在于,它通過與自己的版本進行數萬億手的對弈來積累技能。在每一次嘗試之后,系統(tǒng)都會回顧發(fā)生了什么,以及哪些可能會有更好的表現(xiàn)。所有改進都會添加到它的核心策略中。
在很大程度上,這款新機器人能夠玩比它之前的版本復雜得多的游戲,因為它更擅長微調核心策略,通過預測游戲中某個特定點的可能結果,即搜索功能。Brown和Sandholm早期的機器人試圖繪制出游戲最后可能出現(xiàn)的所有問題。但六人游戲的可能性幾乎無窮無盡,要探索需要太多的計算能力。
相反,Brown和Sandholm開發(fā)了一個搜索功能,它一次只向前移動幾步。為了避免令人不快的意外,還將考慮如果對手改變策略,不同行動的價值將如何變化。因為在像撲克這樣的游戲中,有些信息是隱藏的,所以這種搜索功能以前還沒有很好地應用。
Brown表示,這種新方法的優(yōu)勢還在于對計算能力的要求不高,使得運行Pluribus的成本相對較低。這款機器人需要在一個64位處理器內核的強大服務器上與自己進行8天的對戰(zhàn),才能掌握這款游戲,而為DOTA 2等復雜電子游戲開發(fā)的人工智能機器人則需要在數十萬個處理器上進行數周的培訓?!盎?50美元在云計算服務上就可以開發(fā)類似的東西,因此將其應用到其他領域是切實可行的,”Brown說。
這對搭檔在編寫代碼時沒有考慮的一點是要在撲克中贏錢?!拔覀儾粫l(fā)布代碼,部分原因是這將對在線撲克社區(qū)產生重大影響,”Brown說。“我們正試圖讓人工智能社區(qū)的人們能夠接觸到這一點,而不是那些想制作撲克人工智能的人?!北M管如此,他承認這些技術無論如何都有可能傳播開來。一年后,還會有人開發(fā)出類似于Pluribus的機器人嗎?“我認為這完全有可能,”Brown說。
Elias對此有所期待。他說,自從Libratus出現(xiàn)以來,由于機器人變得更加復雜,人們不再那么熱衷于玩高風險的在線游戲。他還表示:“如果你在玩一個高風險的在線游戲,你很可能是在和一個機器人或由機器人幫助的人類對戰(zhàn)?!盓lias說,撲克專業(yè)人士和愛好者不應該被最新的人工智能技術所嚇倒,它可以提高游戲的水平。他很樂意幫助測試Pluribus,因為他欣賞人工智能的科學,以及像押注更大價值這樣的新見解的潛力。
盡管如此,他還是承認自己有點難過。終極撲克機器人Pluribus的問世,標志著撲克游戲的一個歷史性轉折點。他說:“從16歲開始,我就開始打撲克,并把我的一生都奉獻給了它,現(xiàn)在被機器打敗是一件很丟臉的事。自人工智能第一次獲勝之后,人類就很難再贏過它了?!?/p>