人類再不敵機(jī)器人,人工智能又勝一場
最近,在賓夕法尼亞州匹茲堡的 River 賭場中, 4 名世界上的頂級(jí)德州撲克牌手與卡耐基梅隆大學(xué)開發(fā)的 Libratus 人工智能系統(tǒng)進(jìn)行了一場激烈的比賽。
最終 Libratus 打敗了人類牌手取得了勝利。
他們比的是“無限制德州撲克”,這種復(fù)雜的撲克游戲的投注往往要經(jīng)過很多手。比賽一共持續(xù)了 20 天,每天早上 11 點(diǎn)前,四位撲克手開始坐在電腦屏幕前與由 Libratus 控制的電腦系統(tǒng)展開“決斗”, 每天至少要打出 1500 次手牌,直到晚上 10 點(diǎn)以后才結(jié)束,整場比賽后,他們一共打出了 12 萬次手牌。
在德州撲克的游戲規(guī)則中:每個(gè)玩家有 2 張牌作為“底牌”,同時(shí)還有 5 張公共牌。玩家用自己的 2 張底牌和 5 張公共牌結(jié)合在一起,選出 5 張牌,不論手中的牌使用幾張(可以不用手中的底牌),湊成最大的成牌,跟其他玩家比大小。按照最后成牌大小來決定勝者。
與圍棋不同,在德州撲克游戲里,雙方玩家都有隱藏起來的底牌;而且人們還會(huì)使用上“欺騙、推測”等非理性的戰(zhàn)略;但在圍棋當(dāng)中,對(duì)壘雙方所有信息都是公開、對(duì)稱的,這讓人工智能不能再采取和 AlphaGo 一樣的學(xué)習(xí)策略 —— 使用深度學(xué)習(xí)分析人類玩家的 3000 萬份棋譜來學(xué)習(xí)下圍棋的技能,再通過自己和自己下棋來改進(jìn)技能。
計(jì)算機(jī)在德州撲克中需要處理的是 “非完整信息的博弈”。根據(jù) Wired 的報(bào)道,卡耐基梅隆大學(xué)采用了一套叫做 Counterfactual regret minimizaTIon ( 反事實(shí)的遺憾最小化)算法。它會(huì)先讓 Libratus 反復(fù)地進(jìn)行自我博弈,隨機(jī)玩上幾億手撲克,達(dá)到挑戰(zhàn)頂尖撲克玩家的高度。
但最后讓 Liratus 真正優(yōu)于人類牌手的地方在于,它可以通過在計(jì)算和統(tǒng)計(jì)上的絕對(duì)優(yōu)勢(shì),將下注范圍和隨機(jī)性提高到人類牌手達(dá)不到的程度,這讓人類玩家難以難猜測電腦手中到底握有什么樣的牌。
在卡耐基梅隆大學(xué)的 Libratus 之前。加拿大和捷克的幾位科學(xué)家已經(jīng)發(fā)表了能擊敗人類牌手的算法 DeepStack,它的原理與 Libratus 類似,而且這兩套人工智能系統(tǒng)都注重讓計(jì)算機(jī)對(duì)牌局中的具體情境進(jìn)行推理,不像以前一樣需要跑完所有可能的情況。
在圍棋被人工智能攻陷后,為什么頂尖的德州撲克手也敵不過人工智能?這讓許多玩家感到懷疑。
因?yàn)槿斯ぶ悄艿膬?yōu)勢(shì)在于計(jì)算能力。但在德州撲克的比拼中會(huì)帶有許多人為因素,比如“運(yùn)氣”“互相欺詐”甚至“比拼氣勢(shì)”的成分。
過去計(jì)算機(jī)靠著在計(jì)算和統(tǒng)計(jì)上的絕對(duì)優(yōu)勢(shì)獲得高度依賴推理、運(yùn)算等競技比賽的勝利。但那些需要揣測人心,并且理解人類情緒的過程反而是計(jì)算機(jī)最難學(xué)會(huì)的能力。
所以,在匹茲堡舉行的撲克大賽中,需要打出超過一定的手牌數(shù)時(shí),人工智能才會(huì)具有絕對(duì)的優(yōu)勢(shì)。人為因素的概率被稀釋后,人工智能的優(yōu)勢(shì)得以凸顯。它能記錄下人類每一手牌的模式與套路,當(dāng)他收集了人類對(duì)撲克理解的數(shù)據(jù)后,人類就完全無法對(duì)抗了。
但說到底,這仍然是基于大量數(shù)據(jù)的學(xué)習(xí)和訓(xùn)練的結(jié)果,而不是機(jī)器真的理解了你的情緒與心理。