人工智能戰(zhàn)隊OpenAI將戰(zhàn)Dota2人類最強(qiáng)戰(zhàn)隊的最終決戰(zhàn)
人工智能戰(zhàn)隊OpenAI將戰(zhàn)Dota2人類最強(qiáng)戰(zhàn)隊
OpenAI 今日宣布,它們的游戲人工智能 OpenAI Five 將于 4 月 13 日與人類進(jìn)行最終決戰(zhàn),此次比賽的對手是 Dota 2 世界冠軍團(tuán)隊 OG。
雖然在去年 8 月的 Dota2 國際邀請賽(TI8)上,OpenAI連續(xù)輸給 paiN 以及由大 B 神、xiao8、430、ROTK、狗哥這些中國 Dota 屆元老組成的戰(zhàn)隊,但 OpenAI 并沒有因為挑戰(zhàn)失敗而放棄嘗試。這一次他們直接選擇了與 TI8 上的冠軍團(tuán)隊過招。
看來在最近 6 個多月的時間里,人工智能又學(xué)會了一些新的技術(shù)?
這次比賽的規(guī)則類似于 TI8 時 OpenAI Five 與職業(yè)戰(zhàn)隊的比賽:
18 名英雄可選:斧王、水晶室女、死亡先知、撼地神牛、矮人直升機(jī)、巫妖、巫魔巫師、死靈法師、痛苦女王、剃刀、隱刺、影魔、斯拉克、矮人火槍手、斯溫、潮汐獵人、冥界亞龍、巫醫(yī)。鏡像匹配:瘟疫法師、矮人火槍手、冥界亞龍、水晶室女、巫妖。
無圣劍、魔瓶
無召喚物,無幻象
無掃描
值得注意的是,TI8 比賽期間,去除掉了“5 個無敵信使”的限制,因為這個條件會極大的影響游戲的真實(shí)性。
人工智能在圍棋上擊敗人類之后,很多技術(shù)人員就開始展望 AI 在視頻游戲中的表現(xiàn)了。2017 年的 Dota2 國際邀請賽 TI7 上,OpenAI 推出的人工智能橫空出世,在人類巔峰對決的比賽現(xiàn)場 1v1 打敗了世界頂級玩家。
在那場一對一表演賽中,OpenAI 的人工智能打敗了 Danylo "Dendi" Ishutin,一名在職業(yè)生涯中贏得超過 70 萬美元獎金的職業(yè)玩家。OpenAI 的 bot 在第一場比賽開始約 10 分鐘打敗了 Dendi。在第二場比賽中 Dendi 放棄,并拒絕進(jìn)行第三場比賽。
Dendi 在比賽前接受采訪,作為第一個在公開比賽中被 AI 擊敗的職業(yè)選手,他領(lǐng)教了人工智能在單挑時的應(yīng)變能力。
單挑可能還不具有太多說服力,Dota2 是一個 5v5 的多人對戰(zhàn)游戲,很快 OpenAI 就開啟了更為正式的“10 人對決”之旅。2018 年 6 月,這家公司提出的“OpenAI Five”又在 5v5 多人對局中擊敗了由前職業(yè)玩家、游戲解說組成的天梯 6000 分級別戰(zhàn)隊,并宣布會于 TI8 上亮相和真正的職業(yè)選手過招,一時吸引了人們的關(guān)注。
Dota2 是目前全球最為流行,也最復(fù)雜的電子競技游戲之一。其最負(fù)盛名的賽事“TI”每年都會吸引上千萬玩家的關(guān)注。
面對 AI 的挑戰(zhàn),人類躍躍欲試,在 TI8 上很多參賽隊伍都報名想?yún)⒓?OpenAI Five 的比賽,OpenAI 遇到的第一個對手是來自巴西的戰(zhàn)隊 paiN,后者也是 TI8 決賽階段第一支被淘汰的隊伍。有了 AlphaGo 的“前車之鑒”,人們紛紛預(yù)測 AI 穩(wěn)贏,然而人類職業(yè)玩家卻讓 OpenAI 嘗到了失敗的滋味。
paiN 選擇了開霧直接沖進(jìn)天輝野區(qū),四人圍攻落單的潮汐,搶到了一血。OpenAI 也展示出了人工智能“不聰明”的一面,在塔下不斷插眼。雖然在隨后的比賽中雙方有來有往,但人類玩家逐漸掌握了計算機(jī)的套路,在 50 分鐘的比賽后打爆了對方的水晶。
在 Open AI Five 對陣 paiN 的比賽中,人工智能對于自己獲勝概率的預(yù)測。
這場失利讓大家對于 AI 的期待有所下降,隨后在第二場比賽中,由 Burning、Xiao 8、430、ROTK 和 Sansheng 組成的“中國 Dota2 元老隊”也順利擊敗了 OpenAI Five,讓人工智能的 TI8 之旅最終以失敗告終。
第二場比賽中,人類用了 45 分鐘拿下勝利,人頭比 48 比 43。
解決 5v5 的核心問題
雖然首次挑戰(zhàn)職業(yè)玩家沒有成功,但 OpenAI Five 的嘗試為人工智能領(lǐng)域技術(shù)的發(fā)展有著很大意義——它解決一個重要問題:強(qiáng)化學(xué)習(xí)在如此復(fù)雜、需要長期策略的游戲環(huán)境下是否依然奏效?
通過自我對抗學(xué)習(xí),OpenAI Five 每天相當(dāng)于玩 180 年的游戲。訓(xùn)練上,它使用 256 塊 GPU、12 萬 8000 個 CPU 核心使用近端策略優(yōu)化(Proximal Policy Optimization)方法進(jìn)行訓(xùn)練。當(dāng)每個英雄使用單獨(dú)的一個 LSTM,模型就可以在沒有人類數(shù)據(jù)的情況下學(xué)到可識別的策略。這表明強(qiáng)化學(xué)習(xí)即使沒有根本性的進(jìn)步,也能夠產(chǎn)生大規(guī)模但也可接受的長期規(guī)劃。這出乎了 OpenAI 研究人員起先的預(yù)料。
為了訓(xùn)練每個英雄,OpenAI 使用了兩種機(jī)器學(xué)習(xí)技術(shù):長短期記憶網(wǎng)絡(luò)(LSTM)和近端策略優(yōu)化(Proximal Policy Optimization)。
為什么使用 LSTM 其實(shí)很好理解:打 Dota2 需要長期策略,敵方英雄的每一個當(dāng)前行為都會對之后的行為產(chǎn)生影響。LSTM 是一種循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),它比普通的 RNN 更適合于處理和預(yù)測時間序列中間隔和延遲非常長的重要事件。LSTM 有一個叫做 Cell 的元素,能夠分辨出輸入的信息是否有用,是否需要記祝
每一個 bot 的神經(jīng)網(wǎng)絡(luò)包含一個單層的、擁有 1024 單位的 LSTM,觀察游戲的局勢然后做出相應(yīng)的行為。下圖這個互動演示就是可以讓你理解每個 bot 是如何做出指令的,這些畫面就是 Dota 2 的 API 所觀察到的。
如何讓五個神經(jīng)網(wǎng)絡(luò)協(xié)作團(tuán)戰(zhàn)是另一個讓不少人好奇的地方,這其實(shí)也是建立在獎勵機(jī)制上。OpenAI 為 AI 模型開發(fā)了一個叫 Team Spirit 的超參數(shù),數(shù)值從 0 到 1,數(shù)字越小每個神經(jīng)網(wǎng)絡(luò)就越“自私”,相反則越考慮團(tuán)隊的整體利益。到最后,OpenAI 發(fā)現(xiàn)將 Team Spirit 設(shè)置為 1 都能贏得比賽。
在訓(xùn)練初期,研究員其實(shí)會將數(shù)值調(diào)整的很小,這樣 AI 會更考慮自身的獎勵,學(xué)習(xí)如何分路、對線、提供金錢和經(jīng)驗。等到每個神經(jīng)網(wǎng)絡(luò)學(xué)會了基本的策略和玩法后,研究員才將數(shù)值慢慢提高。
由于所有參數(shù)都是隨機(jī),AI 沒有引入任何人類的經(jīng)驗,所以 AI 沒有 1-5 號位的概念,不會區(qū)分輔助和 carry,出裝備也是從頭開始學(xué)習(xí)。
在第一場游戲中,英雄漫無目的地在地圖上探索,而在幾個小時的訓(xùn)練后,出現(xiàn)了規(guī)劃、發(fā)育或中期戰(zhàn)斗等概念。幾天后,智能體能一致地采用基本的人類策略:試圖從對手偷財富、推塔發(fā)育、在地圖旋轉(zhuǎn)控制英雄以獲得線路優(yōu)勢。通過進(jìn)一步的訓(xùn)練,它們開始學(xué)會了 5 個英雄一起推塔這樣的高級策略。
TI8 冠軍 OG 戰(zhàn)隊
OpenAI 卷土重來,這一次直接選擇挑戰(zhàn)目前人類最強(qiáng)戰(zhàn)隊 OG,展示了自己的強(qiáng)大自信。這次的“最終對決”,OpenAI 直接以 Finals 為名,看來是最后一戰(zhàn)了。更令人興奮的是,它的對手 OG 絕非等閑之輩。
OG 戰(zhàn)隊前身為 Monkey Busniess 戰(zhàn)隊,后被一家游戲直播平臺收購改名為 OG。2015 年,OG 戰(zhàn)隊在決賽中擊敗了 Secret 戰(zhàn)隊,奪得法蘭克福特錦賽冠軍,從此一戰(zhàn)成名。
2016 年,OG 戰(zhàn)隊雖然在上海錦標(biāo)賽中失利,卻于當(dāng)年在馬尼拉再次奮起奪得第二個特錦賽冠。
冠軍團(tuán)隊也并非一帆風(fēng)順的。在 2016 年 TI 賽慘敗之后,OG 戰(zhàn)隊經(jīng)歷了一波換血:去掉了 Cr1t-、Miracle-和 MoonMeander,新加入 Jerax、Ana 和 s4。重生之后的 OG 隨即斬獲了波士頓特錦賽的冠軍,之后于 2017 年獲得基輔特錦賽冠軍。
TI5-TI7 期間,OG 取得了 7 個官方特錦賽中的 4 個冠軍,這是一支頂級的世界強(qiáng)隊。
但 OG 真正的傳奇,展現(xiàn)在 TI8 的舞臺上。
TI8 自 2018 年 8 月 15 日溫哥華開戰(zhàn)后,OG 先以 2:1 擊敗 PSG.LGD,取得勝者組冠軍。而后,打落敗者組的 PSG.LGD 在敗者組決賽中以 2:0 戰(zhàn)勝 EG 挺進(jìn)總決賽。TI8 決賽成為了 OG 與 LGD 的恩怨局。
8 月 26 日,在總決賽的精彩對決中,最終 OG 更勝一籌,3:2 贏得 LGD,在全世界面前捧起了 TI 冠軍盾,而 N0tail 與 JerAx 也成功拿下四大聯(lián)賽大滿貫。