昨日,騰訊AILab與王者榮耀共同探索的前沿研究項目-策略協(xié)作型AI“絕悟”在吉隆坡舉辦的王者榮耀最高規(guī)格電競賽事—;—;世界冠軍杯半決賽的特設環(huán)節(jié)中,在職業(yè)選手賽區(qū)聯(lián)隊帶來的5v5水平測試中獲勝,升級至王者榮耀電競職業(yè)水平。
而就在同一天,“絕悟”的1v1版本也在上海舉辦的國際數(shù)碼互動娛樂展覽會ChinaJoy首次對公眾亮相,向頂級業(yè)余玩家開放為期四天的體驗測試。其中在首日的504場測試中,“絕悟”的測試勝率為99.8%,僅有1場輸給了王者榮耀國服第一后羿。
據(jù)悉,“絕悟”名字寓意絕佳領悟力,其技術(shù)研發(fā)始于2017年12月,并在2018年12月通過了由前職業(yè)選手與主播聯(lián)隊帶來的頂尖業(yè)余水平測試。
“絕悟”在游戲測試中的對戰(zhàn)實況
此次測試的“絕悟”版本建立了基于“觀察-行動-獎勵”的深度強化學習模型,無需人類數(shù)據(jù),從白板學習(TabulaRasa)開始,讓AI自己與自己對戰(zhàn),一天的訓練強度抵得上人類440年。AI從0到1摸索成功經(jīng)驗,勤學苦練,既學會了如何站位、打野、輔助保護和躲避傷害等游戲常識。
而更令人驚喜的是,AI也探索出了不同于人類常規(guī)做法的全新策略。團隊還創(chuàng)建OneModel模型提升訓練效率,優(yōu)化通信效率提升AI的團隊協(xié)作能力,使用零和獎懲機制讓AI能最大化團隊利益,使其打法果斷,有舍有得。
探索全新策略:開局時“絕悟”沒選擇傳統(tǒng)人類對線走位策略,而是由雙C位英雄虞姬和王昭君先一起清理中路第一波兵線,壓制敵方中輔。之后又轉(zhuǎn)上路壓制曹操血線。
長線策略:對線期,賽區(qū)聯(lián)隊三人壓迫下路,“絕悟”果斷選擇用三個AI反壓賽區(qū)聯(lián)隊的上路,最終雙方互換一塔,維持均勢。
團隊協(xié)作:比賽中期,“絕悟”四人追擊娜可露露,AI達摩一腳將娜可露露反踢入AI群中,再由四個AI完美配合拿下自己的首殺。
即時策略:一對一時,賽區(qū)聯(lián)隊實力較強的曹操追擊“絕悟”虞姬,虞姬在殘血狀態(tài)退至高地??吹讲懿倏顾看鬁p后,把握機會絕地反殺。
即時策略+團隊協(xié)作:比賽后期在賽區(qū)聯(lián)隊的上路高地塔團戰(zhàn),AI王昭君先手被對方秒殺,“絕悟”果斷選擇反打,以漂亮的一波團戰(zhàn)全殲對手。
即時策略+團隊協(xié)作:在賽區(qū)聯(lián)隊全隊覆滅后,“絕悟”的兵線尚未到達,下路高地塔還有過半血量,“絕悟”果斷選擇四人輪流抗塔,無兵線強拆塔。注:賽事尾聲,賽區(qū)聯(lián)隊團滅后,“絕悟”未直接推水晶,而是計算整體收益后,選擇先推最后一個高地塔,再推水晶直至勝利。
“絕悟”面臨的技術(shù)難點
游戲中測試的難點,是AI要在不完全信息、高度復雜度的情況作出復雜快速的決策。在龐大且信息不完備的地圖上,10位參與者要在策略規(guī)劃、英雄選擇、技能應用、路徑探索及團隊協(xié)作上面臨大量、不間斷、即時的選擇,這帶來了極為復雜的局面,預計有高達10的20000次方種操作可能性,而整個宇宙原子總數(shù)也只是10的80次方。
若AI能在如此復雜的環(huán)境中,學會人一樣實時感知、分析、理解、推理、決策到行動,就可能在多變、復雜的真實環(huán)境中發(fā)揮更大作用。因此業(yè)界認為下一個AI里程碑,可能會在復雜策略游戲中誕生。世界頂級科技公司均在推進此類研究,如GoogleDeepmind(星際爭霸2)、Facebook(星際爭霸2)及OpenAI(Dota2)等。
關于“絕悟”更多技術(shù)細節(jié)解讀,騰訊AILab表示將通過論文等形式進一步分享,并通過開放研究,幫助和啟發(fā)更多研究者。
騰訊AILab在智能體研究中取得的進展
騰訊AILab一直是此類智能體研究的先行者。2016年起,研發(fā)的圍棋AI“絕藝”(FineArt),現(xiàn)擔任中國國家圍棋隊訓練專用AI;2017年,啟動“絕悟”研發(fā);2018年,“絕悟”達到業(yè)余頂尖水平,騰訊還在射擊類頂級AI競賽VizDoom奪冠,并在《星際爭霸2》首先研發(fā)出擊敗內(nèi)置AI的智能體。
而這兩次技術(shù)水平測試結(jié)果代表騰訊在深度強化學習、多智能體決策智能課題上的國際級AI研究水準,也標志著公司在攻堅通用人工智能(ArtificialGeneralIntelligence)難題上更進一步。
對在這兩次技術(shù)水平測試中所取得的成果,騰訊副總裁姚星介紹,“電子競技”將成為策略協(xié)作型AI“絕悟”未來短期內(nèi)的主要應用場景。作為數(shù)字時代最受年輕人歡迎的運動,電競已于2018年成為亞運會表演項目,中國隊參賽獲兩金一銀的佳績。與傳統(tǒng)體育項目一樣,電競職業(yè)選手也需要手眼腦協(xié)調(diào)、策略和操作快速反應、團隊協(xié)作精神及大量刻苦訓練。借助在算法和數(shù)據(jù)方面的優(yōu)勢,AI可為職業(yè)選手提供數(shù)據(jù)、戰(zhàn)略與協(xié)作類實時分析與建議,及不同強度與級別的專業(yè)陪練。以前沿科技推動電競專業(yè)化發(fā)展,AI將繼續(xù)推動中國電競在全球范圍內(nèi)保持領先。
而長期應用上,“絕悟”將是騰訊攻克AI終極研究難題—;—;通用人工智能的關鍵一步。AGI代表研發(fā)能在通用系統(tǒng)中執(zhí)行多種復雜命令,達到或超越人類水平的AI,從“絕藝”到“絕悟”,不斷讓AI從0到1去學習進化,并發(fā)展出一套合理的行為模式,這中間的經(jīng)驗、方法與結(jié)論,長期來看,有望在大范圍內(nèi),如醫(yī)療、制造、無人駕駛、農(nóng)業(yè)到智慧城市管理等領域帶來更深遠影響。