繼人工智能OpenAI打敗Dota2 玩家后,人工智能DeepMind又在雷神之錘3超越人類(lèi)水準(zhǔn)
自從人工智能Alphago在圍棋領(lǐng)域戰(zhàn)勝人類(lèi)棋手之后,谷歌的人工智能DeepMind近日又在電子游戲領(lǐng)域超越了人類(lèi)水準(zhǔn)。
根據(jù)介紹,DeepMind使用了強(qiáng)化學(xué)習(xí)(reinforced learning)來(lái)促進(jìn)AI學(xué)習(xí)游玩精簡(jiǎn)版《雷神之錘3:競(jìng)技場(chǎng)》多人奪旗模式。這些機(jī)器人們已經(jīng)通過(guò)“內(nèi)戰(zhàn)”游玩了45萬(wàn)場(chǎng)多人模式,每一場(chǎng)比賽都在系統(tǒng)生成地圖上進(jìn)行,持續(xù)時(shí)間在5分鐘左右。根據(jù)外媒編輯的估算,AI的游戲時(shí)長(zhǎng)已經(jīng)達(dá)到了37500個(gè)小時(shí)。
根據(jù)外媒The Verge報(bào)道,DeepMind與另一個(gè)人工智能OpenAI不同,它并沒(méi)有加載《雷神之錘3》原始數(shù)值數(shù)據(jù),而是采用了一種和人類(lèi)玩家近似的方式——通過(guò)“視覺(jué)”來(lái)吸收信息。DeepMind的各個(gè)終端并沒(méi)有接到任何指示,它們?cè)谟螒蛑羞M(jìn)行多機(jī)競(jìng)技,直到確認(rèn)并能重現(xiàn)出游戲中的多種路線(xiàn)從而獲取勝利為止。據(jù)稱(chēng)機(jī)器人們也學(xué)會(huì)了埋伏、gank、守旗等等戰(zhàn)術(shù)。
為了檢驗(yàn)這些機(jī)器人的能力,研究者們也舉行了相關(guān)競(jìng)賽賽;參賽隊(duì)伍共有三種組成形式,第一種是兩名人類(lèi)玩家組成的小隊(duì)、第二種則是兩名機(jī)器人組隊(duì),還有一種則是機(jī)器人和人類(lèi)玩家組隊(duì)。最終全員為機(jī)器人的小隊(duì)勝率達(dá)到了74%(據(jù)稱(chēng)《雷神之錘3》老手玩家的勝率在52%左右,普通玩家則是43%)。當(dāng)隊(duì)伍里有4名機(jī)器人時(shí),勝率就會(huì)跌至64%。但是這個(gè)勝率依然要高于人類(lèi)的平均水平。