很難教機器人使用語言,這就是為什么他們應(yīng)該自己教自己。據(jù)悉,目前,機器人正在學習通過探索3D虛擬世界來處理簡單的指令。
像亞馬遜Alexa和谷歌Home這樣的設(shè)備已經(jīng)把語音控制技術(shù)引入主流,但它們?nèi)灾荒芴幚砗唵蔚拿?。讓機器智能地處理真實的對話,仍是一個非常艱巨的挑戰(zhàn)。
嘗試通過直接編碼單詞和對象與動作之間的關(guān)系來解決這個問題需要很多新的規(guī)則,這使得機器無法適應(yīng)新的情況。而機器學習語言的這一努力通常需要大量的人力進行協(xié)助。
如今,DeepMind的團隊、Alphabet旗下的一家專注于人工智能的子公司,與卡內(nèi)基梅隆大學共同研發(fā)出一種方法,可以讓機器在基于第一人稱射擊游戲的3D環(huán)境中為自己找出簡單的語言原理。
卡內(nèi)基梅隆大學的碩士研究生DevendraChaplot說:“在3D的情況下做到這一點絕對是在現(xiàn)實世界中取得成功的重要一步。”他將于計算語言學協(xié)會年會上介紹他的論文。他表示,最終的目標是創(chuàng)造一種接近真實生活的模擬,接受訓練的人工智能可以把它學到的東西傳輸?shù)浆F(xiàn)實世界中。
DeepMind和卡內(nèi)基梅隆大學都采用了由DeepMind的人工智能技術(shù)所推廣的深度強化學習法。神經(jīng)網(wǎng)絡(luò)從虛擬環(huán)境中獲取原始像素數(shù)據(jù),并使用獎勵方式刺激機器通過反復試驗來學習,例如游戲中獲取高分。
通常,在游戲中目標是獲得高分,但在這里,兩個人工智能程序得到了“前往綠色的柱子”這樣的指令,然后必須導航到正確的對象以獲得獎勵。通過已加速的速度運行數(shù)百萬個訓練場景,這兩個人工智能程序都學會了將單詞與特定的物體和特征聯(lián)系起來,讓它們按照指令執(zhí)行。他們甚至理解了“更大”或“更小”這樣的關(guān)系術(shù)語,以區(qū)分相似的對象。
最重要的是,這兩個程序都可以“概括”他們所學到的內(nèi)容,并將其應(yīng)用到從未見過的情境中。如果訓練場景中有柱子和紅色物體,他們可以執(zhí)行“前往紅柱”的命令,即使他們從未在訓練中看到過紅柱。
這使得它們比以往那些基于規(guī)則的系統(tǒng)更加靈活??▋?nèi)基梅隆大學的團隊將視覺和語言輸入混合在一起,將人工智能的注意力集中在最相關(guān)的信息上,而DeepMind則為他們的系統(tǒng)提供了額外的學習目標,比如猜測它的視圖在移動時將如何變化,這提高它的整體性能。由于這兩種方法從不同的角度解決了這個問題,所以它們的結(jié)合可以提供更好的性能。
華盛頓大學教授、《The Master Algorithm》一書的作者PedroDomingos說道,“這些論文只是初步的,但取得的進步是非常令人興奮的。”據(jù)悉,《The Master Algorithm》這本書是關(guān)于不同機器學習方法的。
這項研究遵循了人工智能的一種趨勢,即把語言和機器人控制等棘手問題結(jié)合在一起。他說,與直覺相反,這反而讓這兩種挑戰(zhàn)變得更容易。這是因為,如果你能接觸到它所指代的現(xiàn)實世界,理解語言就會容易一些,而通過一些指導來了解這個世界就會容易一些。
數(shù)以百萬計的訓練,也就意味著,Domingos不相信純粹的深層強化學習將會打破現(xiàn)實世界。他認為,通常被當作人工智能進步基準的AlphaGo,實際上顯示出了整合各種人工智能方法的重要性。
布朗大學專門研究強化學習的教授MichaelLittman說,研究結(jié)果“令人印象深刻”,視覺輸入比之前的工作要困難得多。他指出,以前大多數(shù)用模擬器來模擬地面語言的嘗試都局限在簡單的2D環(huán)境中。
但Littman回應(yīng)了Domingos對該方法在現(xiàn)實世界中的可擴展性的擔憂,并指出這些命令是基于模擬器設(shè)定的目標而生成的。這意味著它們并不真正代表人類在現(xiàn)實生活中給機器的不精確和含有語境的指令。
Littman說:“我擔心人們可能看到這樣的例子,網(wǎng)絡(luò)系統(tǒng)智能回應(yīng)口頭命令和推斷,這些網(wǎng)絡(luò)語言的理解和導航比他們實際做的更深入。”