麻省理工學(xué)院設(shè)計出人工智能系統(tǒng)可用來識別物體的變形
人類利用對物質(zhì)世界的隱式理解來預(yù)測物體的運動,并推斷它們之間的相互作用。舉個例子,如果你看到三個顯示傾倒的罐子的畫面,第一個畫面是罐子整齊地堆疊在一起,第二個畫面是手指放在堆放好的罐子的底部,第三個畫面是罐子傾倒了,那么,你很有可能會認為這個手指是造成罐子傾倒的原因。
機器人努力實現(xiàn)這些邏輯上的飛躍。但在麻省理工學(xué)院計算機科學(xué)與人工智能實驗室的一篇論文中,研究人員描述了一個稱為時間關(guān)系網(wǎng)絡(luò)(TRN)的系統(tǒng)--它基本上學(xué)習(xí)了物體是如何隨時間變化的。
這個團隊并不是第一個這樣做的人,有很多公司都在研究工智能輔助時空建模,百度和谷歌也不例外。但麻省理工學(xué)院的團隊聲稱較之以前的方法,他們的方法在既有準確性,又有效率。
?
這篇論文的主要作者Bolei Zhou告訴《麻省理工學(xué)院新聞》:“我們建立了一個人工智能系統(tǒng)來識別物體的變形,而不是物體的外觀。這個系統(tǒng)不會檢查所有的幀,而是拾取關(guān)鍵幀,使用幀的時間關(guān)系來識別正在發(fā)生的事情。這提高了系統(tǒng)的效率,使其準確實時地運行?!?/p>
研究人員在三個數(shù)據(jù)集的基礎(chǔ)上訓(xùn)練了卷積神經(jīng)網(wǎng)絡(luò)--一類非常擅長分析視覺圖像的機器學(xué)習(xí)模型:TwentyBN的Something-Something,包含174個動作類別中的2萬多個視頻;Jester包含具有27個手勢的15萬個視頻;卡內(nèi)基梅隆大學(xué)的Charades,包括157個分類活動的1萬個視頻。
然后,他們將網(wǎng)絡(luò)與視頻文件結(jié)合,通過按組排序幀進行處理,并設(shè)定屏幕上的物體與學(xué)習(xí)活動相匹配的概率,比如例如撕開一張紙或舉手。
那么,這是怎么做到的?由于信息量有限,這個模型設(shè)法達到了Jester數(shù)據(jù)集的95%準確率,并且在預(yù)測活動方面優(yōu)于現(xiàn)有的模型。那怎么辦?在處理了25%的視頻幀后,這個模型超越了基線,甚至設(shè)法區(qū)分了“假裝打開書”和“打開書本”等行為。
在未來的研究中,這個團隊打算通過實現(xiàn)物體識別和添加“直觀物理”來改進模型的復(fù)雜性--即,理解物體在真實世界中所具有的屬性。
Zhou說:“因為我們知道這些視頻中的很多物理知識,我們可以訓(xùn)練模塊來學(xué)習(xí)這些物理定律,并用它來識別新的視頻。我們還開放所有源代碼和模型。對人工智能來說,活動理解是一塊令人興奮的發(fā)展領(lǐng)域?!?/p>