MIT CSAIL開(kāi)發(fā)出新式AI可隨時(shí)間推移追蹤目標(biāo)變化
據(jù)VentureBeat報(bào)道,人類利用對(duì)物理世界的隱含理解來(lái)預(yù)測(cè)物體的運(yùn)動(dòng),并推斷它們之間的相互作用,但機(jī)器人很難實(shí)現(xiàn)這些邏輯上的飛躍。不過(guò),在麻省理工學(xué)院(MIT)下屬計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)發(fā)布的最新論文中,研究人員描述了一個(gè)被稱為“時(shí)間關(guān)系網(wǎng)絡(luò)”(TRN)的人工智能系統(tǒng),它本質(zhì)上可以了解物體隨時(shí)間如何變化。
MIT CSAIL并不是第一個(gè)開(kāi)發(fā)類似技術(shù)的公司,百度和谷歌也正在研究人工智能輔助時(shí)空建模技術(shù)。但是MIT的團(tuán)隊(duì)聲稱,他們的方法在之前方法的準(zhǔn)確性和效率之間取得了很好的平衡。論文的第一作者周伯磊(Bolei Zhou)解釋稱:“我們建立的AI系統(tǒng)可識(shí)別物體的變化,而不是物體的外觀。這套系統(tǒng)不會(huì)檢查所有的幀,它會(huì)挑選關(guān)鍵幀,然后利用幀的時(shí)間關(guān)系來(lái)識(shí)別發(fā)生了什么。這提高了系統(tǒng)的效率,并使其實(shí)時(shí)準(zhǔn)確運(yùn)行。”
研究人員在三個(gè)數(shù)據(jù)集上訓(xùn)練了一個(gè)卷積神經(jīng)網(wǎng)絡(luò)——這是一種機(jī)器學(xué)習(xí)模型,它非常擅長(zhǎng)分析視覺(jué)圖像。這些數(shù)據(jù)集包括TwentyBN的Something-Something(包括174個(gè)動(dòng)作類別的20000多個(gè)視頻)、Jester(包含27個(gè)手勢(shì)的15萬(wàn)個(gè)視頻)以及卡內(nèi)基梅隆大學(xué)的Charades(包含157個(gè)分類活動(dòng)的10000個(gè)視頻)。
隨后,研究人員將這個(gè)卷積神經(jīng)網(wǎng)絡(luò)松散地放在視頻文件中,通過(guò)對(duì)幀進(jìn)行分組排序,并確定屏幕上的對(duì)象與學(xué)習(xí)活動(dòng)相匹配的概率,比如撕下一張紙,或者舉起一只手。那么結(jié)果如何呢?該模型對(duì)Jester數(shù)據(jù)集實(shí)現(xiàn)了95%的準(zhǔn)確識(shí)別,并且在有限信息量情況下超過(guò)了現(xiàn)有的預(yù)測(cè)活動(dòng)模型。
在只處理了25%的視頻幀后,它打破了基準(zhǔn),甚至能夠區(qū)分“假裝打開(kāi)一本書(shū)”和“真正打開(kāi)一本書(shū)”等動(dòng)作。在未來(lái)的研究中,研究團(tuán)隊(duì)計(jì)劃通過(guò)實(shí)現(xiàn)對(duì)象識(shí)別和添加“直觀物理”(即了解對(duì)象的真實(shí)世界屬性),來(lái)改進(jìn)模型的復(fù)雜性。
周伯磊表示:“因?yàn)槲覀冎肋@些視頻里的很多物理知識(shí),所以我們可以訓(xùn)練模型來(lái)學(xué)習(xí)這些物理定律,并利用它們來(lái)識(shí)別新的視頻。我們也開(kāi)源了所有的代碼和模型。‘活動(dòng)理解’現(xiàn)在是人工智能的一個(gè)令人興奮的領(lǐng)域。”