麻省理工學(xué)院計算機科學(xué)與人工智能實驗室的研究人員稱,可以通過觸摸學(xué)習(xí)視覺的機器人觸手。在將于下周在加州長灘舉行的計算機視覺和模式識別會議上發(fā)表的一篇新發(fā)表的論文中,他們描述了一個人工智能系統(tǒng),該系統(tǒng)能夠根據(jù)觸覺信號生成物體的視覺表征,并從視覺數(shù)據(jù)片段預(yù)測觸覺。
“通過觀察這一場景,我們的模型可以想象觸摸到平坦表面或鋒利邊緣的感覺,”CSAIL的博士生、這項研究的主要作者李云柱(音譯)說。“通過盲目地觸摸周圍,我們的模型可以純粹從觸覺來預(yù)測與環(huán)境的互動。把這兩種感覺結(jié)合起來,可以增強機器人的能力,減少我們在操作和抓取物體時可能需要的數(shù)據(jù)?!?/p>
該團隊的系統(tǒng)使用了GANs——由生成樣本的生成器和試圖區(qū)分生成的樣本和真實樣本的識別器組成的兩部分神經(jīng)網(wǎng)絡(luò)——來基于觸覺數(shù)據(jù)拼湊視覺圖像。美聯(lián)儲從VisGel觸覺樣本,語料庫超過300萬對視覺/觸覺數(shù)據(jù)包括12000視頻剪輯的近200個對象(如工具、面料和家用產(chǎn)品),它熟悉的形狀和材料的接觸位置和回頭參考圖像“想象”的相互作用。
例如,給定鞋子的觸覺數(shù)據(jù),該模型可以確定鞋子最可能被觸碰的位置。參考圖像有助于對對象和環(huán)境的細節(jié)進行編碼,使機器學(xué)習(xí)模型能夠自我改進。它被安裝在一個庫卡機器人手臂上,帶有一個觸覺GelSight傳感器(由麻省理工學(xué)院的另一個團隊設(shè)計),它將當(dāng)前幀與參考圖像進行比較,以確定觸摸的位置和規(guī)模。
研究人員指出,目前的數(shù)據(jù)集只有在受控環(huán)境中進行交互的例子,他們說,一些細節(jié),比如物體的顏色和柔軟度,仍然很難讓系統(tǒng)推斷出來。不過,他們說,他們的方法可以為在制造環(huán)境中實現(xiàn)更無縫的人機一體化奠定基礎(chǔ),特別是在缺少視覺數(shù)據(jù)的任務(wù)中,比如關(guān)燈或工人盲目地把手伸進容器時。
“這是第一種能夠令人信服地在視覺和觸覺信號之間進行轉(zhuǎn)換的方法,”加州大學(xué)伯克利分校(University of California at Berkeley)博士后研究員安德魯歐文斯(Andrew Owens)表示。“像這樣的方法有可能對機器人非常有用,你需要回答這樣的問題,‘這個物體是硬的還是軟的?’”或者“如果我提起這個杯子的把手,我的握力會有多好?”這是一個非常具有挑戰(zhàn)性的問題,因為信號是如此不同,而這個模型已經(jīng)顯示出了巨大的能力?!?/p>