深度學習的應用就只在無人駕駛上面嗎
如果你見過自動駕駛汽車,也許會對車頂上那個一直在旋轉(zhuǎn)的圓柱體感到好奇。
google的自動駕駛汽車這是一個雷達傳感器,無人駕駛汽車依靠它在現(xiàn)實世界中進行導航。通過發(fā)射紅外脈沖并測量其從物體反彈回來所用的時間,傳感器創(chuàng)建出一個點云(point cloud),形成一個關于汽車周圍環(huán)境的3D快照。
把未經(jīng)處理的點云數(shù)據(jù)變得有實際意義并不容易,在機器學習時代以前,往往需要訓練有素的工程師通過手工進行枯燥地詳列他們想捕捉的特點。但來自MIT計算機科學與人工智能實驗室(CSAIL)研究者們的一系列新論文顯示,他們可以用深度學習自動化處理廣泛的3D成像應用中的點云數(shù)據(jù)。
“今天的計算機視覺和機器學習中,90%的進展只處理二維圖像,”MIT的Justin Solomon教授如是說,他是這一系列由博士生Yue Wang帶頭的論文的通訊作者。“我們的目標是解決‘更好地表征3D世界’這個基本需求,其應用不僅僅是在自動駕駛,而是任何需要理解3D形狀的領域?!?/p>
需要從空間里大量的3D點中獲得有意義的信息,先前大多數(shù)從數(shù)據(jù)中提取特征的方式都不是特別成功。在該研究團隊的論文中,他們展現(xiàn)了新的分析點云的“EdgeConv”方式,即通過動態(tài)圖卷積神經(jīng)網(wǎng)絡(dynamic graph convolutional neural network)來分類和分割獨立物體。
“通過建立鄰近點的圖,算法可以捕獲層次模式( hierarchical patterns )并因此推理出不同類型的通用信息用于各種下游任務?!盩oyota Research Institute的機器學習科學家Wadim Kehl說道。
除了開發(fā)“ EdgeConv ”,團隊還探索了點云處理的其他特殊方面。比如,其中一個挑戰(zhàn)就是大多數(shù)傳感器當它們在3D世界中轉(zhuǎn)悠的時候總是改變角度;每次我們對一個物體重新掃描,它的位置可能與上一次我們看見它的時候不同。把多種點云融合到一個唯一的世界視角,你需要在一個叫做“ registration ”的進程中對齊或校準各種3D點。
從衛(wèi)星數(shù)據(jù)到醫(yī)療手術(shù),“registration”對于許多成像形式都至關重要。例如,當醫(yī)生需要對病人進行多次磁共振成像掃描時,“registration”使掃描結(jié)果能夠校準以找出變化。
“‘registration’是讓我們能夠?qū)⒉煌瑏碓吹娜S數(shù)據(jù)集成到一個共同的坐標系中,”Yue Wang說,“沒有它,我們實際上就無法從所有這些已開發(fā)的方法中獲得有意義的信息。”
Solomon和Wang的第二篇論文展示了一種稱為“ Deep Closest Point ”(DCP)的新 registration 算法,該算法能夠更好地找到點云的識別模式、點和邊(稱為“ local features ”),以便將其與其他點云對齊。這對于自動駕駛汽車在場景中定位(“ localization ”)以及機器人手定位和抓取單個物體等任務尤其重要。
DCP的一個局限是,它假設我們可以看到一個完整的形狀,而不僅僅是一側(cè)。這意味著它無法處理更困難對齊形狀的部分視角( partial-to-partial registration)的任務。因此,在第三篇論文中,研究人員提出了一種改進的算法,稱之為 Partial Registration Network (PRNet) 。
Solomon說,與2D圖像和照片相比,現(xiàn)有的3D數(shù)據(jù)往往不結(jié)構(gòu)化和難以處理。他的團隊試圖找出如何在沒有很多機器學習技術(shù)所需的可控環(huán)境下,從所有無序的3D數(shù)據(jù)中獲得有意義的信息。
DCP和PRNet成功背后的一個關鍵觀察是,點云處理的一個重要方面是背景。點云A上的幾何特征暗示了將其與點云B對齊的最佳方式,這可能與將其與點云C對齊所需的特征不同。例如,在 partial registration 中,一個點云中形狀的有趣部分可能在另一個點云中不可見,這使其對registration無效。
Wang 說,該團隊的工具已經(jīng)被計算機視覺社區(qū)和其他領域的許多研究人員使用。甚至物理學家也在使用它們來實現(xiàn)csail團隊從未考慮過的應用:粒子物理學。
接下來,研究人員希望在真實世界的數(shù)據(jù)上使用這些算法,包括從自動駕駛汽車上收集的數(shù)據(jù)。 Wang 說,他們還計劃探索利用自我監(jiān)督學習訓練系統(tǒng)的潛力,以盡量減少所需的人類注釋。
Solomon和Wang是DCP和PRNET論文的兩位唯一作者。他們在 EdgeConv 論文上的共同作者是研究助理 Yongbin Sun 和麻省理工學院的 Sanjay Sarma 教授,以及加州大學伯克利分校的 Ziwei Liu 博士后和倫敦帝國理工學院的 Michael M. Bronstein 。
這些項目在一定程度上得到了美國空軍、美國陸軍研究辦公室、亞馬遜、谷歌研究公司、IBM、國家科學基金會、斯科爾特理工學院Next Generation項目和豐田研究所的支持。
來源:易明智能