關(guān)于機器人智能抓取AI+Grasp的技術(shù)分析
(文章來源:激光天地)
抓取規(guī)劃問題是指確定物體與手指間的一系列接觸位置,使得手指能抵抗任意外力且靈活操作物體的能力。傳統(tǒng)的基于分析的抓取規(guī)劃需要根據(jù)已知的被抓物體模型根據(jù)力閉合的條件判斷抓取的好,這種方法只適合對已知的物體進行抓取。然而日常生活中有很多相似物體,沒有必要為每一個物體都建立精確的模型,因此可以用相似性匹配的方法解決這類物體的抓取。隨著人工智能的發(fā)展,人工神經(jīng)網(wǎng)絡(luò)可以從大量的已知物體的抓取中提取出有用的抓取基元,從而實現(xiàn)對未知物體的抓取。這樣做的好處是不必為每個被抓物體建立幾何模型,讓機器人智能抓取操作物體。
美國加州大學(xué)伯克利分校提出了利用大量的物體三維模型和分析的方法生成抓取數(shù)據(jù)集,并利用深度圖和卷積神經(jīng)網(wǎng)絡(luò)(CNN)對抓取進行分類 [2]。他們首先把抓取簡化為一個從上至下的夾?。╰op-down grasp),根據(jù)輸入的點云生成上百個成對的抓取候選,再利用CNN對候選抓取進行快速評分,從而得到最好的抓取。與之前的基于數(shù)據(jù)的抓取不同的是,他們沒有使用費時費力的人工標(biāo)定抓取的方式或機器人隨機抓取來采集數(shù)據(jù)集,而是利用力閉合的原理通過分析的方式計算出抓取的好壞(是否力閉合)。這樣的好處是可以低成本的生成大量的數(shù)據(jù)集。
美國西北大學(xué)進一步使用點云在不同方向的投影作為人工神經(jīng)網(wǎng)絡(luò)的輸入對抓取進行評分并把抓取數(shù)據(jù)集擴展到6D位姿抓取。利用點云的好處是可以讓網(wǎng)絡(luò)得到更豐富的信息。不同于Dex-Net,這個工作使用的是6D抓取位姿作為抓取的表示。在生成抓取候選上,該文使用了一些設(shè)計好的策略。這個策略基于物體的曲面形狀。首先隨機在物體表面采樣一點,以這個點所在的曲面法向作為抓取候選的朝向,“主成分”方向作為兩個夾爪連線的方向。并通過基于該抓取的旋轉(zhuǎn)和平移擴充抓取候選的個數(shù)。通過這種采樣方式,可以增加抓取候選中好抓取的比例。經(jīng)過CNN對抓取候選的分類后,最高可達93%抓取成功率。
進一步,德國漢堡大學(xué)張建偉教授團隊和清華大學(xué)孫富春教授團隊共同提出了對上述工作的改進[4]。對于數(shù)據(jù)集的生成,通過在給抓取打分時不斷調(diào)整夾爪和物體之間的摩擦系數(shù)得到一個更細化的抓取分數(shù)(摩擦系數(shù)越小,抓取分數(shù)越高)。這樣的數(shù)據(jù)集可以得到一個帶分數(shù)的抓取,從而可以讓網(wǎng)絡(luò)學(xué)得更細分的抓取分類。對于網(wǎng)絡(luò)結(jié)構(gòu)上,他們使用了PointNet,這樣的好處是可以直接使用點云作為輸入,不需要對點云進行投影。更大的保留了點云的幾何信息。
不同于首先生成抓取候選,再對抓取分類、評分的思路,英偉達公司的機器人研究團隊提出了直接根據(jù)輸入的物體點云生成抓取。在數(shù)據(jù)集生成上,他們使用了純物理引擎仿真抓取的方式。這種方法的好處是可以生成用特定規(guī)則生成抓取[3.4]得不到的抓取。這是因為通常分析的方法生成抓取數(shù)據(jù)集把抓取簡化成了兩個點。
而在實際抓取中,機器人通常具有兩個平行的手指作為夾爪。另一個原因是抓圓環(huán)物體如帶柄的馬克杯時,力閉合原理無法生成“Caging”的抓取。因此用物理引擎可以完全模擬真實中的抓取情形,生成更多樣化的抓取。在網(wǎng)絡(luò)上,他們把被抓物體點云和夾爪點云一起作為輸入,使用PointNet++網(wǎng)絡(luò)和自編碼機的結(jié)構(gòu)生成好的抓取,并利用一個網(wǎng)絡(luò)優(yōu)化生成的抓取。
基于多模態(tài)的抓取通常是指通過不同的指尖力傳感器在正式抓取前通過“預(yù)抓取”判斷抓取的穩(wěn)定性,從而決定是繼續(xù)抓取還是調(diào)整一個新的抓取姿態(tài)。清華大學(xué)孫富春教授團隊提出使用視覺來生成抓取,并用指尖的觸覺判斷抓取的穩(wěn)定性[6]。為此,他們采集了一個視覺、觸覺抓取數(shù)據(jù)集,并分別用兩個網(wǎng)絡(luò)對抓取進行生成和穩(wěn)定性判斷。該團隊又與Intel中國研究院合作,建立了一個視覺、觸覺、力等多模態(tài)的機器人抓取數(shù)據(jù)集,通過視觸融合實現(xiàn)抓取穩(wěn)定判斷[7]。清華大學(xué)孫富春教授團隊也是利用多模態(tài)信息實現(xiàn)的機器人智能抓取,而贏得了“IROS2019機器人靈巧抓取操作比賽”物流分揀項目的冠軍。
加州大學(xué)伯克利分校提出了利用一個基于視覺的觸覺傳感器—GelSight來進行多模態(tài)抓取任務(wù)[8]。得益于他們使用的基于視覺的觸覺傳感器,可以天然的使用廣泛應(yīng)用的視覺處理神經(jīng)網(wǎng)絡(luò)(CNN),通過與抓取,機器人判斷抓取的好壞并生成下一步的動作。這樣這個機器人系統(tǒng)可以自主的根據(jù)觸覺反饋調(diào)整抓取策略而不需要人工干預(yù)。
二指抓取的好處是對抓取的表達比較簡單,但是抓取通常并不是機器人操作的最終目的,人們往往希望通過手內(nèi)改變被抓物體的姿態(tài)和位置完成一些操作任務(wù)。如使用工具。 美國馬里蘭大學(xué)的研究者提出了一個端到端的多指抓取生成網(wǎng)絡(luò)[9]。 這個網(wǎng)絡(luò)使用點云作為輸入,使用3DCNN網(wǎng)絡(luò)直接生成Shadow多指手的抓取規(guī)劃。
美國麻省理工學(xué)院的學(xué)者針對多指抓取生成過程中網(wǎng)絡(luò)不能適應(yīng)不同的多指手的問題提出了解決方案[10]。他們提了一個統(tǒng)一的多指抓取模型以適應(yīng)不同的機械手。首先,他們把爪子和被抓物體的特征映射到一個低維空間。然后用一個點云選擇網(wǎng)絡(luò)去生成接觸點,通過接觸點繼而生成一個無障礙的抓取。
上面的工作都是與任務(wù)無關(guān)的無序抓取,但是在機器人操作上抓取通常是有目的的。如轉(zhuǎn)移物體,遞給其他機器人/人,使用抓取的物體。在這一領(lǐng)域最新的工作是西安交通大學(xué)的機器人課題組[11]。他們在一個有重疊的場景下完成了基于任務(wù)的抓取。首先,他們建立了一個合成的堆疊物體的數(shù)據(jù)集,并使用條件隨機場(CRF)建立了物體的語義模型。這個模型可以的推導(dǎo)過程用RNN來表示,這樣整個基于任務(wù)的模型可以端到端進行訓(xùn)練。
機器人的智能抓取已經(jīng)成為研究熱點,也逐漸在物流快件、工件、食品等分揀行業(yè)中凸顯了重要性。未來如何實現(xiàn)機器人認知的智能抓取操作將會成為重點研究問題。
? ? ?