拐點(diǎn)已至,英偉達(dá)助力機(jī)器人從探索期邁入快速發(fā)展期
高質(zhì)量數(shù)據(jù)的生成、仿真到現(xiàn)實(shí)的遷移(Sim2Real),是人形機(jī)器人發(fā)展的瓶頸所在。特斯拉設(shè)置了高時(shí)薪的機(jī)器人數(shù)據(jù)搜集職位,采用黑白兩班倒的方式,只為了能夠快速幫助Optimus機(jī)器人實(shí)現(xiàn)高質(zhì)量數(shù)據(jù)收集。而來自谷歌和特斯拉的數(shù)據(jù)顯示,采集到13萬條機(jī)器人的數(shù)據(jù),花費(fèi)了整整17個(gè)月、16名工程師和13臺(tái)機(jī)器人。即便如此,獲取的數(shù)據(jù)量依然有限,而每一項(xiàng)數(shù)據(jù)采集的成本和時(shí)間投入都異常龐大。特斯拉的設(shè)備,包括內(nèi)部系統(tǒng)和整個(gè)數(shù)據(jù)采集流程,成本高達(dá)百萬。這一現(xiàn)狀表明,單純依賴真實(shí)世界的數(shù)據(jù)驅(qū)動(dòng)來推動(dòng)人形機(jī)器人的發(fā)展,短期內(nèi)難以實(shí)現(xiàn)具身智能的突破。因此,如何突破這一瓶頸,成為了行業(yè)亟待解決的問題。
而英偉達(dá)推出的“三計(jì)算機(jī)”解決方案,成功為具身智能提供了高效的開發(fā)環(huán)境,加速了這一技術(shù)的落地。像英偉達(dá)的Omniverse平臺(tái)使得開發(fā)者能夠更便捷地進(jìn)行模擬和調(diào)試,推動(dòng)了從理論到實(shí)踐的轉(zhuǎn)變。這一進(jìn)展,無疑是具身智能迎來拐點(diǎn)的標(biāo)志。
“這一進(jìn)展令人無比激動(dòng)。一年前,這一方向是否能成功還并不明朗。雖然之前已經(jīng)有不少努力,但過去6到12個(gè)月的突破性發(fā)展改變了一切?!盢VIDIA 機(jī)器人與邊緣計(jì)算副總裁 Deepu Talla在近日CES結(jié)束后,馬不停蹄來到了北京,和記者進(jìn)行了機(jī)器人主題方面的深入分享,介紹了英偉達(dá)在物理AI方面的重大進(jìn)展。
機(jī)器人領(lǐng)域的“突破性”進(jìn)展
機(jī)器人技術(shù)的應(yīng)用場景正在變得越來越廣泛,社會(huì)和經(jīng)濟(jì)因素使得這一技術(shù)的需求變得愈加迫切。Deepu將其總結(jié)為三個(gè)方面:首先,危險(xiǎn)的工作:比如礦工或在危險(xiǎn)環(huán)境中工作的人員,機(jī)器人可以替代人類承擔(dān)這些危險(xiǎn)任務(wù)。其次,勞動(dòng)力短缺:隨著社會(huì)的不斷變化,勞動(dòng)力短缺問題愈發(fā)嚴(yán)重,機(jī)器人可以填補(bǔ)這一空缺。最后,養(yǎng)老需求:隨著人類壽命的延長,越來越多的老年人需要護(hù)理和陪伴,機(jī)器人能夠?yàn)樯鐣?huì)提供這樣的解決方案。
雖然這些推動(dòng)因素由來已久,但從2024年至今,我們可以看到對(duì)機(jī)器人技術(shù)的興趣和投資有了大幅增長。為什么是現(xiàn)在?這得益于兩方面的技術(shù)突破性進(jìn)展。
1-生成式AI打破了數(shù)字應(yīng)用和物理應(yīng)用的界限
大約兩年前,大型語言模型(LLMs)徹底改變了數(shù)字應(yīng)用領(lǐng)域,為自然語言處理、文本生成等技術(shù)帶來了巨大的飛躍。如今,生成式AI的技術(shù)不僅在數(shù)字領(lǐng)域內(nèi)取得了突破,它們開始廣泛應(yīng)用于機(jī)器人技術(shù)領(lǐng)域,打破了數(shù)字應(yīng)用與物理應(yīng)用之間的隔閡。這一進(jìn)展使機(jī)器人不僅能夠在模擬環(huán)境中完成任務(wù),還能更有效地與真實(shí)世界進(jìn)行交互和適應(yīng)。生成式AI為機(jī)器人的自主決策和學(xué)習(xí)能力提供了更強(qiáng)大的支持,這為機(jī)器人進(jìn)入更復(fù)雜的應(yīng)用場景提供了可能。
2-機(jī)器人仿真環(huán)境的進(jìn)步提高了開發(fā)效率
制造機(jī)器人通常非常昂貴,尤其是在沒有大規(guī)模量產(chǎn)的情況下。高昂的硬件成本和物理世界中的真實(shí)測試限制了機(jī)器人技術(shù)的進(jìn)步。過去,機(jī)器人技術(shù)的開發(fā)大多依賴于實(shí)際物理環(huán)境中的測試,而這種方式不僅費(fèi)時(shí)且成本高昂,進(jìn)展往往很慢。與之相對(duì),仿真技術(shù)的進(jìn)步為機(jī)器人開發(fā)提供了新的方向。通過高效的虛擬仿真環(huán)境,開發(fā)者可以在模擬環(huán)境中反復(fù)測試和優(yōu)化機(jī)器人的行為,極大地降低了測試的時(shí)間和成本。尤其是像英偉達(dá)的Omniverse平臺(tái)等仿真環(huán)境的出現(xiàn),使得機(jī)器人開發(fā)的速度和精度得到了顯著提高。
Deepu表示,很多公司都已經(jīng)開始專注于推動(dòng)機(jī)器人領(lǐng)域的發(fā)展,他們都在研究與機(jī)器人相關(guān)的問題、以及通用型機(jī)器人“大腦”模型的開發(fā)。“接下來的5到10年里,我們將在機(jī)器人領(lǐng)域看到顯著的差異?!盌eepu說到,“這就是未來——一個(gè)能夠幫助解決危險(xiǎn)工作、勞動(dòng)力短缺以及企業(yè)運(yùn)營挑戰(zhàn)的未來?!?
“三計(jì)算機(jī)”解決方案,閉環(huán)機(jī)器人開發(fā)到部署
當(dāng)談到機(jī)器人技術(shù)時(shí),很多人可能僅僅關(guān)注于具備物理形態(tài)的機(jī)器人本體。但其實(shí)僅僅靠機(jī)器人中的“計(jì)算機(jī)”是不夠的,我們還需要大量的訓(xùn)練和仿真,這背后同樣離不開關(guān)鍵硬件和軟件環(huán)境的支持。英偉達(dá)提出了其著名的“三計(jì)算機(jī)方案”,通過三計(jì)算機(jī)的整合來加速機(jī)器人的開發(fā)部署。
第一臺(tái)計(jì)算機(jī):用于訓(xùn)練這臺(tái)計(jì)算機(jī)負(fù)責(zé)訓(xùn)練機(jī)器人所需的人工智能模型。通常,訓(xùn)練過程在云端、數(shù)據(jù)中心,或者像NVIDIA DGX這樣的高性能計(jì)算平臺(tái)上進(jìn)行。訓(xùn)練是構(gòu)建機(jī)器人“大腦”的關(guān)鍵步驟,它為機(jī)器人賦予理解和決策的能力。
第二臺(tái)計(jì)算機(jī):用于仿真訓(xùn)練完成后,機(jī)器人需要經(jīng)歷嚴(yán)格的測試。傳統(tǒng)的測試方式依賴于物理環(huán)境,雖然可行,但這種方式通常費(fèi)時(shí)費(fèi)力且成本高昂。英偉達(dá)提出了通過引入“仿真層”來解決這一問題,即利用數(shù)字孿生技術(shù)在虛擬環(huán)境中進(jìn)行大規(guī)模的測試和優(yōu)化。通過Omniverse中的仿真環(huán)境,開發(fā)者可以在無需受到現(xiàn)實(shí)世界物理限制的情況下,快速測試和調(diào)整機(jī)器人的行為,從而大幅提高開發(fā)效率。
第三臺(tái)計(jì)算機(jī):用于部署最后,第三臺(tái)計(jì)算機(jī)就是機(jī)器人操作系統(tǒng)的核心,它直接安裝在機(jī)器人內(nèi)部,負(fù)責(zé)執(zhí)行機(jī)器人操作。英偉達(dá)的Jetson和AGX系統(tǒng)便是典型的代表,它們提供了一個(gè)強(qiáng)大的計(jì)算平臺(tái),將經(jīng)過訓(xùn)練和仿真優(yōu)化的模型應(yīng)用到實(shí)際的機(jī)器人操作中。
通過這三臺(tái)計(jì)算機(jī)的緊密合作,機(jī)器人開發(fā)的時(shí)間可以顯著縮短。在部署到實(shí)際環(huán)境之前,開發(fā)團(tuán)隊(duì)可以在仿真環(huán)境中進(jìn)行數(shù)千次的測試和優(yōu)化,確保機(jī)器人的性能和安全性。如果某個(gè)設(shè)計(jì)在實(shí)際操作中出現(xiàn)問題,開發(fā)者可以迅速回到仿真環(huán)境進(jìn)行調(diào)整,重新測試,從而加速整個(gè)開發(fā)過程。
英偉達(dá)雖然并不直接開發(fā)機(jī)器人,但構(gòu)建了這樣一個(gè)包含三種計(jì)算系統(tǒng)以及相關(guān)軟件工具和工作流程的平臺(tái),幫助機(jī)器人專家、研究人員、機(jī)械工程師和測試人員更輕松地開發(fā)機(jī)器人解決方案。
“這種方法也解釋了為什么機(jī)器人技術(shù)比自動(dòng)駕駛更難。對(duì)于自動(dòng)駕駛來說,主要是避免障礙并確保安全,而無需與物理物體交互。而在機(jī)器人領(lǐng)域,涉及到的是與物體的接觸、碰撞和復(fù)雜的物理交互,這些都更難測試和優(yōu)化?!盌eepu解釋到。
“這種數(shù)據(jù)采集比自動(dòng)駕駛數(shù)據(jù)采集要困難得多?!便y河智能通用創(chuàng)始人、CTO王鶴博士也分享到,“開車是剛需,將車售賣給用戶后,用戶會(huì)自愿為你駕駛。公司數(shù)據(jù)采集的成本可以是負(fù)數(shù)。但沒有任何一家人形機(jī)器人公司能為用戶付費(fèi)采集數(shù)據(jù),,且人形機(jī)器人數(shù)據(jù)采集難復(fù)制,只能冷啟動(dòng),這是行業(yè)瓶頸。人形機(jī)器人,若沒有功能,就沒有人會(huì)購買,哪怕買了,也沒有人愿意遙控采集數(shù)據(jù)。人形機(jī)器人只能冷啟動(dòng),這是全球人形機(jī)器人公司面臨的瓶頸問題?!?
高質(zhì)量合成數(shù)據(jù),縮小Sim2Real的差距
ChatGPT這樣的大語言模型所需的訓(xùn)練數(shù)據(jù),來自互聯(lián)網(wǎng)上的海量信息和使用者的實(shí)時(shí)交互。這些數(shù)據(jù)的獲取要容易得多,因此只要計(jì)算的Scaling Law跟得上,大模型就可以不斷進(jìn)化、躍升。而反觀物理AI,尤其是機(jī)器人領(lǐng)域,機(jī)器人需要的是執(zhí)行動(dòng)作,比如拾取物體、移動(dòng)、交互或完成任務(wù)等,這些高質(zhì)量數(shù)據(jù)的大規(guī)模獲取非常困難。
據(jù)Deepu介紹,與自動(dòng)駕駛汽車可以依賴現(xiàn)有車輛通過傳感器收集數(shù)據(jù)不同,目前機(jī)器人的數(shù)量還遠(yuǎn)遠(yuǎn)不足以產(chǎn)生可比的數(shù)據(jù)量。當(dāng)前的業(yè)界常用的方法包括使用VR設(shè)備(例如Apple Vision Pro)或動(dòng)作捕捉套裝來記錄人類動(dòng)作的示范。這些方法雖能提供有用的數(shù)據(jù),但規(guī)模太小,無法完全滿足機(jī)器人模型的訓(xùn)練需求。
為了解決這一問題,“合成數(shù)據(jù)生成”變得至關(guān)重要。通過合成數(shù)據(jù),機(jī)器人開發(fā)者便可以生成特定動(dòng)作(例如抓取物體)的無數(shù)種變化,或者構(gòu)建完整的虛擬環(huán)境。NVIDIA Cosmos是一個(gè)創(chuàng)新的“世界基礎(chǔ)模型”,旨在為機(jī)器人訓(xùn)練提供虛擬環(huán)境。與傳統(tǒng)的地球或自然環(huán)境不同,這里的“世界”指的是機(jī)器人操作的具體交互空間,比如一個(gè)房間內(nèi)的可見區(qū)域。通過生成高度逼真、類似視頻游戲的虛擬環(huán)境,NVIDIA Cosmos為機(jī)器人提供了一個(gè)可供模擬和優(yōu)化行為的廣闊平臺(tái)。這個(gè)平臺(tái)讓開發(fā)者能夠在虛擬環(huán)境中反復(fù)測試機(jī)器人,幫助提高訓(xùn)練效率并降低成本,同時(shí)避免了現(xiàn)實(shí)世界中可能遇到的時(shí)間和空間限制。
通過將有限的現(xiàn)實(shí)世界數(shù)據(jù)與NVIDIA Cosmos生成的大規(guī)模合成數(shù)據(jù)相結(jié)合,機(jī)器人技術(shù)中數(shù)據(jù)稀缺的難題得到了有效解決。這種創(chuàng)新的工作流已經(jīng)開始實(shí)施。這一方法不僅能夠解決當(dāng)前機(jī)器人領(lǐng)域面臨的基礎(chǔ)數(shù)據(jù)問題,還為機(jī)器人的訓(xùn)練和優(yōu)化提供了更加高效和可持續(xù)的路徑。
“沒有足夠的數(shù)據(jù),機(jī)器人模型無法進(jìn)行有效的訓(xùn)練、測試或部署。這使得數(shù)據(jù)的收集和生成成為解決機(jī)器人開發(fā)挑戰(zhàn)的關(guān)鍵第一步?!盌eepu分享到,“通過采用這種結(jié)合現(xiàn)實(shí)與合成數(shù)據(jù)的創(chuàng)新工作流,我們正為機(jī)器人領(lǐng)域的重大進(jìn)步鋪平道路。”
作為世界基礎(chǔ)模型,Cosmos提供了更高質(zhì)量的合成數(shù)據(jù);GR00T平臺(tái)進(jìn)而得以將這些數(shù)據(jù)集成并支持測試,Isaac Sim則為機(jī)器人提供了可以進(jìn)行任務(wù)模擬、策略測試和訓(xùn)練的仿真平臺(tái),而Omniverse通過數(shù)字孿生技術(shù),創(chuàng)建出了高度逼真的虛擬世界,模擬現(xiàn)實(shí)世界中的物理交互和環(huán)境變化。所有的這些工具通過緊密配合,正在加速推動(dòng)機(jī)器人技術(shù)從訓(xùn)練到實(shí)際應(yīng)用的進(jìn)展。
具身智能,迎來了自己的通用基礎(chǔ)大模型
有了Omniverse和Cosmos提供的強(qiáng)大虛擬環(huán)境和數(shù)據(jù)生成技術(shù),高質(zhì)量的合成數(shù)據(jù)的規(guī)模化產(chǎn)生不再困難。依托Isaac這樣的仿真測試平臺(tái),通用具身大模型的發(fā)展也進(jìn)一步開始提速,開始追求屬于自己的scaling law曲線。
銀河通用在2003年便開始敏銳捕捉到了這一機(jī)遇,開始了與英偉達(dá)的密切合作,積極探索使用仿真器合成大量的機(jī)器人操作數(shù)據(jù),并將其轉(zhuǎn)化為機(jī)器人的模型。目前,銀河通用已經(jīng)發(fā)布了其端到端具身抓取基礎(chǔ)大模型 GraspVLA。
據(jù)王鶴博士介紹,在此過程中,仿真器和渲染引擎發(fā)揮關(guān)鍵作用,開發(fā)團(tuán)隊(duì)需要檢查合成的場景在物理層面是否正確。如果場景正確,就可以使用并行渲染器將數(shù)據(jù)渲染出來,并將機(jī)器人訓(xùn)練的數(shù)據(jù)存儲(chǔ)下來,最終得到以10億計(jì)的海量合成數(shù)據(jù)。
基于著10億的合成數(shù)據(jù),銀河通用完成了全球首個(gè)、也是全球最大的機(jī)器人基礎(chǔ)模型—— GraspVLA。該模型具有顯著的特性,滿足七大泛化“金標(biāo)準(zhǔn)”:光照泛化、背景泛化、平面位置泛化、空間高度泛化、動(dòng)作策略泛化、動(dòng)態(tài)干擾泛化和物體類別泛化。該模型能夠根據(jù)輸入的語言指令,直接針對(duì)特定任務(wù)進(jìn)行操作,例如抓取物品。不論是環(huán)境中的光照、紋理、物體位置如何變化,機(jī)械臂都能夠準(zhǔn)確地完成指定物品的抓取。
在面對(duì)特殊的新需求時(shí),這個(gè)基礎(chǔ)大模型展現(xiàn)出強(qiáng)大的泛化能力。盡管GraspVLA具備泛化的抓取能力,但在處理大量項(xiàng)目時(shí),如一箱水,模型會(huì)隨便抓取其中一個(gè)物體。如果采集少量數(shù)據(jù),例如200條數(shù)據(jù),模型就能學(xué)會(huì)如何抓取特定物體。例如,針對(duì)東方樹葉包裝采集200條數(shù)據(jù)后,模型能適用于其他品牌的類似任務(wù)。即便對(duì)于特殊零件的抓取任務(wù),只需采集100條數(shù)據(jù)并掌握零件名稱,模型也能實(shí)現(xiàn)抓取。
在家庭場景中,針對(duì)機(jī)器人對(duì)物體的特定抓取行為偏好,例如抓取杯子時(shí)不碰到杯壁,機(jī)器人通過少量數(shù)據(jù)訓(xùn)練,也能夠適應(yīng)這些特定需求。
這種偏好設(shè)定對(duì)機(jī)器人的應(yīng)用至關(guān)重要。王鶴博士表示,如果現(xiàn)有的大模型應(yīng)用仍需大量數(shù)據(jù)(幾千條甚至幾萬條)才能理解用戶的偏好并融入其中,機(jī)器人應(yīng)用將面臨困難?;?0億規(guī)模合成大數(shù)據(jù)訓(xùn)練的 GraspVLA模型,僅需100條偏好數(shù)據(jù)的學(xué)習(xí),就能迅速滿足企業(yè)的需求,減少數(shù)據(jù)采集時(shí)間和成本。基礎(chǔ)大模型能夠快速理解產(chǎn)品的應(yīng)用需求,并在同類物體上進(jìn)行泛化。例如,在零售店,模型通過100條數(shù)據(jù)即可理解如何操作不同類型的物體,極大地壓縮了數(shù)據(jù)采集和部署時(shí)間。
以靈巧抓取為例,借助10億級(jí)別的零售數(shù)據(jù),機(jī)器人在抓取任務(wù)中展現(xiàn)出了超過90%的成功率,這一成果得益于高效的數(shù)據(jù)處理和精準(zhǔn)的任務(wù)執(zhí)行。值得注意的是,英偉達(dá)的Isaac平臺(tái)在這一進(jìn)展中發(fā)揮了至關(guān)重要的作用。銀河通用將GraspVLA模型與宇樹的四足機(jī)器人相結(jié)合,在本地的Isaac中進(jìn)行了大規(guī)模的全身控制學(xué)習(xí),從而讓機(jī)器人實(shí)現(xiàn)了自主運(yùn)行,能夠完成各種自主任務(wù),例如針對(duì)垃圾的精準(zhǔn)識(shí)別并撿起。得益于英偉達(dá)強(qiáng)大的仿真平臺(tái)和數(shù)據(jù)處理能力,機(jī)器人能夠做到完全不依賴真實(shí)數(shù)據(jù)就實(shí)現(xiàn)自主任務(wù)訓(xùn)練,特別是在靈活調(diào)整不同材質(zhì)、形狀、地形、高度和顏色的任務(wù)方面,機(jī)器人能夠在不同場景中進(jìn)行高效的泛化應(yīng)用。
具身智能應(yīng)用提速,真正人形機(jī)器人迎來爆發(fā)
據(jù)悉,GraspVLA只是銀河通用的第一步,它展現(xiàn)了通過合成大數(shù)據(jù)訓(xùn)練出的抓取能力。而銀河通用將快速基于在抓取合成數(shù)據(jù)生成、訓(xùn)練和仿真部署方面的經(jīng)驗(yàn),把應(yīng)用從抓取擴(kuò)展到放置、開柜子、開抽屜,以及處理柔性物體如疊衣服、掛衣服等等等技能。通過多技能、更大規(guī)模的數(shù)據(jù)合成,銀河通用有望實(shí)現(xiàn)更豐富的技能覆蓋,比如移動(dòng)操作和雙臂操作等。王鶴展望,將在 2025 年上半年向業(yè)界展示真正的人形機(jī)器人相關(guān)成果。
英偉達(dá)的Cosmos世界基礎(chǔ)模型真正解決了高質(zhì)量合成數(shù)據(jù)的難題,而Isaac GR00T和Mega這兩個(gè)在CES上最新發(fā)布的Blueprint,也進(jìn)一步縮小了機(jī)器人Sim2Real的差距。當(dāng)高質(zhì)量的數(shù)據(jù)、真實(shí)的仿真環(huán)境這些痛點(diǎn)都得以突破之后,一個(gè)真正的人形機(jī)器人通用基礎(chǔ)大模型正在醞釀成型。而英偉達(dá)也將如其在LLM中發(fā)揮的價(jià)值一般,繼續(xù)在具身智能的物理AI時(shí)代,扮演著重要的基礎(chǔ)設(shè)施支持者的角色,賦能具身智能高速發(fā)展。