Arm CEO對(duì)話黃仁勛:暢談 AI 技術(shù)未來(lái)圖景,探索“人類(lèi)終極邊疆”
提到AI,就會(huì)想到英偉達(dá)。而同樣的,不可忽視的端側(cè)AI的計(jì)算提供者還有Arm。這兩家計(jì)算公司在計(jì)算能力上的互取彼長(zhǎng),才能夠成就今時(shí)今日和未來(lái)的全面AI場(chǎng)景。在當(dāng)下AI加速成熟和規(guī)?;瘧?yīng)用的階段——或是像Rene Haas形容的在“人類(lèi)探索的終極邊疆”,兩位賣(mài)鏟人又是如何看待AI的發(fā)展?在由Arm主辦的《Tech Unheard》首期播客中,NVIDIA創(chuàng)始人、總裁兼首席執(zhí)行官黃仁勛(Jensen Huang)與Arm首席執(zhí)行官Rene Haas展開(kāi)對(duì)話。
在兩位長(zhǎng)期合作的同事和朋友之間的對(duì)話中,他們深入探討了Jensen作為科技巨頭的創(chuàng)始人背后的歷程、AI的未來(lái),以及NVIDIA如何以持續(xù)創(chuàng)新推動(dòng)技術(shù)突破極限。
從GPU、到SoC、再到系統(tǒng)全棧的技術(shù)進(jìn)階
在對(duì)談中,黃仁勛分享了Arm與NVIDIA的合作如何幫助NVIDIA從芯片制造擴(kuò)展到完整的系統(tǒng)設(shè)計(jì)。Jensen提到:“事實(shí)上,Arm 幫助我們轉(zhuǎn)型為一家構(gòu)建 SoC 的公司,這一點(diǎn)非常重要?!?
什么是 SoC?SoC 大體上相當(dāng)于一整臺(tái)計(jì)算機(jī),而獨(dú)立 GPU 是計(jì)算機(jī)中最后啟動(dòng)的一個(gè)部件。先是 CPU 啟動(dòng),繼而是引導(dǎo) ROM 啟動(dòng),接著是操作系統(tǒng)啟動(dòng),最終才是 GPU 啟動(dòng)。對(duì)于 SoC 來(lái)說(shuō),必須親自完成整體啟動(dòng)過(guò)程。這也使得英偉達(dá)從一家算法公司(實(shí)際上就是一家 GPU 公司)轉(zhuǎn)型為一家全面的計(jì)算公司。
一開(kāi)始構(gòu)建SoC對(duì)于英偉達(dá)而言并不容易,這標(biāo)志著英偉達(dá)從一家算法公司(實(shí)際上就是一家 GPU 公司)轉(zhuǎn)型為一家全面的計(jì)算公司。但一旦完成之后。Jensen的發(fā)展目標(biāo)便快速推進(jìn)到了下一步——構(gòu)建完整的計(jì)算系統(tǒng)。
Jensen特別提到,他仍然非常喜歡SHIELD,它實(shí)際上是其創(chuàng)建的第一個(gè)英偉達(dá)完整系統(tǒng)。SHIELD系列是NVIDIA 2013年最初發(fā)布為游戲主機(jī),后來(lái)演變?yōu)橐环N高性能Android TV設(shè)備。它是NVIDIA 進(jìn)入消費(fèi)電子市場(chǎng)并嘗試從芯片制造擴(kuò)展到系統(tǒng)級(jí)產(chǎn)品的重要一步。而彼時(shí)在Rene Haas回憶起來(lái),也恰恰正是Arm稱(chēng)得上是剛起步的時(shí)刻。
在今天看來(lái),SHIELD代表了 NVIDIA 在消費(fèi)市場(chǎng)上對(duì)游戲和多媒體娛樂(lè)的嘗試,而另一個(gè)重要的系統(tǒng)——DGX-1 則是其進(jìn)入 AI 和數(shù)據(jù)中心計(jì)算領(lǐng)域的戰(zhàn)略步驟。
“SHIELD 是塑料材質(zhì),而 DGX1 重 600 磅,這種轉(zhuǎn)變并不是什么大問(wèn)題。重要的是,我們現(xiàn)在能夠構(gòu)建系統(tǒng)?!盝esnsen強(qiáng)調(diào)到。
2016年,NVIDIA發(fā)布了DGX-1,這是一款專(zhuān)為深度學(xué)習(xí)和高性能計(jì)算設(shè)計(jì)的 AI 超級(jí)計(jì)算機(jī)。DGX-1 是 NVIDIA 第一個(gè)推出的完整計(jì)算系統(tǒng)之一,它不僅包括 GPU 硬件,還配有經(jīng)過(guò)優(yōu)化的軟件棧,專(zhuān)為深度學(xué)習(xí)而設(shè)計(jì)。它集成了 GPU 驅(qū)動(dòng)程序、深度學(xué)習(xí)框架(如 TensorFlow、PyTorch等)和優(yōu)化工具,用戶(hù)可以開(kāi)箱即用,快速開(kāi)始 AI 項(xiàng)目的開(kāi)發(fā)和訓(xùn)練。DGX-1是 NVIDIA 在向系統(tǒng)設(shè)計(jì)擴(kuò)展過(guò)程中取得的重要成果之一。與SHIELD 類(lèi)似,DGX-1 也體現(xiàn)了 NVIDIA 從芯片設(shè)計(jì)擴(kuò)展到整體系統(tǒng)的能力,只不過(guò) DGX-1 面向的更多是企業(yè)級(jí)和數(shù)據(jù)中心級(jí)的 AI 應(yīng)用場(chǎng)景。
而為了使這個(gè)“構(gòu)建完整計(jì)算系統(tǒng)”的愿景進(jìn)一步擴(kuò)大,英偉達(dá)隨后實(shí)現(xiàn)了對(duì)于Mellanox的收購(gòu)。而這次收購(gòu)為英偉達(dá)帶來(lái)了重要的網(wǎng)絡(luò)和互連技術(shù),使得英偉達(dá)真正具備了構(gòu)建完整計(jì)算系統(tǒng)的能力。
“我們的想法是計(jì)算機(jī)不再是那個(gè)節(jié)點(diǎn),而是成為整個(gè)數(shù)據(jù)中心,而數(shù)據(jù)中心將成為計(jì)算單元。如果你沒(méi)有設(shè)計(jì)過(guò) GPU、CPU、NIC、交換機(jī)、各種收發(fā)器,然后將所有這些東西連接在一起,從零開(kāi)始啟動(dòng)系統(tǒng),讓一切正常運(yùn)行并在其中分配工作負(fù)載,那么你就不會(huì)真正理解構(gòu)建這些 AI 超級(jí)集群意味著什么?!盝ensen回顧到?!斑@種轉(zhuǎn)變、這種愿景是如此清晰,能夠激勵(lì)我們的兩個(gè)團(tuán)隊(duì)奮勇向前。為了激勵(lì)團(tuán)隊(duì),必須有一個(gè)非常清晰的愿景?!?
而一切的積累,成就了今日NVIDIA不再只是GPU的提供者,而是整體解決方案的創(chuàng)新者。通過(guò)構(gòu)建系統(tǒng),他們致力于從單一組件到整個(gè)系統(tǒng)的突破,這種進(jìn)步使NVIDIA成為了涵蓋從芯片到系統(tǒng)解決方案的完整科技公司。
從“被動(dòng)工具”到“AI工廠”,推動(dòng)AI計(jì)算降本增效提速
傳統(tǒng)計(jì)算機(jī)一直被認(rèn)為是一種工具,人們需要的時(shí)候就使用它,就像一個(gè)裝在口袋里的手機(jī),只有使用時(shí)才有作用。而計(jì)算機(jī)之前是這樣的“被動(dòng)工具”。但是隨著 AI 的出現(xiàn),計(jì)算機(jī)開(kāi)始轉(zhuǎn)變,不再只是需要人類(lèi)輸入和激活才會(huì)發(fā)揮作用的工具,而是開(kāi)始主動(dòng)工作,類(lèi)似于一個(gè)“工廠”,可以不斷地產(chǎn)生有價(jià)值的輸出,比如詞元(tokens)、智能洞察和數(shù)據(jù)分析結(jié)果。
Jensen提到了一個(gè)“AI工廠”的概念,即AI系統(tǒng)就像一臺(tái)始終保持運(yùn)轉(zhuǎn)的制造設(shè)備,無(wú)論是否有具體的任務(wù),AI 都會(huì)不停地進(jìn)行數(shù)據(jù)處理、學(xué)習(xí)和生成新的信息。這種持續(xù)的運(yùn)轉(zhuǎn)使得 AI 的生產(chǎn)方式與傳統(tǒng)計(jì)算機(jī)截然不同,因?yàn)樗辉偈且蕾?lài)人類(lèi)手動(dòng)操作才起作用,而是可以主動(dòng)進(jìn)行運(yùn)算,持續(xù)不斷地創(chuàng)造有價(jià)值的智能結(jié)果。
黃仁勛強(qiáng)調(diào),AI 的這種轉(zhuǎn)變引發(fā)了類(lèi)似工業(yè)革命的變化。過(guò)去的工業(yè)革命使機(jī)器大規(guī)模生產(chǎn)物理產(chǎn)品,而現(xiàn)在,AI 系統(tǒng)作為智能工廠,可以大規(guī)模地生產(chǎn)“智能”——這是一種完全不同的產(chǎn)業(yè)形態(tài)。這種變化帶來(lái)了一個(gè)全新的時(shí)代,在這個(gè)時(shí)代中,計(jì)算機(jī)和 AI 不再是單純的工具,而是生產(chǎn)智能的主動(dòng)力量,從根本上改變了它們?cè)谏鐣?huì)中的角色。
而NVIDIA 正在努力加快 AI 和芯片技術(shù)的發(fā)展,每年進(jìn)行一次技術(shù)更新。通過(guò)這種快速的迭代,他們實(shí)現(xiàn)了每年顯著的性能提升,使得技術(shù)進(jìn)步速度遠(yuǎn)超出傳統(tǒng)的摩爾定律(摩爾定律指的是芯片性能每?jī)赡曜笥曳叮?
為了實(shí)現(xiàn)每代產(chǎn)品的顯著性能提升,NVIDIA 的策略是為每個(gè)系統(tǒng)設(shè)計(jì)多種新型芯片,并利用“協(xié)同設(shè)計(jì)”的方法,從系統(tǒng)架構(gòu)到組件(例如NVLink交換機(jī)和新的系統(tǒng)機(jī)架)都進(jìn)行整體優(yōu)化。這種方法使得不同的芯片和硬件組件可以高效協(xié)作,比如通過(guò)布設(shè)銅纜將所有 GPU 連接起來(lái)形成大型封裝,這樣的 3D 封裝可以提高系統(tǒng)的整體性能。
通過(guò)這些創(chuàng)新,NVIDIA 實(shí)現(xiàn)了每年性能提升 2-3 倍,而能耗和成本卻保持不變。這意味著 AI 技術(shù)的成本每年都在降低,尤其是在相同的能耗和硬件成本下實(shí)現(xiàn)更高的計(jì)算能力。這樣的效率提升對(duì)于 AI 的廣泛應(yīng)用是至關(guān)重要的。
黃仁勛提到 ChatGPT 作為當(dāng)前 AI 應(yīng)用的一個(gè)例子,指出目前它在響應(yīng)請(qǐng)求時(shí)只進(jìn)行一次推理,但未來(lái)希望能夠讓 AI 進(jìn)行多輪推理。這意味著 AI 可以對(duì)每個(gè)問(wèn)題反復(fù)思考,通過(guò)樹(shù)形搜索和迭代改進(jìn)其回答,使得最終輸出的質(zhì)量顯著提高。而為了實(shí)現(xiàn)這種新型的“迭代推理”,NVIDIA 的目標(biāo)是繼續(xù)降低 AI 的運(yùn)行成本,使得 AI 能在同等成本下實(shí)現(xiàn)更復(fù)雜的推理能力,提升 AI 的智能水平和反應(yīng)質(zhì)量。
AI保持快速迭代的架構(gòu)基礎(chǔ):從兼容性到規(guī)模擴(kuò)展
AI未來(lái)的發(fā)展速度是否可以繼續(xù)保持目前的水平?Jensen的答案是肯定的,但這需要一個(gè)系統(tǒng)化的方法,也就是各個(gè)技術(shù)的開(kāi)發(fā)必須遵循統(tǒng)一的架構(gòu)。
關(guān)于未來(lái)的技術(shù)架構(gòu),黃仁勛強(qiáng)調(diào)了架構(gòu)兼容性的重要性。他認(rèn)為,“行業(yè)對(duì)軟件的投資遠(yuǎn)高于硬件,因此,開(kāi)發(fā)或發(fā)布的軟件必須進(jìn)行長(zhǎng)期維護(hù)?!?CUDA作為NVIDIA的核心理念,體現(xiàn)了這種對(duì)兼容性和長(zhǎng)期投入的堅(jiān)持。
例如,在開(kāi)發(fā)時(shí)為一個(gè)集群(如 Hoppers)創(chuàng)建的軟件應(yīng)該可以無(wú)縫運(yùn)行在其他架構(gòu)(如 Blackwell 或 Rubin)上。這種兼容性對(duì)于 AI 技術(shù)的快速發(fā)展至關(guān)重要。
他指出,行業(yè)對(duì)軟件的投資比硬件高很多,因此,軟件需要長(zhǎng)期維護(hù),保證不同架構(gòu)的兼容性非常重要,這樣可以讓投入到一個(gè) GPU 上的軟件在其他 GPU 上也能使用,避免重復(fù)投入和浪費(fèi)。
在談及數(shù)據(jù)中心的擴(kuò)展時(shí),黃仁勛提到,從500兆瓦到5000兆瓦的升級(jí)對(duì)技術(shù)架構(gòu)提出了全新挑戰(zhàn)。為了應(yīng)對(duì)這些挑戰(zhàn),NVIDIA通過(guò)增加功率密度、采用液冷技術(shù)以及密集化設(shè)計(jì),將多個(gè)GPU協(xié)作處理數(shù)據(jù),從而實(shí)現(xiàn)數(shù)據(jù)中心的高效運(yùn)行。
數(shù)據(jù)中心的功率密度在快速增加,這個(gè)趨勢(shì)幾乎是指數(shù)級(jí)的增長(zhǎng)。從12千瓦到40千瓦,再到 120 千瓦、200 千瓦的變化,未來(lái)還會(huì)繼續(xù)提升。這種增長(zhǎng)代表了每個(gè)數(shù)據(jù)中心機(jī)架的功率使用密度越來(lái)越大,以便在有限的物理空間內(nèi)實(shí)現(xiàn)更高的計(jì)算能力。由于功率密度的增加,NVIDIA 正在盡可能地對(duì)計(jì)算進(jìn)行“壓縮和密集化”。這意味著他們?cè)谟邢薜目臻g內(nèi)放置更多的計(jì)算能力,這樣做可以提高整體效率。
黃仁勛提到,通過(guò)對(duì)數(shù)據(jù)中心進(jìn)行密集化設(shè)計(jì),NVIDIA 可以讓特定機(jī)架或相鄰機(jī)架中的所有 GPU 聯(lián)合起來(lái),充當(dāng)一個(gè)巨大的 GPU。這意味著,多個(gè) GPU 可以協(xié)同工作,就像一個(gè)超大規(guī)模的計(jì)算單元一樣。這種設(shè)計(jì)大大增強(qiáng)了數(shù)據(jù)中心的整體計(jì)算能力,也進(jìn)一步提高了密集化的好處。
而黃仁勛提到的數(shù)據(jù)中心功率密度的提升和計(jì)算壓縮,正好是 Arm 能幫助改進(jìn)的領(lǐng)域。Arm 的處理器架構(gòu)通過(guò)高能效,可以降低整體功耗,幫助數(shù)據(jù)中心應(yīng)對(duì)功率密度增加帶來(lái)的冷卻和能效挑戰(zhàn)。
Arm 的 CPU 設(shè)計(jì)對(duì)于任務(wù)的低能耗和效率有很大幫助,結(jié)合 NVIDIA 的 GPU 可以在數(shù)據(jù)中心實(shí)現(xiàn)更高效的任務(wù)分配和更密集的計(jì)算能力。因此,Arm 和 NVIDIA 的協(xié)同可以在數(shù)據(jù)中心的能效優(yōu)化和密集化設(shè)計(jì)上帶來(lái)顯著的優(yōu)勢(shì)。
黃仁勛特別表示:“我們非常關(guān)注在每一塊 Arm 芯片上投入的努力。前幾天我們剛剛進(jìn)行了展示。有人做了一些基準(zhǔn)測(cè)試,結(jié)果顯示,NVIDIA Grace 的每瓦性能是全球最佳 CPU 的四倍。高能效比至關(guān)重要。它是重中之重。”
結(jié)語(yǔ)
作為英偉達(dá)創(chuàng)始人,黃仁勛已經(jīng)領(lǐng)導(dǎo)公司30年且取得了巨大的成功。Rene Hass對(duì)其贊嘆不已:“盡管完全不清楚最終的殺手級(jí)應(yīng)用或最終狀態(tài)是什么,但你卻有著令人難以置信的韌性去嘗試各種想法并進(jìn)行測(cè)試,哪怕市場(chǎng)似乎并未準(zhǔn)備就緒,或尚未對(duì)其進(jìn)行定義?!?
Jensen笑談到:“成功之路并不是一個(gè)成就接著一個(gè)成就。事實(shí)并非如此。作為一名首席執(zhí)行官,你會(huì)遇到巨大的挫折,有時(shí)會(huì)有令人尷尬的時(shí)刻,你可能還沒(méi)有完全經(jīng)歷過(guò)這些。但是我希望它會(huì)到來(lái),因?yàn)檫@是對(duì)你有益的。在所有這些時(shí)刻中,我不確定自己具體學(xué)到了什么,但它讓我變得更強(qiáng)大,我知道我能挺過(guò)去。我當(dāng)時(shí)并不喜歡這些。但當(dāng)我回想起這一切時(shí),那些時(shí)刻讓人成長(zhǎng)?!?
左一:Rene Hass,中間:黃仁勛