Arm CEO對話黃仁勛：暢談 AI 技術未來圖景，探索“人類終極邊疆”

時間：2024-10-31 16:45:25

關鍵字： ARM 黃仁勛 AI 英偉達 GPU NVIDIA

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]提到AI，就會想到英偉達。而同樣的，不可忽視的端側AI的計算提供者還有Arm。這兩家計算公司在計算能力上的互取彼長，才能夠成就今時今日和未來的全面AI場景。在當下AI加速成熟和規(guī)?；瘧玫碾A段——或是像Rene Haas形容的在“人類探索的終極邊疆”，兩位賣鏟人又是如何看待AI的發(fā)展？在由Arm主辦的《Tech Unheard》首期播客中，NVIDIA創(chuàng)始人、總裁兼首席執(zhí)行官黃仁勛（Jensen Huang）與Arm首席執(zhí)行官Rene Haas展開對話。

提到AI，就會想到英偉達。而同樣的，不可忽視的端側AI的計算提供者還有Arm。這兩家計算公司在計算能力上的互取彼長，才能夠成就今時今日和未來的全面AI場景。在當下AI加速成熟和規(guī)?；瘧玫碾A段——或是像Rene Haas形容的在“人類探索的終極邊疆”，兩位賣鏟人又是如何看待AI的發(fā)展？在由Arm主辦的《Tech Unheard》首期播客中，NVIDIA創(chuàng)始人、總裁兼首席執(zhí)行官黃仁勛（Jensen Huang）與Arm首席執(zhí)行官Rene Haas展開對話。

在兩位長期合作的同事和朋友之間的對話中，他們深入探討了Jensen作為科技巨頭的創(chuàng)始人背后的歷程、AI的未來，以及NVIDIA如何以持續(xù)創(chuàng)新推動技術突破極限。

從GPU、到SoC、再到系統(tǒng)全棧的技術進階

在對談中，黃仁勛分享了Arm與NVIDIA的合作如何幫助NVIDIA從芯片制造擴展到完整的系統(tǒng)設計。Jensen提到：“事實上，Arm 幫助我們轉型為一家構建 SoC 的公司，這一點非常重要?！?

什么是 SoC？SoC 大體上相當于一整臺計算機，而獨立 GPU 是計算機中最后啟動的一個部件。先是 CPU 啟動，繼而是引導 ROM 啟動，接著是操作系統(tǒng)啟動，最終才是 GPU 啟動。對于 SoC 來說，必須親自完成整體啟動過程。這也使得英偉達從一家算法公司（實際上就是一家 GPU 公司）轉型為一家全面的計算公司。

一開始構建SoC對于英偉達而言并不容易，這標志著英偉達從一家算法公司（實際上就是一家 GPU 公司）轉型為一家全面的計算公司。但一旦完成之后。Jensen的發(fā)展目標便快速推進到了下一步——構建完整的計算系統(tǒng)。

Jensen特別提到，他仍然非常喜歡SHIELD，它實際上是其創(chuàng)建的第一個英偉達完整系統(tǒng)。SHIELD系列是NVIDIA 2013年最初發(fā)布為游戲主機，后來演變?yōu)橐环N高性能Android TV設備。它是NVIDIA 進入消費電子市場并嘗試從芯片制造擴展到系統(tǒng)級產(chǎn)品的重要一步。而彼時在Rene Haas回憶起來，也恰恰正是Arm稱得上是剛起步的時刻。

在今天看來，SHIELD代表了 NVIDIA 在消費市場上對游戲和多媒體娛樂的嘗試，而另一個重要的系統(tǒng)——DGX-1 則是其進入 AI 和數(shù)據(jù)中心計算領域的戰(zhàn)略步驟。

“SHIELD 是塑料材質，而 DGX1 重 600 磅，這種轉變并不是什么大問題。重要的是，我們現(xiàn)在能夠構建系統(tǒng)?！盝esnsen強調到。

2016年，NVIDIA發(fā)布了DGX-1，這是一款專為深度學習和高性能計算設計的 AI 超級計算機。DGX-1 是 NVIDIA 第一個推出的完整計算系統(tǒng)之一，它不僅包括 GPU 硬件，還配有經(jīng)過優(yōu)化的軟件棧，專為深度學習而設計。它集成了 GPU 驅動程序、深度學習框架（如 TensorFlow、PyTorch等）和優(yōu)化工具，用戶可以開箱即用，快速開始 AI 項目的開發(fā)和訓練。DGX-1是 NVIDIA 在向系統(tǒng)設計擴展過程中取得的重要成果之一。與SHIELD 類似，DGX-1 也體現(xiàn)了 NVIDIA 從芯片設計擴展到整體系統(tǒng)的能力，只不過 DGX-1 面向的更多是企業(yè)級和數(shù)據(jù)中心級的 AI 應用場景。

而為了使這個“構建完整計算系統(tǒng)”的愿景進一步擴大，英偉達隨后實現(xiàn)了對于Mellanox的收購。而這次收購為英偉達帶來了重要的網(wǎng)絡和互連技術，使得英偉達真正具備了構建完整計算系統(tǒng)的能力。

“我們的想法是計算機不再是那個節(jié)點，而是成為整個數(shù)據(jù)中心，而數(shù)據(jù)中心將成為計算單元。如果你沒有設計過 GPU、CPU、NIC、交換機、各種收發(fā)器，然后將所有這些東西連接在一起，從零開始啟動系統(tǒng)，讓一切正常運行并在其中分配工作負載，那么你就不會真正理解構建這些 AI 超級集群意味著什么?！盝ensen回顧到?！斑@種轉變、這種愿景是如此清晰，能夠激勵我們的兩個團隊奮勇向前。為了激勵團隊，必須有一個非常清晰的愿景?！?

而一切的積累，成就了今日NVIDIA不再只是GPU的提供者，而是整體解決方案的創(chuàng)新者。通過構建系統(tǒng)，他們致力于從單一組件到整個系統(tǒng)的突破，這種進步使NVIDIA成為了涵蓋從芯片到系統(tǒng)解決方案的完整科技公司。

從“被動工具”到“AI工廠”，推動AI計算降本增效提速

傳統(tǒng)計算機一直被認為是一種工具，人們需要的時候就使用它，就像一個裝在口袋里的手機，只有使用時才有作用。而計算機之前是這樣的“被動工具”。但是隨著 AI 的出現(xiàn)，計算機開始轉變，不再只是需要人類輸入和激活才會發(fā)揮作用的工具，而是開始主動工作，類似于一個“工廠”，可以不斷地產(chǎn)生有價值的輸出，比如詞元（tokens）、智能洞察和數(shù)據(jù)分析結果。

Jensen提到了一個“AI工廠”的概念，即AI系統(tǒng)就像一臺始終保持運轉的制造設備，無論是否有具體的任務，AI 都會不停地進行數(shù)據(jù)處理、學習和生成新的信息。這種持續(xù)的運轉使得 AI 的生產(chǎn)方式與傳統(tǒng)計算機截然不同，因為它不再是依賴人類手動操作才起作用，而是可以主動進行運算，持續(xù)不斷地創(chuàng)造有價值的智能結果。

黃仁勛強調，AI 的這種轉變引發(fā)了類似工業(yè)革命的變化。過去的工業(yè)革命使機器大規(guī)模生產(chǎn)物理產(chǎn)品，而現(xiàn)在，AI 系統(tǒng)作為智能工廠，可以大規(guī)模地生產(chǎn)“智能”——這是一種完全不同的產(chǎn)業(yè)形態(tài)。這種變化帶來了一個全新的時代，在這個時代中，計算機和 AI 不再是單純的工具，而是生產(chǎn)智能的主動力量，從根本上改變了它們在社會中的角色。

而NVIDIA 正在努力加快 AI 和芯片技術的發(fā)展，每年進行一次技術更新。通過這種快速的迭代，他們實現(xiàn)了每年顯著的性能提升，使得技術進步速度遠超出傳統(tǒng)的摩爾定律（摩爾定律指的是芯片性能每兩年左右翻倍）。

為了實現(xiàn)每代產(chǎn)品的顯著性能提升，NVIDIA 的策略是為每個系統(tǒng)設計多種新型芯片，并利用“協(xié)同設計”的方法，從系統(tǒng)架構到組件（例如NVLink交換機和新的系統(tǒng)機架）都進行整體優(yōu)化。這種方法使得不同的芯片和硬件組件可以高效協(xié)作，比如通過布設銅纜將所有 GPU 連接起來形成大型封裝，這樣的 3D 封裝可以提高系統(tǒng)的整體性能。

通過這些創(chuàng)新，NVIDIA 實現(xiàn)了每年性能提升 2-3 倍，而能耗和成本卻保持不變。這意味著 AI 技術的成本每年都在降低，尤其是在相同的能耗和硬件成本下實現(xiàn)更高的計算能力。這樣的效率提升對于 AI 的廣泛應用是至關重要的。

黃仁勛提到 ChatGPT 作為當前 AI 應用的一個例子，指出目前它在響應請求時只進行一次推理，但未來希望能夠讓 AI 進行多輪推理。這意味著 AI 可以對每個問題反復思考，通過樹形搜索和迭代改進其回答，使得最終輸出的質量顯著提高。而為了實現(xiàn)這種新型的“迭代推理”，NVIDIA 的目標是繼續(xù)降低 AI 的運行成本，使得 AI 能在同等成本下實現(xiàn)更復雜的推理能力，提升 AI 的智能水平和反應質量。

AI保持快速迭代的架構基礎：從兼容性到規(guī)模擴展

AI未來的發(fā)展速度是否可以繼續(xù)保持目前的水平？Jensen的答案是肯定的，但這需要一個系統(tǒng)化的方法，也就是各個技術的開發(fā)必須遵循統(tǒng)一的架構。

關于未來的技術架構，黃仁勛強調了架構兼容性的重要性。他認為，“行業(yè)對軟件的投資遠高于硬件，因此，開發(fā)或發(fā)布的軟件必須進行長期維護?！?CUDA作為NVIDIA的核心理念，體現(xiàn)了這種對兼容性和長期投入的堅持。

例如，在開發(fā)時為一個集群（如 Hoppers）創(chuàng)建的軟件應該可以無縫運行在其他架構（如 Blackwell 或 Rubin）上。這種兼容性對于 AI 技術的快速發(fā)展至關重要。

他指出，行業(yè)對軟件的投資比硬件高很多，因此，軟件需要長期維護，保證不同架構的兼容性非常重要，這樣可以讓投入到一個 GPU 上的軟件在其他 GPU 上也能使用，避免重復投入和浪費。

在談及數(shù)據(jù)中心的擴展時，黃仁勛提到，從500兆瓦到5000兆瓦的升級對技術架構提出了全新挑戰(zhàn)。為了應對這些挑戰(zhàn)，NVIDIA通過增加功率密度、采用液冷技術以及密集化設計，將多個GPU協(xié)作處理數(shù)據(jù)，從而實現(xiàn)數(shù)據(jù)中心的高效運行。

數(shù)據(jù)中心的功率密度在快速增加，這個趨勢幾乎是指數(shù)級的增長。從12千瓦到40千瓦，再到 120 千瓦、200 千瓦的變化，未來還會繼續(xù)提升。這種增長代表了每個數(shù)據(jù)中心機架的功率使用密度越來越大，以便在有限的物理空間內實現(xiàn)更高的計算能力。由于功率密度的增加，NVIDIA 正在盡可能地對計算進行“壓縮和密集化”。這意味著他們在有限的空間內放置更多的計算能力，這樣做可以提高整體效率。

黃仁勛提到，通過對數(shù)據(jù)中心進行密集化設計，NVIDIA 可以讓特定機架或相鄰機架中的所有 GPU 聯(lián)合起來，充當一個巨大的 GPU。這意味著，多個 GPU 可以協(xié)同工作，就像一個超大規(guī)模的計算單元一樣。這種設計大大增強了數(shù)據(jù)中心的整體計算能力，也進一步提高了密集化的好處。

而黃仁勛提到的數(shù)據(jù)中心功率密度的提升和計算壓縮，正好是 Arm 能幫助改進的領域。Arm 的處理器架構通過高能效，可以降低整體功耗，幫助數(shù)據(jù)中心應對功率密度增加帶來的冷卻和能效挑戰(zhàn)。

Arm 的 CPU 設計對于任務的低能耗和效率有很大幫助，結合 NVIDIA 的 GPU 可以在數(shù)據(jù)中心實現(xiàn)更高效的任務分配和更密集的計算能力。因此，Arm 和 NVIDIA 的協(xié)同可以在數(shù)據(jù)中心的能效優(yōu)化和密集化設計上帶來顯著的優(yōu)勢。

黃仁勛特別表示：“我們非常關注在每一塊 Arm 芯片上投入的努力。前幾天我們剛剛進行了展示。有人做了一些基準測試，結果顯示，NVIDIA Grace 的每瓦性能是全球最佳 CPU 的四倍。高能效比至關重要。它是重中之重?！?

結語

作為英偉達創(chuàng)始人，黃仁勛已經(jīng)領導公司30年且取得了巨大的成功。Rene Hass對其贊嘆不已：“盡管完全不清楚最終的殺手級應用或最終狀態(tài)是什么，但你卻有著令人難以置信的韌性去嘗試各種想法并進行測試，哪怕市場似乎并未準備就緒，或尚未對其進行定義?！?

Jensen笑談到：“成功之路并不是一個成就接著一個成就。事實并非如此。作為一名首席執(zhí)行官，你會遇到巨大的挫折，有時會有令人尷尬的時刻，你可能還沒有完全經(jīng)歷過這些。但是我希望它會到來，因為這是對你有益的。在所有這些時刻中，我不確定自己具體學到了什么，但它讓我變得更強大，我知道我能挺過去。我當時并不喜歡這些。但當我回想起這一切時，那些時刻讓人成長?！?