NVIDIA 推出 Blackwell 架構 DGX SuperPOD,適用于萬億參數級的生成式 AI 超級計算
美國加利福尼亞州圣何塞 —— GTC —— 太平洋時間 2024 年 3 月 18 日 —— NVIDIA 于今日發(fā)布新一代 AI 超級計算機 —— 搭載 NVIDIA GB200 Grace Blackwell 超級芯片的 NVIDIA DGX SuperPOD?。這臺 AI 超級計算機可以用于處理萬億參數模型,能夠保證超大規(guī)模生成式 AI 訓練和推理工作負載的持續(xù)運行。
全新 DGX SuperPOD 采用新型高效液冷機架級擴展架構,基于 NVIDIA DGX? GB200 系統構建而成,在 FP4 精度下可提供 11.5 exaflops 的 AI 超級計算性能和 240 TB 的快速顯存,且可通過增加機架來擴展性能。
每個 DGX GB200 系統搭載 36 個 NVIDIA GB200 超級芯片,共包含 36 個 NVIDIA Grace CPU 和 72 個 NVIDIA Blackwell GPU。這些超級芯片通過第五代 NVIDIA NVLink® 連接成一臺超級計算機。與 NVIDIA H100 Tensor Core GPU 相比,GB200 超級芯片在大語言模型推理工作負載方面的性能提升了高達 30 倍。
NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛表示: “NVIDIA DGX AI 超級計算機是推進 AI 產業(yè)變革的工廠。新一代 DGX SuperPOD 集 NVIDIA 加速計算、網絡和軟件方面的最新進展于一體,能夠幫助每一個企業(yè)、行業(yè)和國家完善并生成自己的 AI?!?
Grace Blackwell 架構的 DGX SuperPOD 由 8 個或以上的 DGX GB200 系統構建而成,這些系統通過 NVIDIA Quantum InfiniBand 網絡連接,可擴展到數萬個 GB200 超級芯片。用戶可通過 NVLink 連接 8 個 DGX GB200 系統中的 576 塊 Blackwell GPU,從而獲得海量共享顯存空間,來賦能下一代 AI 模型。
面向生成式 AI 時代的全新機架級擴展的 DGX SuperPOD 架構
采用 DGX GB200 系統構建而成的全新 DGX SuperPOD 采用了統一的計算網絡。除第五代 NVIDIA NVLink 網絡外,還包括 NVIDIA BlueField®-3 DPU,并將支持同為今日發(fā)布的 NVIDIA Quantum-X800 InfiniBand 網絡。這個架構可為計算平臺中的每塊 GPU 提供高達每秒 1800 GB 的帶寬。
另外,第四代 NVIDIA 可擴展分層聚合和規(guī)約協議(SHARP)?技術可提供 14.4 teraflops 的網絡計算能力,與上一代產品相比,新一代 DGX SuperPOD 架構的網絡計算能力提高了 4 倍。
統包式架構搭配先進的軟件,實現前所未有的正常運行時間
全新 DGX SuperPOD 是一臺完整的數據中心級 AI 超級計算機,在與 NVIDIA 認證合作伙伴提供的高性能存儲集成后,能夠滿足生成式 AI 工作負載的需求。每臺超級計算機都在出廠前完成了搭建、布線和測試,從而大大加快了在用戶數據中心的部署速度。
Grace Blackwell 架構的 DGX SuperPOD 具有智能預測管理功能,能夠持續(xù)監(jiān)控軟硬件中的數千個數據點,通過預測并攔截導致停機和低效的根源以節(jié)省時間、能耗和計算成本。
即使沒有系統管理員在場,該軟件也能識別需要重點關注的領域并制定維護計劃,靈活調整計算資源,通過自動保存和恢復作業(yè)來防止停機。
如果軟件檢測到需要更換組件,該集群將激活備用容量以確保工作能夠及時完成。為任何必要的硬件更換做好安排,以免出現計劃之外的停機。
NVIDIA DGX B200 系統推動各行各業(yè) AI 超級計算發(fā)展
NVIDIA 還發(fā)布了一款統一用于 AI 模型訓練、微調和推理的通用 AI 超級計算平臺 NVIDIA DGX B200 系統。
采用風冷傳統機架式設計的 DGX 已被全球各行各業(yè)數千家企業(yè)廣泛采用,DGX B200 是 DGX 系列的第六代產品。采用 Blackwell 架構的全新 DGX B200 系統包含 8 個 NVIDIA B200 Tensor Core GPU 和 2 個第五代英特爾®至強®處理器。用戶還可以使用 DGX B200 系統構建 DGX SuperPOD,打造能夠幫助大型開發(fā)團隊運行多種不同作業(yè)的 AI 卓越中心。
DGX B200 系統憑借全新 Blackwell 架構中的 FP4 精度特性,可提供高達 144 petaflops 的 AI 性能、1.4TB 海量的 GPU 顯存和 64TB/s 的顯存帶寬,從而使得該系統的萬億參數模型實時推理速度比上一代產品提升了 15 倍。
DGX B200 系統包含帶有 8 個 NVIDIA ConnectX?-7 網卡和 2 個 BlueField-3 DPU 的高性能網絡,每個連接的帶寬高達 400 Gb/s,可通過 NVIDIA Quantum-2 InfiniBand 和 NVIDIA Spectrum?-X 以太網網絡平臺支持更高的 AI 性能。
軟件和專家為擴大生產級 AI 的規(guī)模提供支持
所有 NVIDIA DGX 平臺均包含用于企業(yè)級開發(fā)和部署的 NVIDIA AI Enterprise 軟件。DGX 用戶可以通過使用該軟件平臺中的預訓練的 NVIDIA 基礎模型、框架、工具套件和全新 NVIDIA NIM 微服務來加速他們的工作。
NVIDIA DGX 專家與部分獲得 NVIDIA DGX 平臺支持認證的合作伙伴將在每個部署環(huán)節(jié)為用戶提供幫助,以便其迅速實現 AI 投產。在系統投入運行后,DGX 專家還將繼續(xù)協助用戶優(yōu)化其 AI 管線和基礎設施。
供應情況
NVIDIA 全球合作伙伴預計將在今年晚些時候提供基于 DGX GB200 和 DGX B200 系統構建而成的 NVIDIA DGX SuperPOD。