英偉達推出下一代 GPU 架構(gòu)：Hopper

時間：2022-04-10 14:15:01

關(guān)鍵字：英偉達 AI 人工智能

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]Nvidia 推出了其下一代 GPU 架構(gòu)——名為 Hopper，以及使用 Hopper 架構(gòu)的新旗艦 GPU H100。也許令人驚訝的是，英偉達并沒有選擇走英特爾和 AMD 為其龐大的 GPU 青睞的時尚小芯片路線。雖然 H100 是第一款使用 HBM3 的 GPU，但它的計算芯片是單片的，814mm 2中的 800 億個晶體管基于臺積電的 4N 工藝構(gòu)建。內(nèi)存和計算通過臺積電的 CoWoS 2.5D 封裝進行封裝。

Nvidia 推出了其下一代 GPU 架構(gòu)——名為 Hopper，以及使用 Hopper 架構(gòu)的新旗艦 GPU H100。也許令人驚訝的是，英偉達并沒有選擇走英特爾和 AMD 為其龐大的 GPU 青睞的時尚小芯片路線。雖然 H100 是第一款使用 HBM3 的 GPU，但它的計算芯片是單片的，814mm ²中的 800 億個晶體管基于臺積電的 4N 工藝構(gòu)建。內(nèi)存和計算通過臺積電的 CoWoS 2.5D 封裝進行封裝。

以美國計算機科學先驅(qū) Grace Hopper 命名的 Nvidia Hopper H100 將取代 Ampere A100，成為該公司用于人工智能和科學工作負載的旗艦 GPU。它將提供 3 到 6 倍的 A100 原始性能（FP8 性能的 4 PFLOPS，或 FP64 的 60 TFLOPS）。作為第一款采用 HBM3 技術(shù)的 GPU，其顯存帶寬達到了驚人的 3 TB/s，同時也是第一款支持 PCIe Gen5 的 GPU。該芯片具有近 5 TB/s 的外部連接速度。綜上所述，20 個 H100 GPU 可以維持相當于當今全球互聯(lián)網(wǎng)流量的全部。

新的 Nvidia Hopper H100 GPU – Nvidia 用于數(shù)據(jù)中心 AI 和科學工作負載的新旗艦 GPU

變壓器引擎

Hopper 架構(gòu)為 AI 處理和科學工作負載提供了一些技巧。

第一個是新的變壓器引擎。Transformer 網(wǎng)絡已經(jīng)是當今自然語言處理的事實上的標準，在許多其他人工智能應用中顯示出前景，包括蛋白質(zhì)折疊，甚至在計算機視覺中。如今，它們?yōu)樵S多對話式 AI 應用程序提供支持。變壓器網(wǎng)絡的問題在于它們非常龐大——數(shù)十億或數(shù)萬億個參數(shù)——這使得它們的訓練計算成本極高。今天訓練一個體面大小的變壓器可能需要幾個月的時間，這取決于你可以使用的計算能力。

Nvidia 為其 Hopper 張量核心發(fā)明了一種新的低精度格式 FP8。新的 Hopper 張量引擎可以應用混合的 FP16 和 FP8 格式，以在適當?shù)那闆r下加速 Transformer 訓練。挑戰(zhàn)在于知道何時切換到較低精度以加快吞吐量，同時保持最終結(jié)果的準確性。Nvidia 提出了可以在訓練期間動態(tài)執(zhí)行此操作的策略。

將張量引擎與 Hopper 帶來的其他改進相結(jié)合，結(jié)果是訓練變壓器網(wǎng)絡的時間減少了 9 倍——在 Nvidia 的示例中，對于 3950 億參數(shù)的混合，從使用 A100 的 7 天到使用 H100 的 20 小時專家網(wǎng)絡。對于擁有 5300 億個參數(shù)的 Megatron-530B，H100 的性能比 A100 高出 30 倍。

是時候為 H100 與 A100 訓練混合專家變壓器網(wǎng)絡了（來源：Nvidia）

另一個巧妙的技巧是添加新指令來加速動態(tài)編程。動態(tài)編程是一種流行的科學算法使用的技術(shù)，包括 Floyd-Warshall（用于路線優(yōu)化）和 Smith-Waterman（用于 DNA 序列比對）等等。一般來說，動態(tài)規(guī)劃意味著算法被分解成更容易解決的更小的子問題。存儲子問題的答案以供重復使用，以避免重新計算它們。

Hopper 的 DPX 指令是為此類操作量身定制的。到目前為止，這些工作負載主要在 CPU 和 FPGA 上運行。使用 H100，F(xiàn)loyd-Warshall 的運行速度可以比 CPU 快 40 倍。

下一代 MIG

H100 還具有第二代多實例 GPU (mig) 技術(shù)。Mig 允許將大型數(shù)據(jù)中心 GPU 有效地分解為多個較小的 GPU。這些微型實例可用于在同一芯片上同時運行多個工作負載。下一代 mig 在云環(huán)境中跨每個 GPU 實例提供安全的多租戶配置，以便可以在不同用戶或云租戶之間安全地分配計算能力。

在 H100 的又一個首創(chuàng)中，Nvidia 聲稱該芯片是第一款具有機密計算能力的 GPU。這個想法是保護敏感或私人數(shù)據(jù)，即使它正在使用（因此被解密）。當今的機密計算方案是基于 CPU 的，因此不適用于大規(guī)模的 AI 或高性能計算 (HPC)。

英偉達的機密計算方案使用硬件和軟件，通過機密虛擬機創(chuàng)建可信的執(zhí)行環(huán)境。CPU 和 GPU 之間以及 GPU 之間的數(shù)據(jù)傳輸以全 PCI 線速進行加密和解密。H100 還具有硬件防火墻，可保護其內(nèi)存和計算引擎中的工作負載，因此除了擁有密鑰的受信任執(zhí)行環(huán)境的所有者之外，沒有人可以看到數(shù)據(jù)或代碼。

H100 還率先使用了 Nvidia 的第四代 NVLink 通信技術(shù)。當擴展到多個 GPU 時，GPU 之間的通信通常是一個瓶頸。新的 NVLink 交換機可以創(chuàng)建多達 256 個 H100 GPU 的網(wǎng)絡，比以前大 32 倍，帶寬比 Quantum InfiniBand 技術(shù)高 11 倍。

超級芯片和超級計算機

英偉達還推出了幾款“超級芯片”。Grace CPU 超級芯片是一個帶有兩個Grace CPU裸片的模塊；該組合是一個具有 1 TB/s 內(nèi)存帶寬的 144 ARM 核單插槽 CPU 龐然大物，用于超大規(guī)模數(shù)據(jù)中心 AI 和科學計算。這是市場上當前數(shù)據(jù)中心 CPU 之上的一類。該模塊消耗500W。

還有 Grace Hopper 超級芯片：一個 Grace CPU 和一個 Hopper GPU。

Nvidia 的“超級芯片”結(jié)合了兩個 Grace CPU 或一個 Grace CPU 和一個 Hopper GPU（來源：Nvidia）

這里的支持技術(shù)是一種全新的內(nèi)存一致性芯片到芯片接口 NVLink-C2C，它可以在裸片之間實現(xiàn) 900 GB/s 的鏈接。它可用于 PCB、MCM、Interposer 或晶圓級。

在他的 GTC 主題演講中，Nvidia 首席執(zhí)行官 Jensen Huang 提到 NVLink-C2C 將提供給希望實施連接到 Nvidia 平臺的定制芯片的其他客戶和合作伙伴。該公司單獨表示，它將支持英特爾、AMD、Arm 和其他公司支持的 UCIe 小芯片到小芯片標準，但沒有說明如何或何時支持。（UCIe 是一個開發(fā)中的開放平臺，用于支持現(xiàn)成的小芯片生態(tài)系統(tǒng)）。

Grace CPU 超級芯片和 Grace Hopper 超級芯片都將在明年上半年出貨。

當然會有基于 H100 的擴展系統(tǒng)，包括 DGX-H100（8 個 H100 芯片，0.5 PFLOPS 的 FP64 計算）和新的 DGX-Superpod，它是 32 個 DGX-H100 節(jié)點，可實現(xiàn) 1 ExaFLOPS 的 AI 性能（ FP8)。

作為基于 A100 的 AI 超級計算機 Selene 的姐妹，Nvidia 將構(gòu)建一個名為 Eos 的新超級計算機，包括 18 個 DGX-Superpod。這個 18-ExaFLOPS 的野獸將擁有 4600 個 H100 GPU、360 個 NVlink 交換機和 500 個 Quantum InfiniBand 交換機。它將被英偉達的人工智能研究團隊使用。

Eos 預計將在今年晚些時候上線，Nvidia 預計它將成為當時排名第一的 AI 超級計算機。

本站聲明：本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點，本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系本站刪除。

換一批

與傳統(tǒng)的驅(qū)動方式相比，共陰恒流驅(qū)動在能效有哪些優(yōu)勢

LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字：驅(qū)動電源

[電源]

工業(yè)電機驅(qū)動電源設計：反電動勢抑制與過流保護的集成方案

在工業(yè)自動化蓬勃發(fā)展的當下，工業(yè)電機作為核心動力設備，其驅(qū)動電源的性能直接關(guān)系到整個系統(tǒng)的穩(wěn)定性和可靠性。其中，反電動勢抑制與過流保護是驅(qū)動電源設計中至關(guān)重要的兩個環(huán)節(jié)，集成化方案的設計成為提升電機驅(qū)動性能的關(guān)鍵。

關(guān)鍵字：工業(yè)電機驅(qū)動電源

[電源]

如何解決 LED 驅(qū)動電源的易損壞問題

LED 驅(qū)動電源作為 LED 照明系統(tǒng)的 “心臟”，其穩(wěn)定性直接決定了整個照明設備的使用壽命。然而，在實際應用中，LED 驅(qū)動電源易損壞的問題卻十分常見，不僅增加了維護成本，還影響了用戶體驗。要解決這一問題，需從設計、生...

關(guān)鍵字：驅(qū)動電源照明系統(tǒng) 散熱

[電力電工電路]

LED設計中LED驅(qū)動電源的公式

根據(jù)LED驅(qū)動電源的公式，電感內(nèi)電流波動大小和電感值成反比，輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關(guān)鍵字： LED 設計驅(qū)動電源

[汽車電子]

EV主驅(qū)IGBT隔離驅(qū)動電源方案選擇問題探討

電動汽車(EV)作為新能源汽車的重要代表，正逐漸成為全球汽車產(chǎn)業(yè)的重要發(fā)展方向。電動汽車的核心技術(shù)之一是電機驅(qū)動控制系統(tǒng)，而絕緣柵雙極型晶體管(IGBT)作為電機驅(qū)動系統(tǒng)中的關(guān)鍵元件，其性能直接影響到電動汽車的動力性能和...

關(guān)鍵字：電動汽車新能源驅(qū)動電源

[電源]

合理的驅(qū)動電源方案成為大功率區(qū)域照明的主流選擇

在現(xiàn)代城市建設中，街道及停車場照明作為基礎設施的重要組成部分，其質(zhì)量和效率直接關(guān)系到城市的公共安全、居民生活質(zhì)量和能源利用效率。隨著科技的進步，高亮度白光發(fā)光二極管(LED)因其獨特的優(yōu)勢逐漸取代傳統(tǒng)光源，成為大功率區(qū)域...

關(guān)鍵字：發(fā)光二極管驅(qū)動電源 LED

[消費電子]