原創(chuàng)

隨著人工智能模型的快速增長，急劇推動了超級計算機的需求

時間：2022-11-28 09:35:01

關(guān)鍵字：英偉達(dá) 微軟超級計算機

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀]11月16日消息，英偉達(dá)當(dāng)?shù)貢r間周三宣布與微軟簽署一項多年合作協(xié)議，共同開發(fā)人工智能超級計算機。英偉達(dá)表示，這款人工智能設(shè)備將是微軟Azure先進(jìn)超級計算基礎(chǔ)設(shè)施和英偉達(dá)的網(wǎng)絡(luò)和全棧人工智能軟件的結(jié)果。

11月16日消息，英偉達(dá)當(dāng)?shù)貢r間周三宣布與微軟簽署一項多年合作協(xié)議，共同開發(fā)人工智能超級計算機。英偉達(dá)表示，這款人工智能設(shè)備將是微軟Azure先進(jìn)超級計算基礎(chǔ)設(shè)施和英偉達(dá)的網(wǎng)絡(luò)和全棧人工智能軟件的結(jié)果。

根據(jù)聲明，英偉達(dá)將使用Azure的可擴展虛擬機實例來研究和實現(xiàn)生成式人工智能的進(jìn)展，兩家公司將合作改進(jìn)微軟的DeepSpeed深度學(xué)習(xí)優(yōu)化軟件。

超級計算機(Super computer)，是指能夠執(zhí)行一般個人電腦無法處理的大量資料與高速運算的電腦。就超級計算機和普通計算機的組成而言，構(gòu)成組件基本相同，但在性能和規(guī)模方面卻有差異。超級計算機主要特點包含兩個方面：極大的數(shù)據(jù)存儲容量和極快速的數(shù)據(jù)處理速度，因此它可以在多種領(lǐng)域進(jìn)行一些人們或者普通計算機無法進(jìn)行的工作。

了解到，這臺人工智能計算機將在微軟的 Azure 云上運行，使用數(shù)以萬計的圖形處理單元(GPU)、英偉達(dá)最強大的 H100 及其 A100 芯片。Nvidia 拒絕透露這筆交易的價值，但業(yè)內(nèi)人士表示，每顆 A100 芯片的價格約為 1 萬至 1.2 萬美元，而 H100 的價格則遠(yuǎn)高于此。

除了向微軟出售芯片外，英偉達(dá)表示還將與這家軟件和云計算巨頭合作開發(fā) AI 模型。英偉達(dá)還將成為微軟 AI 云計算機的客戶，并在上面開發(fā) AI 應(yīng)用，向客戶提供服務(wù)。

諸如用于自然語言處理的人工智能模型的快速增長，急劇推動了對更快、更強大的計算基礎(chǔ)設(shè)施的需求。

英偉達(dá)表示，Azure 將是第一個使用其 Quantum-2 InfiniBand 網(wǎng)絡(luò)技術(shù)的公共云，其速度為每秒 400 吉比特，這種網(wǎng)絡(luò)技術(shù)以高速連接服務(wù)器，這非常重要，因為繁重的人工智能計算工作需要成千上萬的芯片在幾臺服務(wù)器上協(xié)同工作。

天，微軟和英偉達(dá)宣布建立多年的合作關(guān)系，為 Azure 客戶開發(fā)新型的 AI 人工智能云端超級計算機，由英偉達(dá) GPU 技術(shù)驅(qū)動。

利用“數(shù)以萬計”的英偉達(dá) GPU 性能顯卡(英偉達(dá)最強大的 H100 和 A100 芯片，消息人士稱每款 A100 芯片價格約為 1 萬-1.2 萬美元，而 H100 芯片價格遠(yuǎn)高于此)、400Gb / s 的 Quantum-2 InfiniBand 網(wǎng)絡(luò)以及英偉達(dá)新生的人工智能平臺，兩家公司旨在加快推出和開發(fā)由英偉達(dá)技術(shù)和微軟云計算驅(qū)動的基于人工智能的工具和應(yīng)用程序。這是英偉達(dá)首次與微軟 Azure 合作，向公眾提供其云端人工智能基礎(chǔ)設(shè)施的全部堆棧。

隨著英偉達(dá)的硬件影響力逐步擴大，微軟 Azure 將在虛擬機實例中帶來其獨特的全球可擴展性，英偉達(dá)表示這將有助于加快各種人工智能工具的訓(xùn)練和部署。英偉達(dá)表示，像 Megatron Turing NLG 530B 這樣的基礎(chǔ)模型將在該計劃下得到快速發(fā)展，其目標(biāo)是開發(fā)用于構(gòu)建代碼、文本、數(shù)字圖像、音頻和視頻的“無監(jiān)管”自我學(xué)習(xí)算法。英偉達(dá)和微軟還將在 Microsoft DeepSpeed 算法完善平臺上進(jìn)行合作，該平臺旨在幫助人工智能實例更快速地進(jìn)行自我學(xué)習(xí)。

微軟負(fù)責(zé)云計算和人工智能的執(zhí)行副總裁 Scott Guthrie 對這一合作關(guān)系表示歡迎，因為兩家公司將合作探索自動化行業(yè)的下一個浪潮?！叭斯ぶ悄苷谕苿诱麄€企業(yè)和工業(yè)計算的下一波自動化浪潮，使企業(yè)在應(yīng)對經(jīng)濟不確定性時能夠事半功倍。我們與英偉達(dá)的合作解鎖了世界上最具擴展性的超級計算機平臺，在微軟 Azure 上為每個企業(yè)提供最先進(jìn)的 AI 能力?！?

IT之家獲悉，近年來，微軟對開發(fā)人工智能平臺的興趣一直在成倍增加。微軟在其整個投資組合中都有內(nèi)部團隊在探索如何在幾乎每個產(chǎn)品組中納入人工智能自學(xué)算法。比如，GitHub 和 Visual Studio 中出現(xiàn)了 Copilot 編程編輯。還看到了人工智能如何增強和加快 Xbox 和 PC 游戲的開發(fā)，將密集的任務(wù)交給人工智能。當(dāng)然，還看到了一堆令人毛骨悚然的人工智能生成的圖像，這些圖像雖然有趣，但也引起了盜版的爭議問題，因為人工智能使用真實世界的藝術(shù)來訓(xùn)練自己。

Cerebras宣布，推出Andromeda，這是一款擁有1350萬核心的AI超級計算機，部署于美國加利福尼亞州圣克拉拉的數(shù)據(jù)中心，現(xiàn)已用于商業(yè)和學(xué)術(shù)工作。其采用了16個Cerebras CS-2系統(tǒng)集群構(gòu)建，并利用Cerebras MemoryX和SwarmX技術(shù)簡化和協(xié)調(diào)跨系統(tǒng)的模型拆分，以16位半精度提供超過1 Exaflop的AI計算和120 Petaflops的密集計算。

Cerebras稱，Andromeda基于AMD第三代EPYC服務(wù)器處理器，以及Cerebras的Wafer Scale Engine 2構(gòu)建，是唯一一臺僅依靠簡單數(shù)據(jù)并行性在大型語言模型工作負(fù)載上展示近乎完美的線性擴展的AI超級計算機，在GPT類大型語言模型里幾乎呈線性擴展，這效率是標(biāo)準(zhǔn)GPU集群所無法比擬的。

Wafer Scale Engine 2是世界上尺寸最大的單顆裸片，面積為462.25平方厘米，幾乎等于一塊12英寸晶圓。其擁有850000個AI內(nèi)核，2.6萬億個晶體管，配備了40GB的SRAM，提供了20 PB/s緩存帶寬和220 Pb/s互聯(lián)帶寬，采用臺積電7nm工藝制造。這些芯片將分布在16個機架的124個服務(wù)器節(jié)點上，通過100 GbE網(wǎng)絡(luò)連接，并由284個AMD第三代EPYC服務(wù)器處理器提供支持，均為64核心128線程規(guī)格，總有18176個核心。

Andromeda整個系統(tǒng)的功耗為500KW，比采用GPU加速的超級計算機的功耗要低得多。這樣的設(shè)計并不是完美無缺，在這種大規(guī)模并行的超級計算機上擴展工作負(fù)載長期以來都是制約其發(fā)展的因素之一，某些情況下擴展很容易會崩潰，因此添加更多硬件會導(dǎo)致回報迅速減少。