11月16日消息,英偉達當?shù)貢r間周三宣布與微軟簽署一項多年合作協(xié)議,共同開發(fā)人工智能超級計算機。英偉達表示,這款人工智能設備將是微軟Azure先進超級計算基礎設施和英偉達的網絡和全棧人工智能軟件的結果。
根據(jù)聲明,英偉達將使用Azure的可擴展虛擬機實例來研究和實現(xiàn)生成式人工智能的進展,兩家公司將合作改進微軟的DeepSpeed深度學習優(yōu)化軟件。
超級計算機(Super computer),是指能夠執(zhí)行一般個人電腦無法處理的大量資料與高速運算的電腦。就超級計算機和普通計算機的組成而言,構成組件基本相同,但在性能和規(guī)模方面卻有差異。超級計算機主要特點包含兩個方面:極大的數(shù)據(jù)存儲容量和極快速的數(shù)據(jù)處理速度,因此它可以在多種領域進行一些人們或者普通計算機無法進行的工作。
了解到,這臺人工智能計算機將在微軟的 Azure 云上運行,使用數(shù)以萬計的圖形處理單元(GPU)、英偉達最強大的 H100 及其 A100 芯片。Nvidia 拒絕透露這筆交易的價值,但業(yè)內人士表示,每顆 A100 芯片的價格約為 1 萬至 1.2 萬美元,而 H100 的價格則遠高于此。
除了向微軟出售芯片外,英偉達表示還將與這家軟件和云計算巨頭合作開發(fā) AI 模型。英偉達還將成為微軟 AI 云計算機的客戶,并在上面開發(fā) AI 應用,向客戶提供服務。
諸如用于自然語言處理的人工智能模型的快速增長,急劇推動了對更快、更強大的計算基礎設施的需求。
英偉達表示,Azure 將是第一個使用其 Quantum-2 InfiniBand 網絡技術的公共云,其速度為每秒 400 吉比特,這種網絡技術以高速連接服務器,這非常重要,因為繁重的人工智能計算工作需要成千上萬的芯片在幾臺服務器上協(xié)同工作。
天,微軟和英偉達宣布建立多年的合作關系,為 Azure 客戶開發(fā)新型的 AI 人工智能云端超級計算機,由英偉達 GPU 技術驅動。
利用“數(shù)以萬計”的英偉達 GPU 性能顯卡(英偉達最強大的 H100 和 A100 芯片,消息人士稱每款 A100 芯片價格約為 1 萬-1.2 萬美元,而 H100 芯片價格遠高于此)、400Gb / s 的 Quantum-2 InfiniBand 網絡以及英偉達新生的人工智能平臺,兩家公司旨在加快推出和開發(fā)由英偉達技術和微軟云計算驅動的基于人工智能的工具和應用程序。這是英偉達首次與微軟 Azure 合作,向公眾提供其云端人工智能基礎設施的全部堆棧。
隨著英偉達的硬件影響力逐步擴大,微軟 Azure 將在虛擬機實例中帶來其獨特的全球可擴展性,英偉達表示這將有助于加快各種人工智能工具的訓練和部署。英偉達表示,像 Megatron Turing NLG 530B 這樣的基礎模型將在該計劃下得到快速發(fā)展,其目標是開發(fā)用于構建代碼、文本、數(shù)字圖像、音頻和視頻的“無監(jiān)管”自我學習算法。英偉達和微軟還將在 Microsoft DeepSpeed 算法完善平臺上進行合作,該平臺旨在幫助人工智能實例更快速地進行自我學習。
微軟負責云計算和人工智能的執(zhí)行副總裁 Scott Guthrie 對這一合作關系表示歡迎,因為兩家公司將合作探索自動化行業(yè)的下一個浪潮?!叭斯ぶ悄苷谕苿诱麄€企業(yè)和工業(yè)計算的下一波自動化浪潮,使企業(yè)在應對經濟不確定性時能夠事半功倍。我們與英偉達的合作解鎖了世界上最具擴展性的超級計算機平臺,在微軟 Azure 上為每個企業(yè)提供最先進的 AI 能力?!?
IT之家獲悉,近年來,微軟對開發(fā)人工智能平臺的興趣一直在成倍增加。微軟在其整個投資組合中都有內部團隊在探索如何在幾乎每個產品組中納入人工智能自學算法。比如,GitHub 和 Visual Studio 中出現(xiàn)了 Copilot 編程編輯。還看到了人工智能如何增強和加快 Xbox 和 PC 游戲的開發(fā),將密集的任務交給人工智能。當然,還看到了一堆令人毛骨悚然的人工智能生成的圖像,這些圖像雖然有趣,但也引起了盜版的爭議問題,因為人工智能使用真實世界的藝術來訓練自己。
Cerebras宣布,推出Andromeda,這是一款擁有1350萬核心的AI超級計算機,部署于美國加利福尼亞州圣克拉拉的數(shù)據(jù)中心,現(xiàn)已用于商業(yè)和學術工作。其采用了16個Cerebras CS-2系統(tǒng)集群構建,并利用Cerebras MemoryX和SwarmX技術簡化和協(xié)調跨系統(tǒng)的模型拆分,以16位半精度提供超過1 Exaflop的AI計算和120 Petaflops的密集計算。
Cerebras稱,Andromeda基于AMD第三代EPYC服務器處理器,以及Cerebras的Wafer Scale Engine 2構建,是唯一一臺僅依靠簡單數(shù)據(jù)并行性在大型語言模型工作負載上展示近乎完美的線性擴展的AI超級計算機,在GPT類大型語言模型里幾乎呈線性擴展,這效率是標準GPU集群所無法比擬的。
Wafer Scale Engine 2是世界上尺寸最大的單顆裸片,面積為462.25平方厘米,幾乎等于一塊12英寸晶圓。其擁有850000個AI內核,2.6萬億個晶體管,配備了40GB的SRAM,提供了20 PB/s緩存帶寬和220 Pb/s互聯(lián)帶寬,采用臺積電7nm工藝制造。這些芯片將分布在16個機架的124個服務器節(jié)點上,通過100 GbE網絡連接,并由284個AMD第三代EPYC服務器處理器提供支持,均為64核心128線程規(guī)格,總有18176個核心。
Andromeda整個系統(tǒng)的功耗為500KW,比采用GPU加速的超級計算機的功耗要低得多。這樣的設計并不是完美無缺,在這種大規(guī)模并行的超級計算機上擴展工作負載長期以來都是制約其發(fā)展的因素之一,某些情況下擴展很容易會崩潰,因此添加更多硬件會導致回報迅速減少。