破解 AI 集群擴(kuò)展中的關(guān)鍵瓶頸
人工智能技術(shù)的快速創(chuàng)新迭代也給數(shù)據(jù)中心網(wǎng)絡(luò)帶來了前所未有的壓力。例如,Meta 最近發(fā)布的有關(guān) Llama 3 405B 模型訓(xùn)練集群的論文顯示,該模型在預(yù)訓(xùn)練階段需要超過 700TB 的內(nèi)存和 16000 顆英偉達(dá) H100 GPU 芯片。據(jù) Epoch AI 預(yù)計,到 2030 年,人工智能模型所需的計算能力將是目前領(lǐng)先模型的 1 萬倍。如果企業(yè)擁有數(shù)據(jù)中心,那么部署人工智能只是時間問題,而其中人工智能集群的擴(kuò)展則成為關(guān)鍵難題。
一、人工智能集群概述
所謂人工智能集群,就是一個高度互聯(lián)的大型計算資源網(wǎng)絡(luò),用于處理人工智能工作負(fù)載。與傳統(tǒng)的計算集群不同,人工智能集群針對人工智能模型訓(xùn)練、推理和實時分析等工作任務(wù)進(jìn)行了優(yōu)化。它們依靠數(shù)千個 GPU、高速互連和低時延的網(wǎng)絡(luò)來滿足人工智能對密集計算和數(shù)據(jù)吞吐量的要求。
構(gòu)建人工智能集群需要將 GPU 連接起來,形成一個高性能計算網(wǎng)絡(luò),讓數(shù)據(jù)在 GPU 之間實現(xiàn)無縫傳輸。這其中強(qiáng)大的網(wǎng)絡(luò)連接至關(guān)重要,因為分布式訓(xùn)練往往需要使用數(shù)千個 GPU 進(jìn)行長時間并行計算。計算節(jié)點如同人工智能集群的大腦,由成千上萬個 GPU 組成并連接到機(jī)架頂部的交換機(jī),隨著復(fù)雜性的提升,對 GPU 的需求也在增加。以太網(wǎng)等高速互聯(lián)技術(shù)可實現(xiàn)計算節(jié)點之間的快速數(shù)據(jù)傳輸。網(wǎng)絡(luò)基礎(chǔ)設(shè)施包括網(wǎng)絡(luò)硬件和協(xié)議,它們能夠支持在數(shù)千個 GPU 之間進(jìn)行長時間的數(shù)據(jù)通信。
二、擴(kuò)展面臨的關(guān)鍵挑戰(zhàn)
(一)網(wǎng)絡(luò)挑戰(zhàn)
GPU 可以有效地執(zhí)行并行計算。然而,當(dāng)數(shù)千個甚至幾十萬個 GPU 在人工智能集群中共同執(zhí)行同一工作任務(wù)時,如果其中一個 GPU 缺乏所需的數(shù)據(jù)或遇到延遲等情況,其他 GPU 的工作就會停滯不前。這種長時間的數(shù)據(jù)包延遲或網(wǎng)絡(luò)擁堵造成的數(shù)據(jù)包丟失會導(dǎo)致需要重新傳輸數(shù)據(jù)包,從而大幅延長了任務(wù)完成時間(JCT),造成價值數(shù)百萬美元的 GPU 閑置。
此外,人工智能工作負(fù)載產(chǎn)生的東西向流量,也就是數(shù)據(jù)中心內(nèi)部計算節(jié)點之間的數(shù)據(jù)遷移,急劇增加,如果傳統(tǒng)的網(wǎng)絡(luò)基礎(chǔ)設(shè)施沒有針對這些負(fù)載進(jìn)行優(yōu)化,可能會出現(xiàn)網(wǎng)絡(luò)擁堵和延遲問題。例如,在一些大規(guī)模的 AI 訓(xùn)練任務(wù)中,數(shù)據(jù)在不同計算節(jié)點之間頻繁交換,原有的網(wǎng)絡(luò)帶寬無法滿足如此龐大的數(shù)據(jù)傳輸需求,導(dǎo)致訓(xùn)練效率大打折扣。
(二)互聯(lián)挑戰(zhàn)
隨著人工智能集群規(guī)模的拓展,傳統(tǒng)的互連技術(shù)可能難以支持必要的吞吐量。為了避免瓶頸問題,企業(yè)必須進(jìn)行升級迭代,采用更高速的互連技術(shù),如 800G 甚至 1.6T 的解決方案。然而,要滿足人工智能工作負(fù)載的嚴(yán)格要求,部署和驗證此類高速鏈路并非易事。高速串行路徑必須經(jīng)過仔細(xì)調(diào)試和測試,以確保最佳的信號完整性、較低的誤碼率和長距可靠的前向糾錯(FEC)性能。高速串行路徑中的任何不穩(wěn)定因素都會降低可靠性并減慢人工智能訓(xùn)練的速度。企業(yè)需要采用高精度、高效率的測試系統(tǒng),在高速互聯(lián)技術(shù)部署前對其進(jìn)行驗證。在實際操作中,一些企業(yè)在升級到高速互連技術(shù)時,由于沒有充分測試,導(dǎo)致在使用過程中頻繁出現(xiàn)數(shù)據(jù)傳輸錯誤,嚴(yán)重影響了 AI 集群的運(yùn)行。
(三)財務(wù)挑戰(zhàn)
擴(kuò)展人工智能集群的總成本遠(yuǎn)遠(yuǎn)不止于購買 GPU 的花費。企業(yè)必須將電源、冷卻、網(wǎng)絡(luò)設(shè)備和更廣泛的數(shù)據(jù)中心基礎(chǔ)設(shè)施等相關(guān)投入考慮在內(nèi)。以一個中等規(guī)模的數(shù)據(jù)中心為例,若要擴(kuò)展 AI 集群,除了購置新的 GPU,還需要對供電系統(tǒng)進(jìn)行升級,以滿足新增設(shè)備的電力需求;冷卻系統(tǒng)也需同步升級,防止設(shè)備因過熱而出現(xiàn)故障。然而,通過采用更出色的互連技術(shù)并借助經(jīng)過優(yōu)化的網(wǎng)絡(luò)性能來加速處理人工智能工作負(fù)載,可以縮短訓(xùn)練周期,并釋放資源用于執(zhí)行其他任務(wù)。這也意味著每節(jié)省一天的培訓(xùn)時間,就能大幅降低成本,因此對于財務(wù)風(fēng)險和技術(shù)風(fēng)險需要給予同等的重視。
三、測試和驗證面臨的挑戰(zhàn)
優(yōu)化人工智能集群的網(wǎng)絡(luò)性能需要對網(wǎng)絡(luò)架構(gòu)和 GPU 之間的互連技術(shù)進(jìn)行性能測試和基準(zhǔn)測試。然而,由于硬件、架構(gòu)設(shè)計和動態(tài)工作負(fù)載特性之間的關(guān)系錯綜復(fù)雜,對這些器件和系統(tǒng)進(jìn)行驗證具有很大的挑戰(zhàn)性。
首先是實驗室部署方面的限制。人工智能硬件成本高昂、可用的設(shè)備有限以及對專業(yè)網(wǎng)絡(luò)工程師的需求缺口,使得全盤復(fù)制變得不切實際。此外,實驗室環(huán)境通常在空間、電力和散熱方面受到限制,與現(xiàn)實世界的數(shù)據(jù)中心條件不同。這就導(dǎo)致在實驗室測試通過的方案,在實際數(shù)據(jù)中心部署時可能出現(xiàn)各種問題。
其次是對生產(chǎn)系統(tǒng)的影響。減少對生產(chǎn)系統(tǒng)的測試可能會造成破壞,并影響關(guān)鍵的人工智能操作。一些企業(yè)為了盡快上線新的 AI 集群擴(kuò)展方案,減少了在生產(chǎn)系統(tǒng)上的測試環(huán)節(jié),結(jié)果上線后引發(fā)了一系列故障,影響了業(yè)務(wù)的正常運(yùn)行。
最后是復(fù)雜的人工智能工作負(fù)載。人工智能工作負(fù)載和數(shù)據(jù)集的性質(zhì)多種多樣,在規(guī)模和通信模式上也有很大差異,因此很難重現(xiàn)問題并執(zhí)行一致性的基準(zhǔn)測試。不同的 AI 模型訓(xùn)練任務(wù),其數(shù)據(jù)量、數(shù)據(jù)傳輸模式都有很大不同,這給測試和驗證工作帶來了極大的困難。
人工智能將重塑數(shù)據(jù)中心的產(chǎn)業(yè)格局,因此構(gòu)建面向未來的網(wǎng)絡(luò)基礎(chǔ)設(shè)施對于在技術(shù)和標(biāo)準(zhǔn)快速演進(jìn)的過程中保持領(lǐng)先地位至關(guān)重要。面對 AI 集群擴(kuò)展中的諸多關(guān)鍵瓶頸,企業(yè)需要從網(wǎng)絡(luò)優(yōu)化、互連技術(shù)升級以及合理規(guī)劃財務(wù)投入等多方面入手,同時重視測試和驗證環(huán)節(jié),以確保 AI 集群能夠高效、穩(wěn)定地擴(kuò)展,為人工智能技術(shù)的持續(xù)發(fā)展提供堅實支撐。