AI訓練:從算力到網(wǎng)絡(luò)的系統(tǒng)工程優(yōu)化——是德科技KAI解決方案的應(yīng)對之道
AI訓練不僅是“算力游戲”,更是“網(wǎng)絡(luò)與系統(tǒng)工程”。根據(jù)實際案例,GPU在“真正計算”的工作時間不超過20%;超過一半時間被網(wǎng)絡(luò)/數(shù)據(jù)傳輸拖慢。而且訓練成功率也差強人意,總體成功率僅57%,意味著>43%的訓練任務(wù)被中斷或失敗。在資源最密集的LLM訓練中,僅靠算力是不夠的——網(wǎng)絡(luò)可靠性和系統(tǒng)組件的穩(wěn)定性同樣至關(guān)重要,必須在系統(tǒng)級別優(yōu)化網(wǎng)絡(luò)吞吐、延遲及通信協(xié)議,否則大量算力浪費在重試或錯誤恢復(fù)上。網(wǎng)絡(luò)性能和組件協(xié)同工作是AI集群效率的關(guān)鍵,任何單一環(huán)節(jié)的不足都可能顯著影響整體系統(tǒng)表現(xiàn),凸顯了系統(tǒng)級驗證和優(yōu)化需求的重要性。
人工智能(AI)技術(shù)的飛速發(fā)展正在深刻改變?nèi)蚩萍几窬郑湓跀?shù)據(jù)中心、通信網(wǎng)絡(luò)、自動駕駛、醫(yī)療健康和工業(yè)制造等領(lǐng)域的廣泛應(yīng)用,不僅推動了技術(shù)創(chuàng)新,也對測試與測量領(lǐng)域提出了前所未有的挑戰(zhàn)。AI的高計算需求、大規(guī)模數(shù)據(jù)處理以及實時決策能力,使傳統(tǒng)測試方法顯得力不從心。尤其是隨著AI系統(tǒng)復(fù)雜性的不斷提升,如何在開發(fā)和部署過程中確保其性能、穩(wěn)定性和可靠性,成為了行業(yè)亟待解決的難題。
是德科技(Keysight Technologies),作為測試與測量領(lǐng)域的全球領(lǐng)導者,深刻認識到AI帶來的這些挑戰(zhàn),并推出了KAI(Keysight Artificial Intelligence)系列解決方案,旨在通過創(chuàng)新的測試工具和策略,為AI系統(tǒng)的開發(fā)和部署提供強有力的支持。
是德科技大中華區(qū)高速數(shù)字市場部經(jīng)理李堅
AI帶來的測試挑戰(zhàn)
AI技術(shù)的快速發(fā)展為各行業(yè)帶來了巨大的市場機遇,但同時也伴隨著嚴峻的測試挑戰(zhàn)。綜合多家市場研究機構(gòu)的預(yù)測,全球AI市場規(guī)模預(yù)計將從2022年的869億美元增長到2030年的1.3萬億美元,2024年到2030年的年均復(fù)合增長率高達35.7%,并將為美國GDP貢獻21%的凈增長(到2030年)。這一迅猛增長的背后,是AI系統(tǒng)對計算能力、數(shù)據(jù)處理和網(wǎng)絡(luò)性能的極高要求,而這些需求直接導致了測試領(lǐng)域的多重挑戰(zhàn)。
AI系統(tǒng)的核心在于其高性能計算和大規(guī)模數(shù)據(jù)處理能力,這直接推動了對帶寬的極高需求。當前的AI應(yīng)用場景,如大規(guī)模語言模型訓練、實時圖像識別和自動駕駛決策,要求系統(tǒng)能夠在極短時間內(nèi)處理海量數(shù)據(jù)。這意味著測試驗證必須在系統(tǒng)級別進行,以確保所有組件能夠在高負載下協(xié)同工作。未來3到5年內(nèi),技術(shù)將迎來顯著的轉(zhuǎn)折點:以太網(wǎng)速度將從400/800G升級至1.6/3.2T,帶寬提升4倍;內(nèi)存技術(shù)將從DDR5 8.4 GT/s發(fā)展到DDR6/HBM3 12.8 GT/s,速度提升1.5倍;銅纜和光纖傳輸速率將從100 Gb/s提升至224/448 Gb/s,增長4倍;PCIe和CXL傳輸速率將從32 GT/s提升至128 GT/s,同樣增長4倍;無線通信將從5G的10 Gbit/s躍升至6G的100+ Gbit/s,速度提升10倍。這些技術(shù)升級對測試工具提出了更高的要求:測試設(shè)備不僅需要支持更高的帶寬,還必須能夠模擬和驗證這些高速系統(tǒng)在實際應(yīng)用中的表現(xiàn)。
此外,帶寬需求的增長并非僅通過提升硬件性能就能完全解決,優(yōu)化系統(tǒng)效率同樣至關(guān)重要。AI系統(tǒng)的性能瓶頸往往出現(xiàn)在數(shù)據(jù)傳輸和計算資源的協(xié)調(diào)上。例如,在AI訓練過程中,數(shù)據(jù)傳輸?shù)难舆t可能導致計算資源的閑置,進而影響整體效率。因此,測試工具需要能夠在系統(tǒng)級別模擬真實的工作負載,識別潛在的瓶頸,并提供優(yōu)化建議。
“坦白說,現(xiàn)在的算力中心、數(shù)據(jù)中心里,很多設(shè)備和系統(tǒng)其實是還未完善便被在短時間內(nèi)部署上崗的,它們的穩(wěn)定性并不理想。如果仔細去觀察和深入數(shù)據(jù)中心,會發(fā)現(xiàn)數(shù)據(jù)中心里會存在各種各樣的問題。”是德科技大中華區(qū)高速數(shù)字市場部經(jīng)理 李堅分享到,“總結(jié)來說,人工智能發(fā)展需要非常大的模型、大的算力和大的帶寬,而這些都給我們的技術(shù)和產(chǎn)業(yè)帶來很大的挑戰(zhàn)?!?
數(shù)據(jù)中心基礎(chǔ)設(shè)施的復(fù)雜挑戰(zhàn)
AI數(shù)據(jù)中心是支持AI應(yīng)用的核心基礎(chǔ)設(shè)施,但其復(fù)雜性帶來了多方面的挑戰(zhàn),主要集中在計算與內(nèi)存擴展、網(wǎng)絡(luò)性能優(yōu)化以及多重故障點的管理上。首先,計算與內(nèi)存擴展是AI訓練集群的基礎(chǔ)需求?,F(xiàn)代AI模型,如大型語言模型(LLM),可能包含數(shù)千億個參數(shù),需要數(shù)千個GPU組成的集群進行訓練。這對數(shù)據(jù)中心的計算能力和內(nèi)存帶寬提出了極高的要求。研究表明,GPU在AI訓練中的利用率往往不高,超過50%的GPU時間因數(shù)據(jù)等待而閑置:通信延遲占62%,計算占20%,內(nèi)存訪問占2%,其他重疊因素占16%(Keysight AI計算視覺GPU利用率,2025)。這種低效的資源利用率直接導致了訓練成本的增加和開發(fā)周期的延長。
其次,網(wǎng)絡(luò)性能是AI數(shù)據(jù)中心的一個關(guān)鍵瓶頸。AI數(shù)據(jù)中心的流量模式已經(jīng)從傳統(tǒng)的南北向(客戶端到服務(wù)器)轉(zhuǎn)向東西向(服務(wù)器到服務(wù)器),這意味著集群內(nèi)部的數(shù)據(jù)傳輸需求大幅增加。低延遲和高吞吐量成為網(wǎng)絡(luò)設(shè)計的核心目標。為了滿足這一需求,業(yè)界正在采用Scale Out(如InfiniBand和Ultra Ethernet)來減少延遲和擁堵,同時采用Scale Up(如NVLink、Infinity、UALink)將多個GPU集群視為一個統(tǒng)一的計算單元,支持超過10萬個GPU的超大規(guī)模訓練集群(Keysight網(wǎng)絡(luò)組件影響,2025)。然而,這種復(fù)雜的網(wǎng)絡(luò)架構(gòu)也增加了測試的難度:測試工具需要能夠在高負載下驗證網(wǎng)絡(luò)的穩(wěn)定性,同時識別潛在的擁堵點和延遲問題。
最后,多重故障點是AI數(shù)據(jù)中心的一個顯著挑戰(zhàn)。AI訓練任務(wù)的失敗率高達43%,其中網(wǎng)絡(luò)問題占21%,計算和驅(qū)動錯誤占22%,只有57%的任務(wù)能夠成功完成(Keysight訓練任務(wù)失敗分布,2025)。這些故障可能發(fā)生在硬件層面(如GPU過熱、網(wǎng)絡(luò)連接中斷)、軟件層面(如驅(qū)動兼容性問題)或數(shù)據(jù)層面(如數(shù)據(jù)損壞或丟失)。因此,測試方案必須能夠全面覆蓋所有可能的故障點,并提供有效的診斷工具,幫助工程師快速定位和解決問題。
網(wǎng)絡(luò)與組件的協(xié)同重要性
AI系統(tǒng)的性能高度依賴于其基礎(chǔ)設(shè)施中每個組件的協(xié)同工作。一個次優(yōu)的組件可能成為整個系統(tǒng)的瓶頸,拖慢整體性能。例如,在一個AI數(shù)據(jù)中心中,如果網(wǎng)絡(luò)交換機的延遲過高,可能導致GPU集群之間的數(shù)據(jù)傳輸效率下降,進而影響訓練速度。同樣,如果內(nèi)存帶寬不足,GPU可能無法及時獲取所需的數(shù)據(jù),導致計算資源的閑置。測試工具需要能夠在系統(tǒng)級別模擬這些組件的交互,驗證其協(xié)同工作的能力,并識別潛在的性能瓶頸。
此外,隨著AI數(shù)據(jù)中心規(guī)模的不斷擴大,測試的復(fù)雜性也在增加。傳統(tǒng)的測試方法往往專注于單個組件的性能,而忽視了系統(tǒng)級別的交互效應(yīng)。在AI場景下,這種方法已經(jīng)不再適用。測試方案需要能夠模擬真實的AI工作負載(如模型訓練、推理任務(wù)),并在高負載下驗證整個系統(tǒng)的性能和穩(wěn)定性。
是德科技KAI解決方案:應(yīng)對AI測試挑戰(zhàn)的利器
針對AI帶來的測試挑戰(zhàn),是德科技推出了KAI系列解決方案,旨在通過集成先進的硬件、軟件和AI驅(qū)動的分析能力,提供端到端的測試支持。KAI方案的核心目標是幫助工程師驗證AI系統(tǒng)的性能,優(yōu)化資源利用率,并加速開發(fā)和部署過程。通過結(jié)合是德科技在測試與測量領(lǐng)域的深厚經(jīng)驗,KAI為AI數(shù)據(jù)中心、通信網(wǎng)絡(luò)和其他關(guān)鍵應(yīng)用場景提供了強大的支持。
KAI方案的一個顯著優(yōu)勢是其能夠模擬真實的工作負載,并提供系統(tǒng)級別的測試能力。例如,KAI可以模擬大規(guī)模AI訓練集群的工作負載,驗證網(wǎng)絡(luò)、計算和存儲組件在高負載下的表現(xiàn)。此外,KAI還集成了AI驅(qū)動的分析工具,能夠自動識別性能瓶頸并提供優(yōu)化建議。這種智能化的測試方法不僅提高了測試效率,還幫助工程師更快速地解決復(fù)雜問題。
在KAI解決方案的框架下,是德科技推出了一系列新產(chǎn)品,專門針對AI測試中的核心挑戰(zhàn)。這些新品包括DCA-M采樣示波器、互連與網(wǎng)絡(luò)性能測試儀以及KAI數(shù)據(jù)中心構(gòu)建器,每款產(chǎn)品都為AI系統(tǒng)的驗證和優(yōu)化提供了獨特的功能。
DCA-M采樣示波器(型號:N1093A、N1093B)
DCA-M采樣示波器是專為高速通信系統(tǒng)設(shè)計的測試工具,支持224 Gb/s單通道和雙通道光學采樣能力。N1093A和N1093B型號特別適用于AI數(shù)據(jù)中心光模塊的信號完整性測試,能夠精確測量高速信號的眼圖、抖動等關(guān)鍵參數(shù)。通過其高精度采樣和實時分析功能,DCA-M示波器能夠幫助工程師快速識別信號傳輸中的潛在問題,確保AI系統(tǒng)的高速通信鏈路的可靠性。
李堅總結(jié)了DCA-M采樣示波器的三大特點:一是大帶寬;二是低抖動、低噪聲;三是全集成?!八饕嫦虻氖枪庑酒⒐饽K領(lǐng)域的客戶。光模塊或者電模塊打出信號以后,我們主要使用DCA-M采樣示波器來評估信號的質(zhì)量。這是一個純物理層的測試?!?
互連與網(wǎng)絡(luò)性能測試儀(型號:1.6T)
互連與網(wǎng)絡(luò)性能測試儀(型號1.6T)是專為高速網(wǎng)絡(luò)設(shè)計的測試工具,支持1.6T(224 Gb/s * 8通道)的1-3層網(wǎng)絡(luò)性能測試。該測試儀能夠模擬AI數(shù)據(jù)中心中的高密度網(wǎng)絡(luò)環(huán)境,驗證網(wǎng)絡(luò)設(shè)備的吞吐量、延遲和丟包率。
在AI數(shù)據(jù)中心中,網(wǎng)絡(luò)性能直接影響訓練任務(wù)的效率。例如,一個大型語言模型的訓練可能需要數(shù)千個GPU之間的頻繁數(shù)據(jù)交換。如果網(wǎng)絡(luò)存在擁堵或延遲,訓練速度將顯著下降。1.6T測試儀通過模擬真實的工作負載,幫助工程師識別網(wǎng)絡(luò)中的瓶頸,并優(yōu)化交換機和路由器的配置。此外,該測試儀還支持多協(xié)議測試,確保網(wǎng)絡(luò)設(shè)備能夠在不同的AI應(yīng)用場景中穩(wěn)定運行。
“該產(chǎn)品是包含層2、層3測試功能的分析儀,并且是高度集成的?!崩顖钥偨Y(jié)道,“它面向的客戶是一些光模塊、電模塊領(lǐng)域的廠商,以及生產(chǎn)網(wǎng)卡交換機的廠商。無論是研發(fā)還是生產(chǎn)都可以使用它?!?
KAI數(shù)據(jù)中心構(gòu)建器(工作負載仿真)
KAI數(shù)據(jù)中心構(gòu)建器是一款專注于工作負載仿真的軟件工具,旨在優(yōu)化AI數(shù)據(jù)中心的基礎(chǔ)設(shè)施。該工具能夠重放真實的AI工作負載(如模型訓練、推理任務(wù)),并對網(wǎng)絡(luò)的性能進行基準測試。
AI數(shù)據(jù)中心構(gòu)建器的核心功能在于其工作負載仿真能力。例如,它可以模擬一個包含多GPU的訓練集群,生成真實的數(shù)據(jù)流量。這種仿真能力對于驗證超大規(guī)模AI系統(tǒng)的穩(wěn)定性至關(guān)重要。此外,該工具還提供了詳細的性能報告,幫助工程師識別系統(tǒng)中的瓶頸,并制定優(yōu)化策略。例如,如果報告顯示網(wǎng)絡(luò)延遲是主要瓶頸,工程師可以通過調(diào)整交換機配置或增加帶寬來解決問題。
“現(xiàn)在網(wǎng)絡(luò)更新迭代的速度非???,GPU基本上1-2年就要更新一代,交換機其實也是同樣的情況。原來設(shè)計好的網(wǎng)絡(luò),換一個交換機使用,其原本的性能、參數(shù)可能就會發(fā)生變化。新安裝到系統(tǒng)中的設(shè)備會不會催生出一些新的問題?用戶可以在將設(shè)備安裝上去之前先用測試工具去測試一下?!崩顖越忉尩?,“我們提供的KAI數(shù)據(jù)中心構(gòu)建器就是這樣的測試工具,能夠幫助用戶比較好地定義AI網(wǎng)絡(luò)可能會出現(xiàn)的各種各樣的問題,讓用戶在真正在線網(wǎng)部署實施時將設(shè)備調(diào)通,從而將潛在的問題消滅于無形?!?
未來展望:AI測試的持續(xù)演進
隨著AI技術(shù)的不斷發(fā)展,其對測試與測量的需求也將持續(xù)演進。未來,AI系統(tǒng)將更加依賴于超大規(guī)模計算集群、超高速網(wǎng)絡(luò)和新型存儲技術(shù),這將進一步加劇測試的復(fù)雜性。例如,6G網(wǎng)絡(luò)的部署將帶來更高的帶寬和更低的延遲要求,而新型內(nèi)存技術(shù)(如HBM4)將需要更高的測試精度。為了應(yīng)對這些挑戰(zhàn),測試工具需要不斷創(chuàng)新,融入更多的AI技術(shù),以實現(xiàn)更高效、更智能的測試流程。
是德科技的KAI解決方案及其新產(chǎn)品矩陣為AI測試的未來奠定了堅實的基礎(chǔ)。通過結(jié)合高性能硬件、智能軟件和AI驅(qū)動的分析能力,KAI不僅能夠應(yīng)對當前的測試挑戰(zhàn),還能夠適應(yīng)未來的技術(shù)演進。例如,DCA-M示波器的高速采樣能力可以擴展到支持448 Gb/s的信號測試。此外,AI數(shù)據(jù)中心構(gòu)建器的工作負載仿真功能可以通過更新模型庫,支持新型AI工作負載的測試。
隨著AI市場的持續(xù)增長,是德科技的KAI解決方案將繼續(xù)在測試與測量領(lǐng)域發(fā)揮關(guān)鍵作用,推動AI技術(shù)以更高的可靠性和效率落地,為行業(yè)的未來發(fā)展注入新的動力。