AI訓練:從算力到網絡的系統工程優(yōu)化——是德科技KAI解決方案的應對之道
AI訓練不僅是“算力游戲”,更是“網絡與系統工程”。根據實際案例,GPU在“真正計算”的工作時間不超過20%;超過一半時間被網絡/數據傳輸拖慢。而且訓練成功率也差強人意,總體成功率僅57%,意味著>43%的訓練任務被中斷或失敗。在資源最密集的LLM訓練中,僅靠算力是不夠的——網絡可靠性和系統組件的穩(wěn)定性同樣至關重要,必須在系統級別優(yōu)化網絡吞吐、延遲及通信協議,否則大量算力浪費在重試或錯誤恢復上。網絡性能和組件協同工作是AI集群效率的關鍵,任何單一環(huán)節(jié)的不足都可能顯著影響整體系統表現,凸顯了系統級驗證和優(yōu)化需求的重要性。
人工智能(AI)技術的飛速發(fā)展正在深刻改變全球科技格局,其在數據中心、通信網絡、自動駕駛、醫(yī)療健康和工業(yè)制造等領域的廣泛應用,不僅推動了技術創(chuàng)新,也對測試與測量領域提出了前所未有的挑戰(zhàn)。AI的高計算需求、大規(guī)模數據處理以及實時決策能力,使傳統測試方法顯得力不從心。尤其是隨著AI系統復雜性的不斷提升,如何在開發(fā)和部署過程中確保其性能、穩(wěn)定性和可靠性,成為了行業(yè)亟待解決的難題。
是德科技(Keysight Technologies),作為測試與測量領域的全球領導者,深刻認識到AI帶來的這些挑戰(zhàn),并推出了KAI(Keysight Artificial Intelligence)系列解決方案,旨在通過創(chuàng)新的測試工具和策略,為AI系統的開發(fā)和部署提供強有力的支持。
是德科技大中華區(qū)高速數字市場部經理李堅
AI帶來的測試挑戰(zhàn)
AI技術的快速發(fā)展為各行業(yè)帶來了巨大的市場機遇,但同時也伴隨著嚴峻的測試挑戰(zhàn)。綜合多家市場研究機構的預測,全球AI市場規(guī)模預計將從2022年的869億美元增長到2030年的1.3萬億美元,2024年到2030年的年均復合增長率高達35.7%,并將為美國GDP貢獻21%的凈增長(到2030年)。這一迅猛增長的背后,是AI系統對計算能力、數據處理和網絡性能的極高要求,而這些需求直接導致了測試領域的多重挑戰(zhàn)。
AI系統的核心在于其高性能計算和大規(guī)模數據處理能力,這直接推動了對帶寬的極高需求。當前的AI應用場景,如大規(guī)模語言模型訓練、實時圖像識別和自動駕駛決策,要求系統能夠在極短時間內處理海量數據。這意味著測試驗證必須在系統級別進行,以確保所有組件能夠在高負載下協同工作。未來3到5年內,技術將迎來顯著的轉折點:以太網速度將從400/800G升級至1.6/3.2T,帶寬提升4倍;內存技術將從DDR5 8.4 GT/s發(fā)展到DDR6/HBM3 12.8 GT/s,速度提升1.5倍;銅纜和光纖傳輸速率將從100 Gb/s提升至224/448 Gb/s,增長4倍;PCIe和CXL傳輸速率將從32 GT/s提升至128 GT/s,同樣增長4倍;無線通信將從5G的10 Gbit/s躍升至6G的100+ Gbit/s,速度提升10倍。這些技術升級對測試工具提出了更高的要求:測試設備不僅需要支持更高的帶寬,還必須能夠模擬和驗證這些高速系統在實際應用中的表現。
此外,帶寬需求的增長并非僅通過提升硬件性能就能完全解決,優(yōu)化系統效率同樣至關重要。AI系統的性能瓶頸往往出現在數據傳輸和計算資源的協調上。例如,在AI訓練過程中,數據傳輸的延遲可能導致計算資源的閑置,進而影響整體效率。因此,測試工具需要能夠在系統級別模擬真實的工作負載,識別潛在的瓶頸,并提供優(yōu)化建議。
“坦白說,現在的算力中心、數據中心里,很多設備和系統其實是還未完善便被在短時間內部署上崗的,它們的穩(wěn)定性并不理想。如果仔細去觀察和深入數據中心,會發(fā)現數據中心里會存在各種各樣的問題?!笔堑驴萍即笾腥A區(qū)高速數字市場部經理 李堅分享到,“總結來說,人工智能發(fā)展需要非常大的模型、大的算力和大的帶寬,而這些都給我們的技術和產業(yè)帶來很大的挑戰(zhàn)。”
數據中心基礎設施的復雜挑戰(zhàn)
AI數據中心是支持AI應用的核心基礎設施,但其復雜性帶來了多方面的挑戰(zhàn),主要集中在計算與內存擴展、網絡性能優(yōu)化以及多重故障點的管理上。首先,計算與內存擴展是AI訓練集群的基礎需求?,F代AI模型,如大型語言模型(LLM),可能包含數千億個參數,需要數千個GPU組成的集群進行訓練。這對數據中心的計算能力和內存帶寬提出了極高的要求。研究表明,GPU在AI訓練中的利用率往往不高,超過50%的GPU時間因數據等待而閑置:通信延遲占62%,計算占20%,內存訪問占2%,其他重疊因素占16%(Keysight AI計算視覺GPU利用率,2025)。這種低效的資源利用率直接導致了訓練成本的增加和開發(fā)周期的延長。
其次,網絡性能是AI數據中心的一個關鍵瓶頸。AI數據中心的流量模式已經從傳統的南北向(客戶端到服務器)轉向東西向(服務器到服務器),這意味著集群內部的數據傳輸需求大幅增加。低延遲和高吞吐量成為網絡設計的核心目標。為了滿足這一需求,業(yè)界正在采用Scale Out(如InfiniBand和Ultra Ethernet)來減少延遲和擁堵,同時采用Scale Up(如NVLink、Infinity、UALink)將多個GPU集群視為一個統一的計算單元,支持超過10萬個GPU的超大規(guī)模訓練集群(Keysight網絡組件影響,2025)。然而,這種復雜的網絡架構也增加了測試的難度:測試工具需要能夠在高負載下驗證網絡的穩(wěn)定性,同時識別潛在的擁堵點和延遲問題。
最后,多重故障點是AI數據中心的一個顯著挑戰(zhàn)。AI訓練任務的失敗率高達43%,其中網絡問題占21%,計算和驅動錯誤占22%,只有57%的任務能夠成功完成(Keysight訓練任務失敗分布,2025)。這些故障可能發(fā)生在硬件層面(如GPU過熱、網絡連接中斷)、軟件層面(如驅動兼容性問題)或數據層面(如數據損壞或丟失)。因此,測試方案必須能夠全面覆蓋所有可能的故障點,并提供有效的診斷工具,幫助工程師快速定位和解決問題。
網絡與組件的協同重要性
AI系統的性能高度依賴于其基礎設施中每個組件的協同工作。一個次優(yōu)的組件可能成為整個系統的瓶頸,拖慢整體性能。例如,在一個AI數據中心中,如果網絡交換機的延遲過高,可能導致GPU集群之間的數據傳輸效率下降,進而影響訓練速度。同樣,如果內存帶寬不足,GPU可能無法及時獲取所需的數據,導致計算資源的閑置。測試工具需要能夠在系統級別模擬這些組件的交互,驗證其協同工作的能力,并識別潛在的性能瓶頸。
此外,隨著AI數據中心規(guī)模的不斷擴大,測試的復雜性也在增加。傳統的測試方法往往專注于單個組件的性能,而忽視了系統級別的交互效應。在AI場景下,這種方法已經不再適用。測試方案需要能夠模擬真實的AI工作負載(如模型訓練、推理任務),并在高負載下驗證整個系統的性能和穩(wěn)定性。
是德科技KAI解決方案:應對AI測試挑戰(zhàn)的利器
針對AI帶來的測試挑戰(zhàn),是德科技推出了KAI系列解決方案,旨在通過集成先進的硬件、軟件和AI驅動的分析能力,提供端到端的測試支持。KAI方案的核心目標是幫助工程師驗證AI系統的性能,優(yōu)化資源利用率,并加速開發(fā)和部署過程。通過結合是德科技在測試與測量領域的深厚經驗,KAI為AI數據中心、通信網絡和其他關鍵應用場景提供了強大的支持。
KAI方案的一個顯著優(yōu)勢是其能夠模擬真實的工作負載,并提供系統級別的測試能力。例如,KAI可以模擬大規(guī)模AI訓練集群的工作負載,驗證網絡、計算和存儲組件在高負載下的表現。此外,KAI還集成了AI驅動的分析工具,能夠自動識別性能瓶頸并提供優(yōu)化建議。這種智能化的測試方法不僅提高了測試效率,還幫助工程師更快速地解決復雜問題。
在KAI解決方案的框架下,是德科技推出了一系列新產品,專門針對AI測試中的核心挑戰(zhàn)。這些新品包括DCA-M采樣示波器、互連與網絡性能測試儀以及KAI數據中心構建器,每款產品都為AI系統的驗證和優(yōu)化提供了獨特的功能。
DCA-M采樣示波器(型號:N1093A、N1093B)
DCA-M采樣示波器是專為高速通信系統設計的測試工具,支持224 Gb/s單通道和雙通道光學采樣能力。N1093A和N1093B型號特別適用于AI數據中心光模塊的信號完整性測試,能夠精確測量高速信號的眼圖、抖動等關鍵參數。通過其高精度采樣和實時分析功能,DCA-M示波器能夠幫助工程師快速識別信號傳輸中的潛在問題,確保AI系統的高速通信鏈路的可靠性。
李堅總結了DCA-M采樣示波器的三大特點:一是大帶寬;二是低抖動、低噪聲;三是全集成?!八饕嫦虻氖枪庑酒?、光模塊領域的客戶。光模塊或者電模塊打出信號以后,我們主要使用DCA-M采樣示波器來評估信號的質量。這是一個純物理層的測試?!?
互連與網絡性能測試儀(型號:1.6T)
互連與網絡性能測試儀(型號1.6T)是專為高速網絡設計的測試工具,支持1.6T(224 Gb/s * 8通道)的1-3層網絡性能測試。該測試儀能夠模擬AI數據中心中的高密度網絡環(huán)境,驗證網絡設備的吞吐量、延遲和丟包率。
在AI數據中心中,網絡性能直接影響訓練任務的效率。例如,一個大型語言模型的訓練可能需要數千個GPU之間的頻繁數據交換。如果網絡存在擁堵或延遲,訓練速度將顯著下降。1.6T測試儀通過模擬真實的工作負載,幫助工程師識別網絡中的瓶頸,并優(yōu)化交換機和路由器的配置。此外,該測試儀還支持多協議測試,確保網絡設備能夠在不同的AI應用場景中穩(wěn)定運行。
“該產品是包含層2、層3測試功能的分析儀,并且是高度集成的?!崩顖钥偨Y道,“它面向的客戶是一些光模塊、電模塊領域的廠商,以及生產網卡交換機的廠商。無論是研發(fā)還是生產都可以使用它?!?
KAI數據中心構建器(工作負載仿真)
KAI數據中心構建器是一款專注于工作負載仿真的軟件工具,旨在優(yōu)化AI數據中心的基礎設施。該工具能夠重放真實的AI工作負載(如模型訓練、推理任務),并對網絡的性能進行基準測試。
AI數據中心構建器的核心功能在于其工作負載仿真能力。例如,它可以模擬一個包含多GPU的訓練集群,生成真實的數據流量。這種仿真能力對于驗證超大規(guī)模AI系統的穩(wěn)定性至關重要。此外,該工具還提供了詳細的性能報告,幫助工程師識別系統中的瓶頸,并制定優(yōu)化策略。例如,如果報告顯示網絡延遲是主要瓶頸,工程師可以通過調整交換機配置或增加帶寬來解決問題。
“現在網絡更新迭代的速度非???,GPU基本上1-2年就要更新一代,交換機其實也是同樣的情況。原來設計好的網絡,換一個交換機使用,其原本的性能、參數可能就會發(fā)生變化。新安裝到系統中的設備會不會催生出一些新的問題?用戶可以在將設備安裝上去之前先用測試工具去測試一下?!崩顖越忉尩?,“我們提供的KAI數據中心構建器就是這樣的測試工具,能夠幫助用戶比較好地定義AI網絡可能會出現的各種各樣的問題,讓用戶在真正在線網部署實施時將設備調通,從而將潛在的問題消滅于無形?!?
未來展望:AI測試的持續(xù)演進
隨著AI技術的不斷發(fā)展,其對測試與測量的需求也將持續(xù)演進。未來,AI系統將更加依賴于超大規(guī)模計算集群、超高速網絡和新型存儲技術,這將進一步加劇測試的復雜性。例如,6G網絡的部署將帶來更高的帶寬和更低的延遲要求,而新型內存技術(如HBM4)將需要更高的測試精度。為了應對這些挑戰(zhàn),測試工具需要不斷創(chuàng)新,融入更多的AI技術,以實現更高效、更智能的測試流程。
是德科技的KAI解決方案及其新產品矩陣為AI測試的未來奠定了堅實的基礎。通過結合高性能硬件、智能軟件和AI驅動的分析能力,KAI不僅能夠應對當前的測試挑戰(zhàn),還能夠適應未來的技術演進。例如,DCA-M示波器的高速采樣能力可以擴展到支持448 Gb/s的信號測試。此外,AI數據中心構建器的工作負載仿真功能可以通過更新模型庫,支持新型AI工作負載的測試。
隨著AI市場的持續(xù)增長,是德科技的KAI解決方案將繼續(xù)在測試與測量領域發(fā)揮關鍵作用,推動AI技術以更高的可靠性和效率落地,為行業(yè)的未來發(fā)展注入新的動力。