www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當前位置:首頁 > 廠商動態(tài) > 是德科技
[導讀]人工智能(AI)正以前所未有的速度向前發(fā)展,整個市場迫切需要更加強大、更加高效的數(shù)據(jù)中心來夯實技術底座。為此,各個國家以及不同類型的企業(yè)正在加大對人工智能基礎設施的投入。據(jù)《福布斯》報道,2025年,泛科技領域對人工智能的支出將超過2500億美元,其中大部分投入將用于基礎設施建設。到 2029 年,全球對包括數(shù)據(jù)中心、網(wǎng)絡和硬件在內(nèi)的人工智能基礎設施的投資將達到4230億美元。

人工智能(AI)正以前所未有的速度向前發(fā)展,整個市場迫切需要更加強大、更加高效的數(shù)據(jù)中心來夯實技術底座。為此,各個國家以及不同類型的企業(yè)正在加大對人工智能基礎設施的投入。據(jù)《福布斯》報道,2025年,泛科技領域對人工智能的支出將超過2500億美元,其中大部分投入將用于基礎設施建設。到 2029 年,全球對包括數(shù)據(jù)中心、網(wǎng)絡和硬件在內(nèi)的人工智能基礎設施的投資將達到4230億美元。

然而,人工智能技術的快速創(chuàng)新迭代也給數(shù)據(jù)中心網(wǎng)絡帶來了前所未有的壓力。例如,Meta最近發(fā)布的有關Llama 3 405B模型訓練集群的論文顯示,該模型在預訓練階段需要超過700 TB的內(nèi)存和16000顆英偉達H100 GPU芯片。據(jù)Epoch AI預計,到2030年,人工智能模型所需的計算能力將是目前領先模型的1萬倍。

如果企業(yè)擁有數(shù)據(jù)中心,那么部署人工智能只是時間問題。此篇是德科技署名文章旨在探討人工智能集群擴展面臨的關鍵挑戰(zhàn),同時揭示為何“網(wǎng)絡會是新的瓶頸”。

人工智能集群的崛起

所謂人工智能集群就是一個高度互聯(lián)的大型計算資源網(wǎng)絡,用于處理人工智能工作負載。

與傳統(tǒng)的計算集群不同,人工智能集群針對人工智能模型訓練、推理和實時分析等工作任務進行了優(yōu)化。它們依靠數(shù)千個GPU、高速互連和低時延的網(wǎng)絡來滿足人工智能對密集計算和數(shù)據(jù)吞吐量的要求。

建設人工智能集群

人工智能集群的核心功能類似于一個小型網(wǎng)絡。構建人工智能集群需要將GPU連接起來,形成一個高性能計算網(wǎng)絡,讓數(shù)據(jù)在GPU之間實現(xiàn)無縫傳輸。這其中強大的網(wǎng)絡連接至關重要,因為分布式訓練往往需要使用數(shù)千個GPU進行長時間并行計算。

人工智能集群的關鍵組成部分

如圖1所示,人工智能集群由多個重要部分組成。

圖1:AI數(shù)據(jù)中心集群

?計算節(jié)點如同人工智能集群的大腦,由成千上萬個GPU組成并連接到了機架頂部的交換機。隨著復雜性的提升,對GPU的需求也在增加。

?以太網(wǎng)等高速互聯(lián)技術可實現(xiàn)計算節(jié)點之間的快速數(shù)據(jù)傳輸。

?網(wǎng)絡基礎設施包括網(wǎng)絡硬件和協(xié)議,它們能夠支持在數(shù)千個GPU之間進行長時間的數(shù)據(jù)通信。

擴展人工智能集群

人工智能集群可進行擴展,以應對日益增長的人工智能工作負載和復雜性。直到近期,由于網(wǎng)絡帶寬、時延等因素的限制,人工智能集群的規(guī)模局限在約3萬個GPU。然而,xAI Colossus超級計算機項目打破了這一局限,將所使用的GPU數(shù)量擴展到了超過10萬顆英偉達H100 GPU芯片,網(wǎng)絡和內(nèi)存技術的進步使得這一突破成為可能。

擴展面臨的關鍵挑戰(zhàn)

隨著人工智能模型的相關參數(shù)增長到數(shù)萬億個,人工智能集群的擴展會遇到大量來自技術和財務層面的阻礙。

網(wǎng)絡挑戰(zhàn)

GPU可以有效地執(zhí)行并行計算。然而,當數(shù)千個甚至幾十萬個GPU在人工智能集群中共同執(zhí)行同一工作任務時,如果其中一個GPU缺乏所需的數(shù)據(jù)或遇到延遲等情況,其他GPU的工作就會停滯不前。這種長時間的數(shù)據(jù)包延遲或網(wǎng)絡擁堵造成的數(shù)據(jù)包丟失會導致需要重新傳輸數(shù)據(jù)包,從而大幅延長了任務完成時間(JCT),造成價值數(shù)百萬美元的GPU閑置。

此外,人工智能工作負載產(chǎn)生的東西向流量,也就是數(shù)據(jù)中心內(nèi)部計算節(jié)點之間的數(shù)據(jù)遷移,急劇增加,如果傳統(tǒng)的網(wǎng)絡基礎設施沒有針對這些負載進行優(yōu)化,可能會出現(xiàn)網(wǎng)絡擁堵和延遲問題。

互聯(lián)挑戰(zhàn)

隨著人工智能集群規(guī)模的拓展,傳統(tǒng)的互連技術可能難以支持必要的吞吐量。為了避免瓶頸問題,企業(yè)必須進行升級迭代,采用更高速的互連技術,如800G甚至1.6T的解決方案。然而,要滿足人工智能工作負載的嚴格要求,部署和驗證此類高速鏈路并非易事。高速串行路徑必須經(jīng)過仔細調(diào)試和測試,以確保最佳的信號完整性、較低的誤碼率和長距可靠的前向糾錯(FEC)性能。高速串行路徑中的任何不穩(wěn)定因素都會降低可靠性并減慢人工智能訓練的速度。企業(yè)需要采用高精度、高效率的測試系統(tǒng),在高速互聯(lián)技術部署前對其進行驗證。

財務挑戰(zhàn)

擴展人工智能集群的總成本遠遠不止于購買GPU的花費。企業(yè)必須將電源、冷卻、網(wǎng)絡設備和更廣泛的數(shù)據(jù)中心基礎設施等相關投入考慮在內(nèi)。然而,通過采用更出色的互連技術并借助經(jīng)過優(yōu)化的網(wǎng)絡性能來加速處理人工智能工作負載,可以縮短訓練周期,并釋放資源用于執(zhí)行其他任務。這也意味著每節(jié)省一天的培訓時間,就能大幅降低成本,因此對于財務風險和技術風險需要給予同等的重視。

測試和驗證面臨的挑戰(zhàn)

優(yōu)化人工智能集群的網(wǎng)絡性能需要對網(wǎng)絡架構和GPU之間的互連技術進行性能測試和基準測試。然而,由于硬件、架構設計和動態(tài)工作負載特性之間的關系錯綜復雜,對這些器件和系統(tǒng)進行驗證具有很大的挑戰(zhàn)性。主要有三個常見的驗證問題需要解決。

第一,實驗室部署方面的限制

人工智能硬件成本高昂、可用的設備有限以及對專業(yè)網(wǎng)絡工程師的需求缺口,使得全盤復制變得不切實際。此外,實驗室環(huán)境通常在空間、電力和散熱方面受到限制,與現(xiàn)實世界的數(shù)據(jù)中心條件不同。

第二,對生產(chǎn)系統(tǒng)的影響

減少對生產(chǎn)系統(tǒng)的測試可能會造成破壞,并影響關鍵的人工智能操作。

第三,復雜的人工智能工作負載

人工智能工作負載和數(shù)據(jù)集的性質(zhì)多種多樣,在規(guī)模和通信模式上也有很大差異,因此很難重現(xiàn)問題并執(zhí)行一致性的基準測試。

人工智能將重塑數(shù)據(jù)中心的產(chǎn)業(yè)格局,因此構建面向未來的網(wǎng)絡基礎設施對于在技術和標準快速演進的過程中保持領先地位至關重要。是德科技先進的仿真解決方案可在部署前對網(wǎng)絡協(xié)議和系統(tǒng)運行的場景進行全面驗證,進而幫助企業(yè)獲得關鍵優(yōu)勢。是德科技致力于幫助網(wǎng)絡工程師降低人工智能工作負載的復雜性并優(yōu)化網(wǎng)絡性能,從而確保系統(tǒng)的可擴展性、效率,并為應對人工智能需求做好充分準備。

作者:是德科技產(chǎn)品營銷經(jīng)理Emily Yan

本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

拉斯維加斯2025年9月11日 /美通社/ -- 在9月8日至11日舉辦的RE+ 2025展會上,全球綜合儲能解決方案供應商德賽電池(Desay Battery)全面展示了其創(chuàng)新成果,并宣布與深圳市華寶新能源股份有限公司...

關鍵字: 電池 電芯 人工智能 鋰電

AI賦能制造,黃埔匯聚全球新機遇 廣州2025年9月11日 /美通社/ -- 2025年9月10日,由廣州開發(fā)區(qū)投資集團有限公司、廣州開發(fā)區(qū)黃埔區(qū)具身智能機器人產(chǎn)業(yè)發(fā)展促進會、華南美國商會共同主辦的"2025...

關鍵字: 智能制造 AI 人工智能 供應鏈

香港2025年9月11日 /美通社/ -- 華欽科技集團(納斯達克代碼:CLPS,以下簡稱"華欽科技"或"集團")近日宣布成功利用人工智能(AI),包括微軟Copilot等客戶指定AI模型,完成對一家香港大型銀行30年歷...

關鍵字: 人工智能 PS REACT 測試

天津2025年9月11日 /美通社/ -- 國際能源署(IEA)數(shù)據(jù)顯示,2024 年全球數(shù)據(jù)中心電力消耗達 415 太瓦時,占全球總用電量的 1.5%,預計到 2030 年,這一數(shù)字將飆升至 945 太瓦時,近乎翻番,...

關鍵字: 模型 AI 數(shù)據(jù)中心 BSP

在科技飛速發(fā)展的當下,人工智能與邊緣計算的融合正以前所未有的速度重塑著我們的生活。RK3576芯片擁有4核Cortex-A72以及4核Cortex-A53提供基礎算力,6TOPS算力NPU來模型推導運算。使用YOLOv8...

關鍵字: 人工智能 邊緣計算 YOLOv8模型

PCIe(Peripheral Component Interconnect Express)是為現(xiàn)代服務器和計算機添加顯卡和網(wǎng)卡等關鍵外設的首選總線,也是推動生成式AI、全球超大規(guī)模數(shù)據(jù)中心以及其他許多領域發(fā)展的重要硬...

關鍵字: 生成式AI 數(shù)據(jù)中心 服務器

廣州2025年9月9日 /美通社/ -- 在2025年柏林國際消費電子展(IFA  2025)上,來自中國的清潔能源科技企業(yè),廣州疆??萍加邢薰荆ㄕ魍兀┮云淝把氐?..

關鍵字: 新能源 消費電子展 人工智能 清潔能源

從電動出行到綠色算力,以全領域創(chuàng)新助力可持續(xù)發(fā)展

關鍵字: AI 數(shù)據(jù)中心 電源

上海2025年9月9日 /美通社/ -- 為全面落實黨中央、國務院和上海市委、市政府關于加快發(fā)展人力資源服務業(yè)的決策部署,更好發(fā)揮人力資源服務業(yè)賦能百業(yè)作用,8月29日,以"AI智領 HR智鏈 靜候你來&quo...

關鍵字: 智能體 AI BSP 人工智能

深圳2025年9月9日 /美通社/ -- 2025年9月3日,國際獨立第三方檢測、檢驗和認證機構德國萊茵TÜV大中華區(qū)(以下簡稱"TÜV萊茵&q...

關鍵字: 研討會 汽車行業(yè) ISO 人工智能
關閉