10月16日消息,隨著AI行業(yè)的快速發(fā)展,計算能力的需求也在急劇上升,無論是通過硬件技術,還是大規(guī)模AI集群建設,企業(yè)都在努力提升其AI處理能力,然而這也帶來了巨大的能源消耗問題。
據分析師Ray Wang分享的數據,NVIDIA的AI服務器平臺在每一代的更新中都經歷了顯著的功耗增長,從Ampere到Kyber,功耗八年間增長了100倍。
這種巨大的功耗增長主要歸因于每一代每機架GPU數量的增加,以及每個GPU的TDP的提升。
例如在使用Hopper時,以每機架10KW的額定功率運行,而使用Blackwell時,由于GPU數量的增加,這一功率幾乎提升至120KW。
除了GPU數量的增加,其他因素如先進的NVLink/NVSwitch網絡架構、新一代機架設計以及持續(xù)的機架利用率,也導致了超大規(guī)模數據中心的能源消耗以驚人的速度增長。
如今,大型科技公司紛紛參與“誰擁有更大規(guī)模的AI機架”的競賽,衡量標準已經從傳統(tǒng)的計算能力轉變?yōu)椤凹?GW)”,像OpenAI和Meta等公司計劃在未來幾年內增加超過10吉瓦的計算能力。
作為對比,AI超大規(guī)模企業(yè)消耗的1吉瓦能源,足以供應大約100萬美國家庭,隨著大型科技公司紛紛建設大規(guī)模數據中心,單個數據中心的能耗已經相當于一個中等國家或幾個美國大州的用電量。
另外國際能源署(IEA)2025年的“能源與AI”研究報告估計,到2030年,AI的能源消耗將翻倍,幾乎是電網增長速度的四倍。