助力數(shù)據(jù)中心提升關(guān)鍵負(fù)載的每瓦性能——Arm發(fā)布新一代Neoverse N3、V3及計算子系統(tǒng)(CSS)
隨著通用人工智能的發(fā)展,數(shù)據(jù)中心的計算需求逐步提高。針對多模態(tài)數(shù)據(jù)、大模型的推理和訓(xùn)練需要更高的算力支持,而隨著算力提升與之而來的還需更關(guān)注在功耗方面的優(yōu)化。對于頭部云計算和服務(wù)廠商而言,針對專門用例提高每瓦性能變得至關(guān)重要。而這就需要其在CPU的IP微架構(gòu)層面就開始著手優(yōu)化設(shè)計,且需要極高的靈活性和豐厚的軟件生態(tài)能力。Arm Neoverse系列正是迎合了這部分技術(shù)發(fā)展趨勢,自推出至今,已經(jīng)獲得了諸多頭部云服務(wù)廠商的認(rèn)可,基于Neoverse推出的定制服務(wù)器CPU也幫助云服務(wù)客戶獲得了更具效益的計算服務(wù)。而在近日,Arm又推出了其全新的新一代Arm Neoverse N3和Arm Neoverse V3,并且同步提供了Arm Neoverse CSS N3和Arm Neoverse CSS V3;這也是Arm首次提供基于高性能的Neoverse V系列的計算子系統(tǒng)。
云計算基礎(chǔ)設(shè)施領(lǐng)域:通過定制芯片支持云計算關(guān)鍵負(fù)載優(yōu)化
據(jù)Arm 基礎(chǔ)設(shè)施事業(yè)部產(chǎn)品解決方案副總裁Dermot O’Driscoll介紹,當(dāng)前基礎(chǔ)設(shè)施領(lǐng)域正在發(fā)生顛覆性的變化,頭部企業(yè)正在通過打造定制芯片,來支持云計算在關(guān)鍵工作負(fù)載中的計算優(yōu)化。頭部云計算廠商關(guān)注的性能提升非常極致,期望獲得的是最佳的每瓦性能。他們對于自己的數(shù)據(jù)中心、計算設(shè)備及運行其中的工作負(fù)載非常熟悉,正在嘗試對基礎(chǔ)設(shè)施的每一層都進(jìn)行優(yōu)化,從而讓多樣化的工作負(fù)載獲得最佳性能,以期實現(xiàn)每瓦性能的提升。
這種來自不同用例、不同工作負(fù)載的每瓦性能,無法通過一個統(tǒng)一的基準(zhǔn)測試來量化比較,而是需要針對這些多樣性的用例來專門調(diào)校。過去軟件和硬件分別是來自不同公司開發(fā),這種傳統(tǒng)的模式顯然已無法實現(xiàn)對于特定用例特定負(fù)載的每瓦性能調(diào)校;云服務(wù)廠商希望能夠在硬件的微架構(gòu)層面,就開展軟硬件的協(xié)同開發(fā),實現(xiàn)緊密耦合,從而確保自身的軟硬件適配得以順利進(jìn)行。這種聯(lián)合優(yōu)化,需要一個開放的靈活的CPU的IP平臺,并且軟硬件雙方都需要做出巨大的投入。
而談到通過定制計算來滿足這種微架構(gòu)層面的軟硬件協(xié)同優(yōu)化,就不得不提到Arm Neoverse平臺。通過Arm的努力,當(dāng)前這種基礎(chǔ)設(shè)施中的協(xié)同設(shè)計已經(jīng)不僅僅局限于 CPU,還能擴(kuò)展到平臺級別進(jìn)行內(nèi)存和 I/O的調(diào)優(yōu),進(jìn)一步優(yōu)化 TCO。
去年,Arm在Neoverse平臺的產(chǎn)品線擴(kuò)展出計算子系統(tǒng)(CSS),首款產(chǎn)品為Neoverse CSS N2。這是一套完整驗證和優(yōu)化的計算子系統(tǒng),兼顧了各種關(guān)鍵用例的配置優(yōu)化,可大大縮短了客戶的開發(fā)流程,讓其可以輕松實現(xiàn)芯片棧的管理,使其免于各類IP的復(fù)雜選擇和組合,而是專注于軟件調(diào)優(yōu)和定制加速這些能夠形成差異化競爭力的部分。
“計算正越來越專用化,通用CPU已不再能滿足需求。在基礎(chǔ)設(shè)施領(lǐng)域,我們看到的轉(zhuǎn)型持續(xù)朝向更復(fù)雜的倉庫級計算,它不再只關(guān)乎芯片、服務(wù)器或機架,而是關(guān)乎整個數(shù)據(jù)中心?!盇rm高級副總裁兼基礎(chǔ)設(shè)施事業(yè)部總經(jīng)理 Mohamed Awad分享到,“借助 Neoverse CSS,Arm正在助力合作伙伴加快創(chuàng)新步伐。憑借新的Arm Neoverse CSS N3和CSS V3,我們專注于釋放芯粒等新技術(shù)的潛力,并更大限度地優(yōu)化實際工作負(fù)載的 TCO,這對于包括 AI、數(shù)據(jù)庫、網(wǎng)絡(luò)等在內(nèi)的整個基礎(chǔ)設(shè)施的生態(tài)系統(tǒng)至關(guān)重要?!?
第三代Arm Neoverse:構(gòu)建高性能IP計算子系統(tǒng),提高AI應(yīng)用關(guān)鍵負(fù)載的計算效能
不斷地迭代提升,實現(xiàn)卓越性能,是ArmNeoverse的成功要素之一。而在第三代平臺上,我們也看到了非常大的提升。
據(jù)官方介紹,相較Neoverse N2,Neoverse N3可在多種工作負(fù)載下實現(xiàn)20%的每瓦效能效率提升;而且Neoverse N3配備了2MB L2級緩存的選項,在機器學(xué)習(xí)工作負(fù)載上的性能提升了三倍。而CSS N3正是基于新的Neoverse N3 核心打造,為新的N系列引入了Armv9.2功能,每個核心都具備了2MB的專用L2 緩存,并支持最新的PCIe和CXL I/O標(biāo)準(zhǔn)以及UCIe芯粒標(biāo)準(zhǔn)。CSS N3的首個實例可提供32核配置,熱設(shè)計功耗 (TDP) 低至40W。此外CSS N3的可擴(kuò)展性非常強,可覆蓋電信、網(wǎng)絡(luò)和DPU等一系列應(yīng)用。
而Arm Neoverse V3 CPU則是專門針對云端應(yīng)用、高效能運算(HPC) 和機器學(xué)習(xí)(ML) 工作負(fù)載提供最高效能計算。Arm Neoverse V3系列支持高性能浮點和向量指令,具有SVE/SVE2、Bfloat16和Int8 MatMul等功能;L2級緩存達(dá)到了3MB;支持Arm機密計算架構(gòu),可在內(nèi)存中實現(xiàn)數(shù)據(jù)完全加密。而基于Neoverse V3而來的計算子系統(tǒng)——CSS V3,在單芯片上最多可擴(kuò)展至128核,并支持最新的高速內(nèi)存和I/O標(biāo)準(zhǔn)。
據(jù)Dermot O’Driscoll介紹,相較于前一代Neoverse平臺,新一代的Neoverse N3和V3在各種關(guān)鍵工作負(fù)載下都實現(xiàn)了全面的提升?!癗 系列在壓縮方面取得了性能優(yōu)勢,可降低云服務(wù)運營商的成本,并最終降低云服務(wù)客戶的成本。同樣地,V 系列顯著提高了協(xié)議緩沖區(qū)的性能,這是在數(shù)據(jù)中心內(nèi)傳輸數(shù)據(jù)的一項關(guān)鍵功能?!?
而令人關(guān)注的是,在AI數(shù)據(jù)分析 (AI data analytics)這一項中新一代Neoverse的提升顯著。而這種顯著的提升來自Neoverse在微架構(gòu)層面針對XGBoost算法的適配優(yōu)化,通過分析合作伙伴的關(guān)鍵工作負(fù)載核心的特定關(guān)鍵任務(wù)算法,Arm能夠明確并實施對提升性能最有效的微架構(gòu)調(diào)整方法:這包括改進(jìn)分支預(yù)測、更好地管理最后一級緩存和相關(guān)內(nèi)存帶寬、以及大幅增加 L2 緩存等一系列微架構(gòu)調(diào)優(yōu)等等,最終讓Neoverse N3相比上一代在AI數(shù)據(jù)分析工作負(fù)載上提升高達(dá)196%。
而針對這兩年熱門的生成式AI應(yīng)用,目前行業(yè)的重點更多放在大語言模型(LLM)的訓(xùn)練上;然而隨著生成式 AI 廣泛應(yīng)用于實際業(yè)務(wù)場景,其計算的工作重點將轉(zhuǎn)向推理。這一轉(zhuǎn)變意味著要找到合適的模型和模型配置并加以訓(xùn)練,然后將其部署到更具成本效益的計算基礎(chǔ)設(shè)施上。而Arm的Neoverse系列CPU則具備滿足這一轉(zhuǎn)變的優(yōu)勢,包括:非常優(yōu)異的Token生成吞吐量表現(xiàn);非常高的靈活度,可以適配更多工作負(fù)載;易于部署,并可支持各種軟件框架;具備低成本和高能效等優(yōu)勢。Dermot O’Driscoll表示,“CPU推理將是生成式AI計算應(yīng)用的關(guān)鍵組成。目前可以看到這些工作負(fù)載已從ML專用的Neoverse功能(如 Bfloat16、MatMul、SVE 和 SVE2)的微架構(gòu)優(yōu)化中受益,而且這一趨勢還將繼續(xù)。”
釋放芯粒的潛力,實現(xiàn)加速器和CPU緊密耦合
顯然為了實現(xiàn)更好的特定任務(wù)的計算效能,將所有的計算任務(wù)都通過CPU來運行并不是最佳選擇;而通過特定的AI加速器來實現(xiàn)特定計算加速會是一種更常見的做法。據(jù)統(tǒng)計,當(dāng)前布局在AI加速器領(lǐng)域的公司已經(jīng)接近80家。最引人注目的當(dāng)屬英偉達(dá)的Grace Hopper超級芯片,該芯片不僅利用了領(lǐng)先的 Hopper GPU,同時也使用了基于 Neoverse V2平臺的緊耦合計算芯粒 Grace,實現(xiàn)了內(nèi)存容量和共享內(nèi)存模式。這種緊耦合的CPU加上加速器配置,對大參數(shù) LLM 非常有益,對檢索-增強-生成 (RAG) 等新興方法也很有幫助。
通過通用計算芯粒+AI加速器的配置,來打造適合特定業(yè)務(wù)的專用AI計算芯片,已經(jīng)成為了業(yè)界的趨勢。通過芯粒技術(shù),可以讓芯片公司在單一芯片上實現(xiàn)多種不同工藝節(jié)點芯粒的組合,例如使用較舊的工藝節(jié)點處理 I/O,同時搭配先進(jìn)的工藝節(jié)點處理邏輯功能,從而實現(xiàn)更高性能和更高能效表現(xiàn)、同時兼顧更高良率的AI計算芯片。
但將不同的芯粒組合在一起,面臨著諸多的挑戰(zhàn),例如物理層的兼容性問題、協(xié)議層的打通、包括系統(tǒng)架構(gòu)層面的電源管理、內(nèi)存訪問和安全等等一系列的問題。要將多個芯粒組合在一起構(gòu)成一個可互操作的系統(tǒng),就需要在生態(tài)系統(tǒng)的層面做出一致的努力。
而Arm正在致力于推動構(gòu)建一個功能強大、支持通用的芯粒生態(tài)系統(tǒng)。在其近期發(fā)布的芯粒系統(tǒng)架構(gòu) (Chiplet System Architecture, CSA) 中,Arm聯(lián)手了業(yè)內(nèi)20多家合作伙伴,旨在簡化基于CSS打造的計算芯粒與AI加速器并行使用的聯(lián)合設(shè)計過程,進(jìn)而推動整個Arm生態(tài)系統(tǒng)釋放芯粒技術(shù)的潛力。
而CSA的成功構(gòu)建的背后,離不開來自Arm全面設(shè)計(Arm Total Design)這一強大的生態(tài)的支持。據(jù)Arm基礎(chǔ)設(shè)施事業(yè)部營銷副總裁Eddie Ramirez介紹,Arm 全面設(shè)計已經(jīng)有20多家成員加入,其中包括新的EDA和配套IP提供商,以及來自包括韓國、中國臺灣、中國大陸和印度等戰(zhàn)略市場的芯片設(shè)計合作伙伴。Arm目前正在與三家主要代工廠展開積極合作,以確保其CSS產(chǎn)品能在其先進(jìn)工藝節(jié)點上進(jìn)行優(yōu)化。客戶的定制芯片的成功離不開可靠供應(yīng)鏈的支持,而Arm能夠給這些客戶提供多樣的技術(shù)和選擇。
像Socionext已經(jīng)宣布將會推出基于臺積電領(lǐng)先的2nm工藝開發(fā)的Neoverse CSS V3芯粒,這款配置 32 核的芯粒可與其他芯粒結(jié)合使用,能夠?qū)崿F(xiàn)經(jīng)濟(jì)高效的可拓展計算方案。
通過Arm全面設(shè)計和CSA,Arm正在將幫助客戶將最先進(jìn)的工藝、EDA工具、多種IP組合、芯?;ミB和基礎(chǔ)軟件等技術(shù)和資源整合在一起,來幫助客戶實現(xiàn)一站式的AI計算芯片的設(shè)計、制造和應(yīng)用。
Mohamed Awad強調(diào)到,隨著越來越多的 AI 工作負(fù)載被采用,并貫穿于整個計算流程,涵蓋從大型數(shù)據(jù)中心到網(wǎng)絡(luò)、服務(wù)器以及計算基礎(chǔ)設(shè)施的方方面面。Neoverse V3和N3提供了支撐這一轉(zhuǎn)型所需的計算性能和效率,而在Arm全面設(shè)計生態(tài)項目的支持下,Arm的Neoverse計算子系統(tǒng)能夠加速客戶的產(chǎn)品上市時間,并加大對創(chuàng)新的投資力度?!皩⒆吭叫阅?、靈活性以及生態(tài)系統(tǒng)這三大要素結(jié)合在一起,是Arm Neoverse的獨特之處,也是其能夠在過去幾年中取得成功的原因。Arm Neoverse 計算子系統(tǒng)將這些優(yōu)勢演繹得淋漓盡致。在過去的一年里,CSS 取得了顯著的進(jìn)展,廣受頭部云服務(wù)提供商和初創(chuàng)公司的青睞。這些例證都很好地詮釋了Arm 平臺是未來計算及 AI 的基石?!?