AI優(yōu)先！Arm Lumex CCS發(fā)布，移動設(shè)備邁向AI計算時代

時間：2025-09-15 10:03:15

關(guān)鍵字： AI ARM Lumex CCS

手機(jī)看文章

掃描二維碼
隨時隨地手機(jī)看文章

[導(dǎo)讀]Arm Lumex CSS平臺的發(fā)布，不僅標(biāo)志著移動計算邁向AI優(yōu)先的新時代，更彰顯了Arm以生態(tài)協(xié)同與技術(shù)創(chuàng)新驅(qū)動未來的雄心。從SME2賦能的5倍AI性能飛躍，到SI L1與MMU L1的系統(tǒng)級優(yōu)化，Lumex為旗艦智能手機(jī)到智能端側(cè)設(shè)備提供了統(tǒng)一的計算底座，兼顧性能、能效與普惠性。預(yù)計到2030年，SME與SME2將為超30億臺設(shè)備新增100億TOPS算力，推動端側(cè)AI在隱私、延遲與成本上的指數(shù)級突破。與vivo、支付寶、Google等伙伴的深度合作，也印證了Arm Lumex在中國市場的落地潛力，足以覆蓋從智能助手到游戲AI等更為豐富的應(yīng)用場景。

新的命名，新的時代開啟。從Lumex CSS開始，性能提升不再是單純的每代際雙位數(shù)提升這么簡單，Arm開始以AI First（AI優(yōu)先）的理念覆蓋全面的計算平臺設(shè)計。這種理念從指令集、到CPU/GPU Core、CSS子系統(tǒng)、再到軟件棧，實(shí)現(xiàn)了從下至上的垂直貫徹創(chuàng)新，并且在各種AI跑分測試中取得顯著成效。

在近日的Arm Unlocked大會上，Arm Lumex CSS 平臺及其所集成的C1 CPU集群、第二代 Arm 可伸縮矩陣擴(kuò)展 (SME2) 及Mail-G1-Ultra GPU等創(chuàng)新技術(shù)發(fā)布，或可看作Arm推動移動終端邁向全面AI計算的關(guān)鍵節(jié)點(diǎn)。

圖：Arm高級副總裁兼終端事業(yè)部總經(jīng)理Chris Bergey

Arm 高級副總裁兼終端事業(yè)部總經(jīng)理 Chris Bergey在主題演講中談到：“為擴(kuò)展而生，為 AI 時代而設(shè)計。Arm Lumex CSS 平臺正是移動創(chuàng)新未來的起點(diǎn)?！?

SME2引入，5倍端側(cè)AI性能提升

Arm Lumex 計算子系統(tǒng)（CSS）平臺整合了最新的 Armv9.3 CPU 集群（包括 C1-Ultra、C1-Pro 和 C1-Premium 核心）、Mali G1-Ultra-Ultra GPU、高效系統(tǒng)互連以及 3nm 工藝優(yōu)化的物理實(shí)現(xiàn)，輔以無縫的軟件支持，旨在為異構(gòu) AI 工作負(fù)載提供強(qiáng)大的計算能力。

其中Arm C1-Ultra CPU能為設(shè)備帶來出色的 25% 性能提升，非常適合處理嚴(yán)苛的 AI 與計算工作負(fù)載。而Arm C1-Pro CPU則將能效提升幅度達(dá)到了可觀的 12%。 GPU 方面，全新的Mali G1-Ultra 集性能與能效于一身，性能提升 20% 的同時，功耗也降低了 9%。

通過引入 SME2技術(shù)，Lumex CSS 平臺實(shí)現(xiàn)高達(dá)5 倍的 AI 性能提升，為實(shí)時語音處理、圖像增強(qiáng)和智能助手等應(yīng)用帶來低延遲和高效能表現(xiàn)。Mali G1-Ultra-Ultra GPU 則將光線追蹤性能提升高達(dá)2倍，支持桌面級游戲畫質(zhì)和 20% 的 AI 推理性能提升，為移動游戲和擴(kuò)展現(xiàn)實(shí)（XR）體驗(yàn)帶來突破。此外，平臺支持主流 AI 框架（如 PyTorch ExecuTorch 和 ONNX Runtime），通過 KleidiAI 庫實(shí)現(xiàn)自動化的 SME2 加速，讓開發(fā)者無需修改代碼即可獲得性能提升。

Chris Bergey提到，開發(fā)者構(gòu)建 AI 工作負(fù)載時的首選目標(biāo)是 CPU，因此Arm投入了大量資源，讓 Lumex CPU 能實(shí)現(xiàn)出色的 AI 加速效果。

SME2的核心在于其對矩陣運(yùn)算的原生支持，這對AI工作負(fù)載至關(guān)重要。通過更為先進(jìn)的指令調(diào)度和緩存預(yù)取機(jī)制，Arm針對開發(fā)者常見痛點(diǎn)如分支預(yù)測失效和內(nèi)存訪問瓶頸進(jìn)行了針對性調(diào)優(yōu)。這使得SME2在構(gòu)建AI代理系統(tǒng)時，能夠高效支持動態(tài)推理路徑，而無需額外硬件抽象層。

Arm 終端事業(yè)部產(chǎn)品管理副總裁 James McNiven表示：“SME2 在機(jī)器學(xué)習(xí)、AI 場景中具有顯著優(yōu)勢，特別是對延遲敏感型任務(wù)。因其集成于 CPU 核心，無需將數(shù)據(jù)外傳處理，這種架構(gòu)優(yōu)勢正是 SME2 的核心競爭力所在。”

Chris Bergey則在主題演講中強(qiáng)調(diào)，SME2全面集成于Arm Lumex的Arm C1 CPU集群中，相較于未啟用SME2的基準(zhǔn)，性能提升3至6倍。具體而言，SME2在語音識別任務(wù)中將延遲縮短超4.7倍，經(jīng)典大語言模型任務(wù)性能提升4.7倍，生成式AI處理速度加快2.8倍。對于傳統(tǒng)AI任務(wù)（如圖像分類、分割和深度估計），SME2在小型模型上的表現(xiàn)尤為突出，甚至超越專用GPU的性能。Chris Bergey還提到，SME2通過與KleidiAI軟件的協(xié)同優(yōu)化，確保主流AI框架（如LiteRT）能夠無縫利用CPU的增強(qiáng)能力，從而提升開發(fā)者在Android和iOS生態(tài)中的開發(fā)效率。

可拓展性是Arm在進(jìn)行AI計算平臺布局時的另一個關(guān)注點(diǎn)，SME2在C1的全系列中都有支持，包括從C1 Ultra一直到C1 Nano。SME2的靈活性使其能夠適配從旗艦智能手機(jī)到電池供電傳感器的多樣化設(shè)備，為開發(fā)者提供統(tǒng)一的AI加速平臺，加速創(chuàng)新應(yīng)用的上市進(jìn)程。

圖：Arm 終端事業(yè)部產(chǎn)品管理副總裁 James McNiven

此外，SME2不僅提升了單設(shè)備性能，還通過規(guī)模化部署為整個行業(yè)注入動能。預(yù)計到2030年，SME2（連同其前一代版本SME）將為超30億臺設(shè)備新增超過100億TOPS的計算能力，推動端側(cè)AI實(shí)現(xiàn)指數(shù)級飛躍。這種計算能力的提升將降低對云端的依賴，減少延遲并增強(qiáng)數(shù)據(jù)隱私，特別適用于隱私敏感型應(yīng)用。Chris Bergey特別提到與Google在AICore模型上的合作，SME2使小型安全模型的性能提升20%，證明了其在輕量級AI任務(wù)中的高效性。

SME2增強(qiáng)CPU矩陣計算能力，但CPU與GPU、NPU在AI工作負(fù)載上的分工仍然是有所不同的：

· CPU（SME2）：高度可編程，支持任意數(shù)據(jù)類型，適合語音識別、生成式AI音頻、低延遲任務(wù)（如安全檢查）。因數(shù)據(jù)留存

· CPU，無需跨單元傳輸，延遲敏感任務(wù)性能提升20%（如Google AICore）。

· GPU：優(yōu)化圖形與AI推理，例如適合視覺密集任務(wù)。

· NPU：專用AI加速，但因標(biāo)準(zhǔn)化缺失，需抽象層（如AICore）支持。

而站在開發(fā)者角度而言，他們可能更偏好CPU開發(fā)AI應(yīng)用，只有當(dāng)CPU的AI算力不夠的時候，才會考慮將計算遷移到專用加速器。這是因?yàn)镃PU的開發(fā)框架更為成熟（如PyTorch），編程簡單。相比之下，GPU（OpenCL優(yōu)化圖形）與NPU（廠商特定單元）復(fù)雜性更高。

關(guān)鍵組件協(xié)同，提升AI計算系統(tǒng)性能

隨著物理極限的逼近，針對計算能效的提升必須從系統(tǒng)的層面，依賴著諸多關(guān)鍵組件的協(xié)同優(yōu)化來實(shí)現(xiàn)。尤其是在圍繞著AI計算這樣的特定目標(biāo)時，僅僅通過CPU和GPU等計算核心的提升是不夠的，在系統(tǒng)總線和內(nèi)存訪問調(diào)度方面，也需要更精細(xì)高效的調(diào)校。

據(jù) James McNiven的分享，Lumex CSS上采用了全新的SI L1和MMU L1。

SI L1 是一種可擴(kuò)展的系統(tǒng)互連組件，集成了SLC（靜態(tài)鎖存器緩存）和NoC（網(wǎng)絡(luò)芯片），旨在為高性能AI設(shè)備提供完整的SoC（片上系統(tǒng)）連接性；與此同時，SMMU L1 作為系統(tǒng)內(nèi)存管理單元，通過基于內(nèi)存翻譯的虛擬化技術(shù)，實(shí)現(xiàn)成本效益高的安全安卓和Windows設(shè)備的內(nèi)存管理。

對比上一代的CSS互連架構(gòu)設(shè)計，CPU子系統(tǒng)、GPU子系統(tǒng)以及各種設(shè)備分別通過不同的路徑（CI-700和NI-700 NoC）獨(dú)立連接到內(nèi)存，這導(dǎo)致這些組件之間的通信效率不高且缺乏統(tǒng)一性。而新的Lumex CSS的互連架構(gòu)將全新的SI L1作為所有核心的統(tǒng)一互連層。SI L1中包含多個MCN和SLC，能夠?qū)PU、GPU子系統(tǒng)以及其他設(shè)備都通過這一個層級連接到內(nèi)存和NoC上。這種設(shè)計實(shí)現(xiàn)了更高效的數(shù)據(jù)傳輸和更好的系統(tǒng)擴(kuò)展性，從而提升了整個系統(tǒng)的性能和效率。

全新MMU L1的引入，對于多模態(tài)AI任務(wù)（如同時處理圖像、文本和音頻）尤為重要，因?yàn)檫@些任務(wù)往往需要頻繁的內(nèi)存交互。MMU L1的增強(qiáng)還支持開發(fā)者在主流AI框架中實(shí)現(xiàn)更高效的數(shù)據(jù)流水線，無需額外調(diào)整即可利用Lumex平臺的內(nèi)存優(yōu)勢，從而加速了軟件開發(fā)和調(diào)試流程。

此外，在在成本效益方面，下一代移動優(yōu)化內(nèi)存管理單元MMU L1通過PPA優(yōu)化降低了SMMU的成本，提供了可擴(kuò)展的安全基礎(chǔ)架構(gòu)，支持更廣泛的細(xì)分市場，從而增強(qiáng)了系統(tǒng)的安全性和靈活性。NoC S3（網(wǎng)絡(luò)芯片互連）作為非一致性通信和區(qū)域高效的SoC連接方案，提供了靈活的片上網(wǎng)絡(luò)互連，能夠在保持必要性能的同時減少芯片面積和功耗，進(jìn)一步縮減整體的成本。

總的來說，Arm Lumex利用SI L1、MMU L1和NoC S3，在保證高性能的同時也兼顧成本控制，還得以實(shí)現(xiàn)更高層次的系統(tǒng)可擴(kuò)展性，滿足從高性能計算到移動設(shè)備等不同應(yīng)用場景的需求。

Chris Bergey還在演講中進(jìn)一步強(qiáng)調(diào)了Arm CSS的靈活交付方式：“在某些市場我們提供高度集成的計算網(wǎng)格，而在其他市場則采用可靈活組合的子模塊?！边@種靈活的方法已初見成效，目前全球已有超過 16 個 CSS 的技術(shù)授權(quán)許可，其中半數(shù)是在過去 12 個月內(nèi)所發(fā)生。

自始至終，Arm CSS的初衷即為客戶提供一個經(jīng)過驗(yàn)證的計算基礎(chǔ)，讓客戶能夠以相對較低的成本實(shí)現(xiàn)自身所需的定制化。Arm關(guān)注的是構(gòu)建高效計算平臺本身，而非直接打造一個公版的SoC給客戶，這里面存在著極大的區(qū)別。

因?yàn)橛辛薈SS，客戶就無需花費(fèi)更多時間精力在整合Arm IP上，而是可以把更多專注于真正能帶來差異化的部分，這些部分才是客戶自己對于應(yīng)用場景的深入理解和獨(dú)有專長能夠發(fā)揮的地方——例如自動駕駛加速器、手機(jī)端的 ISP 與影像處理管線，或是數(shù)據(jù)中心中與計算單元深度耦合的特定工作負(fù)載加速器等等。

結(jié)語

Arm Lumex CSS平臺的發(fā)布，不僅標(biāo)志著移動計算邁向AI優(yōu)先的新時代，更彰顯了Arm以生態(tài)協(xié)同與技術(shù)創(chuàng)新驅(qū)動未來的雄心。從SME2賦能的5倍AI性能飛躍，到SI L1與MMU L1的系統(tǒng)級優(yōu)化，Lumex為旗艦智能手機(jī)到智能端側(cè)設(shè)備提供了統(tǒng)一的計算底座，兼顧性能、能效與普惠性。預(yù)計到2030年，SME與SME2將為超30億臺設(shè)備新增100億TOPS算力，推動端側(cè)AI在隱私、延遲與成本上的指數(shù)級突破。與vivo、支付寶、Google等伙伴的深度合作，也印證了Arm Lumex在中國市場的落地潛力，足以覆蓋從智能助手到游戲AI等更為豐富的應(yīng)用場景。

本站聲明：本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點(diǎn)，本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系本站刪除。

換一批

與傳統(tǒng)的驅(qū)動方式相比，共陰恒流驅(qū)動在能效有哪些優(yōu)勢

LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字：驅(qū)動電源

[電源]

工業(yè)電機(jī)驅(qū)動電源設(shè)計：反電動勢抑制與過流保護(hù)的集成方案

在工業(yè)自動化蓬勃發(fā)展的當(dāng)下，工業(yè)電機(jī)作為核心動力設(shè)備，其驅(qū)動電源的性能直接關(guān)系到整個系統(tǒng)的穩(wěn)定性和可靠性。其中，反電動勢抑制與過流保護(hù)是驅(qū)動電源設(shè)計中至關(guān)重要的兩個環(huán)節(jié)，集成化方案的設(shè)計成為提升電機(jī)驅(qū)動性能的關(guān)鍵。

關(guān)鍵字：工業(yè)電機(jī) 驅(qū)動電源

[電源]

如何解決 LED 驅(qū)動電源的易損壞問題

LED 驅(qū)動電源作為 LED 照明系統(tǒng)的 “心臟”，其穩(wěn)定性直接決定了整個照明設(shè)備的使用壽命。然而，在實(shí)際應(yīng)用中，LED 驅(qū)動電源易損壞的問題卻十分常見，不僅增加了維護(hù)成本，還影響了用戶體驗(yàn)。要解決這一問題，需從設(shè)計、生...

關(guān)鍵字：驅(qū)動電源照明系統(tǒng) 散熱

[電力電工電路]

LED設(shè)計中LED驅(qū)動電源的公式

根據(jù)LED驅(qū)動電源的公式，電感內(nèi)電流波動大小和電感值成反比，輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關(guān)鍵字： LED 設(shè)計驅(qū)動電源

[汽車電子]

EV主驅(qū)IGBT隔離驅(qū)動電源方案選擇問題探討

電動汽車(EV)作為新能源汽車的重要代表，正逐漸成為全球汽車產(chǎn)業(yè)的重要發(fā)展方向。電動汽車的核心技術(shù)之一是電機(jī)驅(qū)動控制系統(tǒng)，而絕緣柵雙極型晶體管(IGBT)作為電機(jī)驅(qū)動系統(tǒng)中的關(guān)鍵元件，其性能直接影響到電動汽車的動力性能和...

關(guān)鍵字：電動汽車新能源驅(qū)動電源

[電源]

合理的驅(qū)動電源方案成為大功率區(qū)域照明的主流選擇

在現(xiàn)代城市建設(shè)中，街道及停車場照明作為基礎(chǔ)設(shè)施的重要組成部分，其質(zhì)量和效率直接關(guān)系到城市的公共安全、居民生活質(zhì)量和能源利用效率。隨著科技的進(jìn)步，高亮度白光發(fā)光二極管(LED)因其獨(dú)特的優(yōu)勢逐漸取代傳統(tǒng)光源，成為大功率區(qū)域...

關(guān)鍵字：發(fā)光二極管驅(qū)動電源 LED

[消費(fèi)電子]