支持10億模型參數的邊緣AI應用,Arm推出基于Armv9架構的邊緣AI計算平臺——Cortex-A320 CPU+Ethos-U85 NPU
邊緣設備的AI應用中,Cortex-M CPU+Ethos-U NPU是許多端側AI解決方案的基石。然而,隨著人工智能技術的迅速發(fā)展,特別是大型語言模型參數規(guī)模的不斷擴大,即便是最高性能的Cortex-M85和Ethos-U85的AI系統(tǒng),也逐漸暴露出其局限性。盡管Cortex-M85提供低功耗和高效率的微控制器性能,配合Ethos-U85神經處理單元能夠滿足部分輕量級AI任務的需求,但它在面對超過更大規(guī)模參數的大型模型時顯得力不從心。受限于其架構,Cortex-M系統(tǒng)缺乏對高級語言的充分支持、無法運行復雜的Linux系統(tǒng)管理,并且內存(如System SRAM和System Flash)的容量和靈活性不足以應對日益增長的語言模型規(guī)模。這些限制使得端點AI難以適應當前對高性能計算和實時處理的需求,尤其是在智能駕駛、復雜語音識別和大規(guī)模數據分析等前沿應用場景中。因此,升級到更強大的Cortex-A基礎系統(tǒng)成為必然選擇。而此前要直接從Cortex-M85直接升級到Cortex-A520時,跨步是否過大?對于這些物聯網的AI+應用,能效仍是尤為關鍵的考量。因此Arm最新推出了基于Armv9.2架構的最小CPU——Arm Cortex-A320。旨在通過更好的能效表現,以及來自Armv9架構的安全和AI特性支持,來更好地幫助客戶實現邊緣AI的應用?;贑ortex-A320+Ethos-U85的邊緣AI解決方案通過更高的計算能力、支持Linux系統(tǒng)以及擴展的存儲和模型規(guī)模,為邊緣設備帶來了突破性的可能性。
推理才是 AI 釋放價值的關鍵——從云端下沉到端側,AI將無處不在
從技術發(fā)展的角度來看,推理(Inference)正日益成為人工智能(AI)釋放核心價值的關鍵所在。隨著AI技術從云端逐步下沉到端側,其應用場景正在以前所未有的速度擴展,逐步實現“無處不在”的愿景。過去,AI的強大能力主要依賴于云端的高算力和大數據處理,但如今,隨著端側設備算力的提升和算法的優(yōu)化,推理過程正逐步遷移到終端。這不僅降低了延遲、提升了效率,還讓AI能夠在更多離線場景中發(fā)揮作用。從智能家居到自動駕駛,從移動設備到工業(yè)物聯網,AI的端側推理能力正在重塑各行各業(yè)??梢灶A見,隨著這一趨勢的深入,AI將真正融入生活的每一個角落,成為推動技術進步和社會變革的 omnipresent(無處不在的)力量。
“Arm 推出的適用于 Armv8-M 架構的 Cortex-M 向量擴展技術——Helium,以及Arm Ethos-U AI 加速器已在物聯網領域廣泛應用,將 AI 和機器學習 (ML) 計算能力帶到了數十億臺邊緣設備上。”Arm物聯網事業(yè)部業(yè)務拓展副總裁 馬?。–hloe Ma)分享到,“但創(chuàng)新者永遠不會停滯不前,所以今天 Arm 發(fā)布以全新基于 Armv9 架構的超高能效 CPU —— Arm Cortex-A320 以及對 Transformer 網絡具有原生支持的 Ethos-U85 AI 加速器為核心的邊緣 AI 計算平臺。”
在邊緣AI領域,Arm最新推出的技術組合展現了令人矚目的協同設計理念。據Chloe介紹,這并非簡單地將CPU與AI加速器堆疊在一起,而是通過深度整合實現了Cortex-A320與Ethos-U85之間的相輔相成,為開發(fā)者帶來了更高效的AI工作負載處理能力。我們注意到,Cortex-A320通過提供更高的內存容量和帶寬,為Ethos-U85上的大模型推理注入強勁動力,使其執(zhí)行效率顯著提升。而對于那些開發(fā)者不傾向于在Ethos-U85上運行的AI任務,Cortex-A320則提供了靈活的回退選項,其內置的Neon和SVE2引擎能夠在CPU側高效應對多樣化需求。這種設計讓智能物聯網和消費電子生態(tài)系統(tǒng)得以在恰當的時間與場景中,精準分配最適合的工作負載。
邊緣AI的新基石——Armv9 賦能Cortex-A320,實現信息安全與 AI 的雙重突破
全新 Cortex-A320的微架構來自于Cortex-A520基礎,在面積和功耗方向上進行了優(yōu)化取舍,最終在性能上的表現令人眼前一亮。相比前代超高效 CPU Cortex-A35,其機器學習 (ML) 計算能力提升高達 10 倍;在 GEMM 性能方面,Cortex-A320 相較目前Cortex-M85提高了八倍。這種性能提升不僅歸功于 Armv9 架構在 AI 處理上的增強,還源于 Cortex-A320 內存訪問性能的大幅提高和頻率的增加。
這一飛躍使其能夠輕松應對日益復雜的邊緣 AI 任務。同時,得益于高效的分支預測器和預取器設計,其標量計算性能提升了 30%(SPECINT2K6基準測試),為通用計算提供了更強支撐。更值得一提的是能效:相較高效的 Armv9.2 CPU Cortex-A520,Cortex-A320 的功耗降低 50%,在低能耗場景中展現出無可比擬的優(yōu)勢。此外,支持最高四核共享集群的設計,讓它能夠根據需求靈活擴展,適配從智能家居到工業(yè)物聯網的多樣化應用場景。
Cortex-A320 的核心競爭力離不開 Armv9 架構的加持。在安全性方面,隨著邊緣設備承載的軟件和數據價值日益提升,Cortex-A320 引入了一系列強化的特性。Secure EL2增強了 TrustZone 的隔離性,為軟件容器提供了更安全的運行環(huán)境;PACBTI(指針驗證/分支目標識別)有效緩解跳轉編程中的安全隱患;而內存標記擴展 (MTE) 通過標記機制顯著降低了內存漏洞被利用的風險。這些特性共同構建了一個更堅固的安全防線,為物聯網設備保駕護航。
與此同時,AI 計算能力的提升同樣令人矚目。Cortex-A320 充分利用 Armv9 的Neon 和 SVE2技術,支持 BFloat16 等新數據類型,并新增矩陣乘法指令,大幅優(yōu)化了神經網絡的推理與訓練效率。這不僅提升了計算精度和能效,也讓 Cortex-A320 成為邊緣 AI 任務的理想平臺,能夠高效處理復雜的實時工作負載。
邊緣 AI 的成功不僅依賴硬件性能,更需要靈活的工作負載分配能力。Cortex-A320 在這方面表現出色:它既能與 AI 加速器協同運行連續(xù)圖像檢測等高能效任務,也能通過 CPU 處理單張圖像檢測等場景。為進一步釋放 CPU 的 AI 潛力,Arm 引入了 Kleidi 軟件庫。KleidiAI 針對 AI 框架開發(fā)者優(yōu)化,支持 Neon 和 SVE2,已集成于 Llama.cpp、ExecuTorch 和 LiteRT 等主流框架,加速 Meta Llama 3、Phi-3 等大模型的運行;而 KleidiCV 則專注于機器視覺任務。這種軟硬結合的策略顯著提升了 Cortex-A320 的應用彈性。
生態(tài)支持同樣是其亮點。Cortex-A320 可無縫運行 FreeRTOS、Zephyr 等實時操作系統(tǒng) (RTOS),以及 Linux、Android 等功能豐富的系統(tǒng),開箱即用支持 Linux,并可輕松移植安卓。這種多操作系統(tǒng)兼容性為開發(fā)者提供了廣闊的選擇空間。此外,作為 Armv9 家族一員,其軟件兼容性覆蓋從高性能 Cortex-X925 到低功耗 Cortex-A320 的全系列處理器,開源社區(qū)和編譯器的支持進一步縮短了開發(fā)周期,降低了總體擁有成本 (TCO)。
對于現有物聯網設備用戶,Cortex-A320 提供了一條平滑的升級路徑。無論是從 Cortex-A35 還是全球出貨量最大的 Cortex-A53 遷移,這款處理器都能帶來 Armv9 的安全性、性能和生態(tài)優(yōu)勢。對于 Linux 開發(fā)者,快速部署功能豐富的操作系統(tǒng)將大幅節(jié)省時間與成本;而對于從MCU升級而來的RTOS 用戶,如運行 Zephyr 的場景,Cortex-A320 為 MCU 工作負載提供了面向未來的靈活升級方案,增強計算能力和內存支持,助力低能耗設備集成 AI 功能。
首個基于Armv9架構的邊緣AI平臺——Cortex-A320+Ethos-U85
此次的新品發(fā)布,Arm稱是首個基于Armv9架構的邊緣AI計算平臺發(fā)布。而這個邊緣AI計算平臺,就是由CPU+NPU組成。CPU即上文介紹的新品Cortex-A320,而NPU仍是Ethos-U85。
Arm 的 Ethos-U 系列是一款專為邊緣 AI 和嵌入式設備設計的高效微神經處理單元(microNPU),其目標是將強大的機器學習(ML)推理能力帶入資源受限的物聯網(IoT)和低功耗場景。自 2020 年初推出以來,Ethos-U 系列憑借其緊湊的設計和優(yōu)異的能效比,成為 Arm 在邊緣計算領域的重要布局。ARM Ethos-U系列處理器在神經網絡性能提升方面的強大能力,能夠助力開發(fā)者解鎖神經網絡的全部潛能。從Ethos-U55到Ethos-U65再到Ethos-U85,MAC單元數持續(xù)提升的同時,還增加了對于最新的AI模型架構Transformer的支持。通過對矩陣乘法(Matrix Multiplication)和權重(Weights)的優(yōu)化,Ethos-U85處理器目前可以更高效地執(zhí)行這些復雜的AI任務。
Ethos-U85需由一個主處理器(可以是 Cortex-M 或 Cortex-A)進行驅動,一些具有明確定義的 AI 工作負載的邊緣 AI 用例可以通過將神經網絡處理卸載到專用 NPU 上,從而釋放主處理器的計算密集型任務。
主處理器與 Ethos-U 間可以有多種配置方式。Ethos-U 可由像 Cortex-M55 等啟用 Helium 的 Cortex-M 處理器驅動使用。而對于以Cortex-A為主處理核心的SoC而言,可以通過一個Cortex-M與Ethos-U搭配組成一個ML島的方式,來與主處理器核心進行AI負載卸載。而更直接的方式是,Cortex-A 處理器也可以直接驅動 Ethos-U NPU。這種配置無需專門的 Cortex-M 作為“驅動”處理器。Ethos-U85 的 Linux 驅動程序可在 Cortex-A 主控制器上運行。
此次最新的Cortex-A320就具備直接驅動Ethos-U85的能力,這也非常有助于原先基于Cortex-M85+Ethos-U85的方案進行升級,從而獲得對于更大參數模型的支持。據Chloe分享,從 Cortex-M 處理器 + AI 加速器的組合升級到當前的組合(Cortex-A320+Ethos-U85)后將會給客戶獲得很多優(yōu)勢。首先是在模型方面,之前只是對 CNN 或語音模型等非常小的傳統(tǒng)模型能夠支持,而現在的方案支持最新的語言模型,無論是大模型還是小模型。其次,Cortex-M升級到Cortex-A之后能夠很好支持Linux或Android這類更為復雜的操作系統(tǒng),這些操作系統(tǒng)在內存管理方面具備更高的靈活性,能夠同時支持SRAM和DRAM,并且在優(yōu)化DRAM以支持更大容量內存的同時,還能有效降低內存訪問的延遲。這意味著,當采用先進的操作系統(tǒng)時,應用開發(fā)者無需再自行進行這些底層的內存優(yōu)化工作,這對產品上市的時間以及解決方案形成的時間都大有助益。
結語
在邊緣 AI 持續(xù)升溫的背景下,Arm 通過 Cortex-A320 鞏固了其在物聯網領域的領導地位。這款處理器不僅以超高能效和強勁性能滿足了當下需求,更以安全性提升和靈活生態(tài)為未來發(fā)展鋪路。從智能物聯網到消費電子,Cortex-A320+Ethos-U85的全新平臺正以“恰當時間、合適場景”的方式,推動 AI 無處不在的愿景逐步落地。我們相信,Cortex-A320 的推出不僅是一次硬件升級,更是邊緣計算邁向成熟的重要里程碑,其影響力將在未來多年持續(xù)顯現。
“Arm 今天發(fā)布的全新平臺不僅僅是一次漸進式的升級,它代表了我們?yōu)槲磥磉吘売嬎愫?AI 處理提出的新范式。這是我們首次專為物聯網應用設計的 Armv9 架構處理器,它將超高能效與先進 AI 能力相結合,實現了前所未有的突破。當它與 Ethos-U85 結合時,將催生出全新的應用類別,開啟無限可能?!盋hloe總結到,“物聯網領域正在迎來前所未有的機遇與生機,我們堅信,AI 的未來在邊緣,而邊緣 AI 的未來屬于 Arm?!?