推動移動計算真正邁入64位紀元!解讀Arm 2023全面計算解決方案
有移動計算的地方,就有Arm的存在。而Arm架構不斷創(chuàng)新也與移動計算的需求發(fā)展緊密綁定在了一起。近年來,計算需求變得日益復雜,Arm也從2021年開始推出全面計算解決方案(TCS:Total Compute Solutions)。通過一整套專為無縫協(xié)同工作而設計的IP組合,Arm TCS極大地降低了SoC設計復雜度,幫助SoC設計者將計算性能進一步提高。
于近期在北京舉行的Arm技術媒體分享日上,多位Arm技術大咖現身為記者講解了Arm 2023全面計算解決方案(TCS23),包括最新的CPU、GPU、軟件及安全產品。
全新Armv9.2架構的CPU:Cortex-X4、Cortex-A720和Cortex-A520
在CPU集群方面,超大核、大核和小核都進行了全面更新,采用了最新的Armv9.2架構。先看超大核,這一最初從定制項目中誕生的產品,目前已經更新到了Cortex-X4。
Cortex-X4連續(xù)第四年實現了較上一代雙位數性能提升,與上一代安卓旗艦產品相比較提升15%,具備更高的可伸縮性,最高可以支持每個核2M的2級緩存。同時值得一提的是,這一超大核不僅是性能最強,同時也是最為高效、面積效率比最高的Cortex核產品。
Cortex-A720對比于 Cortex-A715在高效方面實現了20%的提升,能夠支持手機在多線程的應用處理方面具備更好的續(xù)航表現。此外,Cortex-A720在面積配置性方面還做了一個擴展,能滿足各種不同檔次的手機市場。
Cortex-A520與Cortex-A510比較,在能效方面實現了22%的提升。尤其針對于低密度背景任務而言,能有效延遲電池的續(xù)航時間。這也是Arm封裝尺寸最小的一款Cortex產品,非常適用于入門級移動終端設備。
可以看到,今年Arm將所有CPU的架構都升級到了Armv9.2,從而在性能、能效和安全性上實現了全面的躍升,并且標志著Arm全面推動移動計算生態(tài)進入64位時代。
據Arm 終端事業(yè)部產品管理總監(jiān) Saurabh Pradhan介紹,Arrmv9.2架構支撐了從安全到機器學習一系列的功能,這也是安卓全線的高端機都使用這個架構芯片的原因。該架構中兩個重要的技術,一個是 MTE,一個是指針驗證技術。Arm在進行Armv9 開發(fā)時的重點,就是要提升開發(fā)者的體驗。比如其中一個 SVE2,即可伸縮矢量擴展,它能夠幫助開發(fā)者進行編程平臺的復用;另有一個非常知名的內容社區(qū)應用表明在使用 MTE 后能夠檢測到 90% 的內存安全漏洞。
作為全面解決方案,僅僅提供三個IP核是不夠的。Arm也提供了將超大核、大核和小核靈活地組合在一起,具有高效IPC的異構多核設計集群,即DSU。
今年最新的DSU-120實現了三方面的提升:第一是可伸縮性,在一個集群中最小可以配置一個小核,最大可以支持高達14核的數量,同時能夠支持24M或者最高32M的3級緩存,支持筆記本之類的設備場景。第二個提升體現在PPA 上,進一步降低了漏電,同時支持更多新的電源模式,從而延長了電池壽命。第三是全新的一些功能,因為基于最新的Armv9.2的架構,所以能夠支持比如帶寬分區(qū)、節(jié)點最大化和納入一些新的接口。
第五代Arm GPU:Immortalis-G720、Mali-G720和Mail-G620
從Immortalis-G715開始,Arm將光追和VRS引入到了移動領域,目前在最新的旗艦安卓手機中,仍處于領先的地位。但在GPU方面,Arm的創(chuàng)新腳步并不會停歇。TCS23中的GPU已經不再采用Vhall架構,而是采用了全新的第五代GPU架構。全新的第五代架構不僅是 GPU 本身能夠提供最佳的性能,同時GPU與外部內存、CPU系統(tǒng)級緩存在執(zhí)行中也能實現最佳性能。全新的Immortalis-G720、Mali-G720和MailG620將奠定Arm第五代GPU架構的基礎,并為游戲體驗引入新的功能。
相比上一代,在采用相同DRAM配置和芯片工藝完全一致的情況下,僅通過IP層級的創(chuàng)新,全新G720就帶來全面系統(tǒng)級的效率提升,包括:使用內存帶寬最終減少40%,每瓦特性能平均節(jié)省 15%,峰值性能實現了平均15%的增加,整個架構的吞吐量實現1倍的增加,達到了64Bbp。
在Immortalis-G720上,Arm帶來了更多新的功能。首先是延遲頂點著色(簡稱 DVS),這是全新的渲染管線,徹底解決了集合數據流的問題,有助于在用到最復雜的場景時保持幀率的一致性。DVS大幅減少了外部帶寬的消耗,節(jié)省的帶寬也就意味著更多功耗的減少,從而提高了能效。
“考慮到越來越多的圖形幾何體的數量,以及越來越多大型復雜的游戲的應用運行,這意味著GPU比以往更需要大內存帶寬。而Arm通過在系統(tǒng)級的帶寬的需求上降低40%,從而能夠保障像圖形處理方面的復雜應用不受到內存帶寬的限制?!盇rm 終端事業(yè)部產品管理高級總監(jiān)Anand Patel解釋到,“通常在一個移動系統(tǒng)之上,它的內存帶寬是固定的,例如60M/S等;如果把它降低40%的話,就意味著能節(jié)約出來很多功率用于更加復雜的功能實現?!?
在移動光追方面,Arm將RTU單元集成到了著色器內部,通過與執(zhí)行引擎緊密配合,保證 RTU 在多核架構中能實現規(guī)模化的運轉。同時針對光追功能還有功耗方面的優(yōu)化,通過把光線追蹤單元移到自己的電源區(qū),確保在不使用光線追蹤功能,整個電源部分可以被關閉,從而節(jié)省了這一部分漏電流所耗費的功耗。
對于GPU的應用工程師而言,開發(fā)工具尤為重要。在開發(fā)工具方面,Arm Mobile Studio中提供了免費的GPU工具,可以幫助開發(fā)者針對Arm GPU進行優(yōu)化,從而實現開箱即用的出色性能。該工具提供的功能包括profilers 數據分析器、事件追蹤、計數器、著色器分析和圖形API調試等。
MTE、PAC 和 BTI:Armv9的基礎安全性能
64位架構能夠帶來更高的安全性和性能,因此Arm一直在推動64位生態(tài)的發(fā)展。而在此次TCS23推出之際,也標志著Arm從Armv9.2開始將移動計算架構全面推動轉向64位生態(tài)。
在新的Armv9.2中,提供了更為豐富的安全功能。除了MTE之外,還有最新的PAC和BTI技術。
MTE即內存標記擴展,這一功能在Armv8.5的時候開始引入,目前在Armv9.2上更是成為了其基礎性能,也是64 位架構和應用未來的趨勢。Arm實現的MTE為兩階段系統(tǒng),即“鎖”和“密鑰”。如果密鑰匹配,則允許訪問鎖內存;否則,訪問可能會被記錄下來或出錯。這樣就可以更輕松地檢測到難以捕獲的內存安全錯誤,也有助于進行常規(guī)調試。在鎖和密鑰兩階段系統(tǒng)中,存在兩種類型的標記:
地址標記,用作密鑰。這將在進程中每個指針的最高位增加四位。地址標記僅適用于64位應用,因為它使用了“高字節(jié)忽略”功能,這是Arm64位的一個功能。
內存標記,用作鎖。內存標記也由四位組成,與應用內存空間中每個對齊的16字節(jié)區(qū)域相連接。Arm 將這些16字節(jié)區(qū)域稱為標記顆粒。這四位并不用于應用數據,而且是分開存儲。
“攻擊者永遠在增強自己的攻擊方式和想法,所以我們必須要做到所謂的關鍵信息?!盇rm終端事業(yè)部軟件戰(zhàn)略總監(jiān)盧旻盛分享到,“TrustZone和虛擬化等很多隔離技術它的原理是在于怎么樣能夠防止攻擊者看到你所保護的東西,這是它的架構原理。 而MTE的軟件安全技術,是從減少軟件漏洞被利用的原理出發(fā)。采用鎖和密鑰兩階段系統(tǒng),基本上從原理出發(fā)就可以防止空間和時間型的信息安全風險。雖然攻擊者可以看到這個軟件,但是其實也防止了被入侵的一系列漏洞:第一是開發(fā)流程的漏洞,第二現有漏洞可以被更加早被發(fā)現,第三防止這個漏洞被利用。所以MTE和TrustZone兩項技術是互補型的方式。”
PAC和BTI則是在 Armv9內核中首次推出的功能,兩者聯合使用的情況下,攻擊者就很難將現有的代碼片段用于不法手段。即使攻擊者找到了覆蓋一個指針的方法,但也難以用它真正覆蓋任何代碼。BTI 可以保護程序不跳轉到內存中未經授權的地址,每一個函數被調用時,連接寄存器就會被清零,所以在函數反饋之前會重新檢查簽名是否有效,如果有人以某種方式修改了地址,則認證無法通過。
Arm 終端事業(yè)部生態(tài)系統(tǒng)及工程高級總監(jiān)Geraint North表示,“不管開發(fā)者的代碼是按C、C#、Rust 還是從 JIT發(fā)出的代碼,用 PAC、BTI 進行保護,就可以減少攻擊者在突破沙盒后可以訪問的代碼足跡,因此就能提供最大限度的保護?!?
從TCS23開始,全面邁向64位生態(tài)
雖然全面64位架構的好處頗多,但從32位向64位的生態(tài)遷移已經用了很長的時間。早在10多年前,Arm就已經推出了第一款具有64位功能的CPU,并且在安卓生態(tài)中很好地得到了反饋。但之后32位和64位一直處在并存發(fā)展的過程中,而去年谷歌Pixel手機推出僅支持64位的配置,則意味著整個過渡即將結束。Arm也是非常果斷地在Armv9.2架構開始,全面支持64位生態(tài)。“最新的這些IP都是僅支持 64 位的,它們的性能提升將會更快。因為一方面在硬件上我們會在64位的IP設計上投注更多的精力;另一方面在軟件上,Arm的編譯器和庫優(yōu)化團隊,都把工作重點聚焦在 64 位上?!盙eraint North說到,“如果現在你還是在做 32 位的開發(fā),那么我們做的這些工作可能就不能夠為你提供賦能。”
長期以來,推廣64位生態(tài)的難點在于中國的軟件生態(tài)的分化程度更高。在中國有更多的基于安卓系統(tǒng)而來的OS和多種應用商店,要推動所有的軟件轉向64位架構并不容易。而Arm選擇通過與中國頂級OEM的合作方式,來加速這一轉型。
目前大部分中國的應用商店已經給出了明確的期限,來催促軟件開發(fā)者盡快升級其應用程序到64位版本。目前在中國所有應用軟件中64位的采用率遠超過90%,尤其是觀察排名前1000或前100的應用普及率的時候,64位的普及率幾乎是 100%。
而在安卓智能手機之外,Arm也繼續(xù)將目光投向更大的市場。像智能電視、機頂盒等領域,也有望推動其進入64位生態(tài)。
“我們已經在純64位之路努力多年。好消息是,遷移到64位系統(tǒng)的任務已經完成。去年,Pixel 7推出了一款純 64 位應用程序的操作系統(tǒng),MediaTek 也推出了第一款全64位的安卓SoC,這個芯片目前被多款高端手機采用。”Arm產品營銷副總裁Ian Smythe表示,“Arm 所發(fā)布的全新的TCS23是針對移動計算的最優(yōu)選的計算平臺,它包括了最尖端的CPU技術和GPU技術,能夠讓游戲開發(fā)者以及人工智能應用開發(fā)者實現沉浸式體驗的打造?!?
圖:Arm產品營銷副總裁Ian Smythe