推動移動計算真正邁入64位紀(jì)元!解讀Arm 2023全面計算解決方案
有移動計算的地方,就有Arm的存在。而Arm架構(gòu)不斷創(chuàng)新也與移動計算的需求發(fā)展緊密綁定在了一起。近年來,計算需求變得日益復(fù)雜,Arm也從2021年開始推出全面計算解決方案(TCS:Total Compute Solutions)。通過一整套專為無縫協(xié)同工作而設(shè)計的IP組合,Arm TCS極大地降低了SoC設(shè)計復(fù)雜度,幫助SoC設(shè)計者將計算性能進(jìn)一步提高。
于近期在北京舉行的Arm技術(shù)媒體分享日上,多位Arm技術(shù)大咖現(xiàn)身為記者講解了Arm 2023全面計算解決方案(TCS23),包括最新的CPU、GPU、軟件及安全產(chǎn)品。
全新Armv9.2架構(gòu)的CPU:Cortex-X4、Cortex-A720和Cortex-A520
在CPU集群方面,超大核、大核和小核都進(jìn)行了全面更新,采用了最新的Armv9.2架構(gòu)。先看超大核,這一最初從定制項目中誕生的產(chǎn)品,目前已經(jīng)更新到了Cortex-X4。
Cortex-X4連續(xù)第四年實現(xiàn)了較上一代雙位數(shù)性能提升,與上一代安卓旗艦產(chǎn)品相比較提升15%,具備更高的可伸縮性,最高可以支持每個核2M的2級緩存。同時值得一提的是,這一超大核不僅是性能最強(qiáng),同時也是最為高效、面積效率比最高的Cortex核產(chǎn)品。
Cortex-A720對比于 Cortex-A715在高效方面實現(xiàn)了20%的提升,能夠支持手機(jī)在多線程的應(yīng)用處理方面具備更好的續(xù)航表現(xiàn)。此外,Cortex-A720在面積配置性方面還做了一個擴(kuò)展,能滿足各種不同檔次的手機(jī)市場。
Cortex-A520與Cortex-A510比較,在能效方面實現(xiàn)了22%的提升。尤其針對于低密度背景任務(wù)而言,能有效延遲電池的續(xù)航時間。這也是Arm封裝尺寸最小的一款Cortex產(chǎn)品,非常適用于入門級移動終端設(shè)備。
可以看到,今年Arm將所有CPU的架構(gòu)都升級到了Armv9.2,從而在性能、能效和安全性上實現(xiàn)了全面的躍升,并且標(biāo)志著Arm全面推動移動計算生態(tài)進(jìn)入64位時代。
據(jù)Arm 終端事業(yè)部產(chǎn)品管理總監(jiān) Saurabh Pradhan介紹,Arrmv9.2架構(gòu)支撐了從安全到機(jī)器學(xué)習(xí)一系列的功能,這也是安卓全線的高端機(jī)都使用這個架構(gòu)芯片的原因。該架構(gòu)中兩個重要的技術(shù),一個是 MTE,一個是指針驗證技術(shù)。Arm在進(jìn)行Armv9 開發(fā)時的重點,就是要提升開發(fā)者的體驗。比如其中一個 SVE2,即可伸縮矢量擴(kuò)展,它能夠幫助開發(fā)者進(jìn)行編程平臺的復(fù)用;另有一個非常知名的內(nèi)容社區(qū)應(yīng)用表明在使用 MTE 后能夠檢測到 90% 的內(nèi)存安全漏洞。
作為全面解決方案,僅僅提供三個IP核是不夠的。Arm也提供了將超大核、大核和小核靈活地組合在一起,具有高效IPC的異構(gòu)多核設(shè)計集群,即DSU。
今年最新的DSU-120實現(xiàn)了三方面的提升:第一是可伸縮性,在一個集群中最小可以配置一個小核,最大可以支持高達(dá)14核的數(shù)量,同時能夠支持24M或者最高32M的3級緩存,支持筆記本之類的設(shè)備場景。第二個提升體現(xiàn)在PPA 上,進(jìn)一步降低了漏電,同時支持更多新的電源模式,從而延長了電池壽命。第三是全新的一些功能,因為基于最新的Armv9.2的架構(gòu),所以能夠支持比如帶寬分區(qū)、節(jié)點最大化和納入一些新的接口。
第五代Arm GPU:Immortalis-G720、Mali-G720和Mail-G620
從Immortalis-G715開始,Arm將光追和VRS引入到了移動領(lǐng)域,目前在最新的旗艦安卓手機(jī)中,仍處于領(lǐng)先的地位。但在GPU方面,Arm的創(chuàng)新腳步并不會停歇。TCS23中的GPU已經(jīng)不再采用Vhall架構(gòu),而是采用了全新的第五代GPU架構(gòu)。全新的第五代架構(gòu)不僅是 GPU 本身能夠提供最佳的性能,同時GPU與外部內(nèi)存、CPU系統(tǒng)級緩存在執(zhí)行中也能實現(xiàn)最佳性能。全新的Immortalis-G720、Mali-G720和MailG620將奠定Arm第五代GPU架構(gòu)的基礎(chǔ),并為游戲體驗引入新的功能。
相比上一代,在采用相同DRAM配置和芯片工藝完全一致的情況下,僅通過IP層級的創(chuàng)新,全新G720就帶來全面系統(tǒng)級的效率提升,包括:使用內(nèi)存帶寬最終減少40%,每瓦特性能平均節(jié)省 15%,峰值性能實現(xiàn)了平均15%的增加,整個架構(gòu)的吞吐量實現(xiàn)1倍的增加,達(dá)到了64Bbp。
在Immortalis-G720上,Arm帶來了更多新的功能。首先是延遲頂點著色(簡稱 DVS),這是全新的渲染管線,徹底解決了集合數(shù)據(jù)流的問題,有助于在用到最復(fù)雜的場景時保持幀率的一致性。DVS大幅減少了外部帶寬的消耗,節(jié)省的帶寬也就意味著更多功耗的減少,從而提高了能效。
“考慮到越來越多的圖形幾何體的數(shù)量,以及越來越多大型復(fù)雜的游戲的應(yīng)用運(yùn)行,這意味著GPU比以往更需要大內(nèi)存帶寬。而Arm通過在系統(tǒng)級的帶寬的需求上降低40%,從而能夠保障像圖形處理方面的復(fù)雜應(yīng)用不受到內(nèi)存帶寬的限制?!盇rm 終端事業(yè)部產(chǎn)品管理高級總監(jiān)Anand Patel解釋到,“通常在一個移動系統(tǒng)之上,它的內(nèi)存帶寬是固定的,例如60M/S等;如果把它降低40%的話,就意味著能節(jié)約出來很多功率用于更加復(fù)雜的功能實現(xiàn)?!?
在移動光追方面,Arm將RTU單元集成到了著色器內(nèi)部,通過與執(zhí)行引擎緊密配合,保證 RTU 在多核架構(gòu)中能實現(xiàn)規(guī)?;倪\(yùn)轉(zhuǎn)。同時針對光追功能還有功耗方面的優(yōu)化,通過把光線追蹤單元移到自己的電源區(qū),確保在不使用光線追蹤功能,整個電源部分可以被關(guān)閉,從而節(jié)省了這一部分漏電流所耗費的功耗。
對于GPU的應(yīng)用工程師而言,開發(fā)工具尤為重要。在開發(fā)工具方面,Arm Mobile Studio中提供了免費的GPU工具,可以幫助開發(fā)者針對Arm GPU進(jìn)行優(yōu)化,從而實現(xiàn)開箱即用的出色性能。該工具提供的功能包括profilers 數(shù)據(jù)分析器、事件追蹤、計數(shù)器、著色器分析和圖形API調(diào)試等。
MTE、PAC 和 BTI:Armv9的基礎(chǔ)安全性能
64位架構(gòu)能夠帶來更高的安全性和性能,因此Arm一直在推動64位生態(tài)的發(fā)展。而在此次TCS23推出之際,也標(biāo)志著Arm從Armv9.2開始將移動計算架構(gòu)全面推動轉(zhuǎn)向64位生態(tài)。
在新的Armv9.2中,提供了更為豐富的安全功能。除了MTE之外,還有最新的PAC和BTI技術(shù)。
MTE即內(nèi)存標(biāo)記擴(kuò)展,這一功能在Armv8.5的時候開始引入,目前在Armv9.2上更是成為了其基礎(chǔ)性能,也是64 位架構(gòu)和應(yīng)用未來的趨勢。Arm實現(xiàn)的MTE為兩階段系統(tǒng),即“鎖”和“密鑰”。如果密鑰匹配,則允許訪問鎖內(nèi)存;否則,訪問可能會被記錄下來或出錯。這樣就可以更輕松地檢測到難以捕獲的內(nèi)存安全錯誤,也有助于進(jìn)行常規(guī)調(diào)試。在鎖和密鑰兩階段系統(tǒng)中,存在兩種類型的標(biāo)記:
地址標(biāo)記,用作密鑰。這將在進(jìn)程中每個指針的最高位增加四位。地址標(biāo)記僅適用于64位應(yīng)用,因為它使用了“高字節(jié)忽略”功能,這是Arm64位的一個功能。
內(nèi)存標(biāo)記,用作鎖。內(nèi)存標(biāo)記也由四位組成,與應(yīng)用內(nèi)存空間中每個對齊的16字節(jié)區(qū)域相連接。Arm 將這些16字節(jié)區(qū)域稱為標(biāo)記顆粒。這四位并不用于應(yīng)用數(shù)據(jù),而且是分開存儲。
“攻擊者永遠(yuǎn)在增強(qiáng)自己的攻擊方式和想法,所以我們必須要做到所謂的關(guān)鍵信息?!盇rm終端事業(yè)部軟件戰(zhàn)略總監(jiān)盧旻盛分享到,“TrustZone和虛擬化等很多隔離技術(shù)它的原理是在于怎么樣能夠防止攻擊者看到你所保護(hù)的東西,這是它的架構(gòu)原理。 而MTE的軟件安全技術(shù),是從減少軟件漏洞被利用的原理出發(fā)。采用鎖和密鑰兩階段系統(tǒng),基本上從原理出發(fā)就可以防止空間和時間型的信息安全風(fēng)險。雖然攻擊者可以看到這個軟件,但是其實也防止了被入侵的一系列漏洞:第一是開發(fā)流程的漏洞,第二現(xiàn)有漏洞可以被更加早被發(fā)現(xiàn),第三防止這個漏洞被利用。所以MTE和TrustZone兩項技術(shù)是互補(bǔ)型的方式。”
PAC和BTI則是在 Armv9內(nèi)核中首次推出的功能,兩者聯(lián)合使用的情況下,攻擊者就很難將現(xiàn)有的代碼片段用于不法手段。即使攻擊者找到了覆蓋一個指針的方法,但也難以用它真正覆蓋任何代碼。BTI 可以保護(hù)程序不跳轉(zhuǎn)到內(nèi)存中未經(jīng)授權(quán)的地址,每一個函數(shù)被調(diào)用時,連接寄存器就會被清零,所以在函數(shù)反饋之前會重新檢查簽名是否有效,如果有人以某種方式修改了地址,則認(rèn)證無法通過。
Arm 終端事業(yè)部生態(tài)系統(tǒng)及工程高級總監(jiān)Geraint North表示,“不管開發(fā)者的代碼是按C、C#、Rust 還是從 JIT發(fā)出的代碼,用 PAC、BTI 進(jìn)行保護(hù),就可以減少攻擊者在突破沙盒后可以訪問的代碼足跡,因此就能提供最大限度的保護(hù)?!?
從TCS23開始,全面邁向64位生態(tài)
雖然全面64位架構(gòu)的好處頗多,但從32位向64位的生態(tài)遷移已經(jīng)用了很長的時間。早在10多年前,Arm就已經(jīng)推出了第一款具有64位功能的CPU,并且在安卓生態(tài)中很好地得到了反饋。但之后32位和64位一直處在并存發(fā)展的過程中,而去年谷歌Pixel手機(jī)推出僅支持64位的配置,則意味著整個過渡即將結(jié)束。Arm也是非常果斷地在Armv9.2架構(gòu)開始,全面支持64位生態(tài)?!白钚碌倪@些IP都是僅支持 64 位的,它們的性能提升將會更快。因為一方面在硬件上我們會在64位的IP設(shè)計上投注更多的精力;另一方面在軟件上,Arm的編譯器和庫優(yōu)化團(tuán)隊,都把工作重點聚焦在 64 位上?!盙eraint North說到,“如果現(xiàn)在你還是在做 32 位的開發(fā),那么我們做的這些工作可能就不能夠為你提供賦能?!?
長期以來,推廣64位生態(tài)的難點在于中國的軟件生態(tài)的分化程度更高。在中國有更多的基于安卓系統(tǒng)而來的OS和多種應(yīng)用商店,要推動所有的軟件轉(zhuǎn)向64位架構(gòu)并不容易。而Arm選擇通過與中國頂級OEM的合作方式,來加速這一轉(zhuǎn)型。
目前大部分中國的應(yīng)用商店已經(jīng)給出了明確的期限,來催促軟件開發(fā)者盡快升級其應(yīng)用程序到64位版本。目前在中國所有應(yīng)用軟件中64位的采用率遠(yuǎn)超過90%,尤其是觀察排名前1000或前100的應(yīng)用普及率的時候,64位的普及率幾乎是 100%。
而在安卓智能手機(jī)之外,Arm也繼續(xù)將目光投向更大的市場。像智能電視、機(jī)頂盒等領(lǐng)域,也有望推動其進(jìn)入64位生態(tài)。
“我們已經(jīng)在純64位之路努力多年。好消息是,遷移到64位系統(tǒng)的任務(wù)已經(jīng)完成。去年,Pixel 7推出了一款純 64 位應(yīng)用程序的操作系統(tǒng),MediaTek 也推出了第一款全64位的安卓SoC,這個芯片目前被多款高端手機(jī)采用?!盇rm產(chǎn)品營銷副總裁Ian Smythe表示,“Arm 所發(fā)布的全新的TCS23是針對移動計算的最優(yōu)選的計算平臺,它包括了最尖端的CPU技術(shù)和GPU技術(shù),能夠讓游戲開發(fā)者以及人工智能應(yīng)用開發(fā)者實現(xiàn)沉浸式體驗的打造?!?
圖:Arm產(chǎn)品營銷副總裁Ian Smythe