高通AI Engine性能霸榜:背后這些值得你了解
掃描二維碼
隨時(shí)隨地手機(jī)看文章
最近魯大師公布了2020年第一季度的手機(jī)AI芯片排行榜,其中高通驍龍865以112309的得分排名第一,蘋果A13排名第二,得分為59050;華為麒麟990排名第三,得分為58014。
同時(shí),排名前十的AI芯片中,有六款來自高通的驍龍移動(dòng)平臺(tái),除了驍龍865之外,還有驍龍855/855+、驍龍765G、驍龍845和驍龍670AIE。
以手機(jī)為中心的智能硬件產(chǎn)業(yè)在這些年的發(fā)展量變過程中,一個(gè)重要的前進(jìn)方向一定是“越來越智能”,這個(gè)智能不僅僅是能幫你在拍照的時(shí)候變個(gè)臉,或者通話的時(shí)候變個(gè)聲,亦或是對(duì)和語音助手說“明天晚上提醒我看的直播”然后它照做,而是真正能“變成你肚子里的蛔蟲”,隨時(shí)都能知道你想要干什么,然后提供相關(guān)的服務(wù)。
想要實(shí)現(xiàn)這個(gè)“理想”,不僅需要軟件算法層面的創(chuàng)新,更基礎(chǔ)的,還需要硬件上的支持,這里的硬件,主要就是指AI芯片。
從上面AI芯片的榜單中,我們能夠看到目前主流的移動(dòng)端芯片制造商都在大力加碼AI芯片的布局,而這其中,來自高通的驍龍移動(dòng)平臺(tái)在AI方面的表現(xiàn)可以說很搶眼,那么這背后又有哪些值得你去了解的知識(shí)點(diǎn)呢?
強(qiáng)大AI性能表現(xiàn)背后的獨(dú)特架構(gòu)如果僅用上文魯大師手機(jī)AI芯片排行的一紙榜單來介紹驍龍移動(dòng)平臺(tái)在AI方面的表現(xiàn),或許有些蒼白。這里不妨通過市售驍龍865手機(jī)的兩個(gè)AI用例來進(jìn)行說明。
我們知道,高通驍龍移動(dòng)平臺(tái)的AI能力主要由AI Engine人工智能引擎提供支持,到驍龍865就是第五代AI Engine。而在這第五代AI Engine的加持下,驍龍865手機(jī)能夠?qū)崿F(xiàn)過去無法想象的AI功能特性。
例如有一個(gè)比較實(shí)用的,就是AI的實(shí)時(shí)翻譯,這在vivo NEX 3S手機(jī)上有著重要應(yīng)用。在這款手機(jī)自帶的App中,通過“對(duì)話”功能,就可以實(shí)現(xiàn)對(duì)語言的實(shí)時(shí)翻譯。
錄制了一段實(shí)時(shí)翻譯的演示視頻,大家可以看一下:
可以看到,vivo NEX 3S的確可以將一段英語的朗讀內(nèi)容實(shí)時(shí)地翻譯成中文,翻譯的結(jié)果也能夠讓人滿意,盡管難免有局部不準(zhǔn)確的地方,但至少可以讓人看懂這段語音講了什么內(nèi)容。
我們知道,實(shí)時(shí)翻譯對(duì)于智能手機(jī)來說不是一件簡(jiǎn)單的任務(wù),它需要模擬人腦的思維方式,實(shí)時(shí)處理接受到的語音信息,并將之翻譯為文本或語音,對(duì)神經(jīng)網(wǎng)絡(luò)運(yùn)算的運(yùn)算量、速度都有極為嚴(yán)苛的要求,需要極為強(qiáng)大的算力支撐。
另一個(gè)用例是游戲的實(shí)時(shí)插幀。這個(gè)用例我們用今年3月推出的努比亞紅魔5G手機(jī)來演示。這款手機(jī)在第五代AI Engine的加持下,做出了Touch Choreographer游戲插幀技術(shù),支持不少游戲的實(shí)時(shí)插幀。在測(cè)試時(shí),選擇了這款游戲。
實(shí)測(cè)在進(jìn)行游戲時(shí),紅魔5G手機(jī)運(yùn)行的平均幀率可以達(dá)到141.5fps,幀率波動(dòng)大約9幀左右,畢竟是插幀效果,幀率波動(dòng)大一些可以理解,由于本身已經(jīng)是如此高的幀率,這種波動(dòng)在游玩過程中是絲毫察覺不到的。
幀率對(duì)游戲體驗(yàn)的重要性不言而喻,而通過高通驍龍移動(dòng)平臺(tái)的AI Engine,可以實(shí)現(xiàn)游戲中實(shí)時(shí)插幀,無疑可以大大提升游戲體驗(yàn)。
上面這兩個(gè)用例存在一些共性,這些共性恰恰能夠體現(xiàn)驍龍移動(dòng)平臺(tái)AI Engine的特性和優(yōu)勢(shì)。
首先,這兩個(gè)用例都需要CPU、GPU等手機(jī)處理器的核心運(yùn)算部件的參與才能實(shí)現(xiàn),其次,這兩個(gè)用例都需要強(qiáng)大的AI算力的支撐,還有就是,這些AI用例的實(shí)現(xiàn)都是在終端上進(jìn)行的。
對(duì)于移動(dòng)終端上的AI應(yīng)用來說,因?yàn)槭謾C(jī)自身的計(jì)算能力、電量和存儲(chǔ)空間的限制,想要滿足這些需求,對(duì)處理器的AI性能就有著很高的要求。而高通驍龍的AI Engine正好以滿足移動(dòng)終端的AI需求為基礎(chǔ)進(jìn)行設(shè)計(jì)的。
此前已經(jīng)為大家做過很多詳細(xì)介紹,驍龍AI Engine人工智能引擎,就是利用異構(gòu)并行計(jì)算的解決方案,調(diào)用采用CPU、GPU,以及獨(dú)家的面向AI處理的硬件核心Hexagon處理器,合理利用三大硬件核心各自的運(yùn)算優(yōu)勢(shì)和特性,在底層AI框架(Caffe等)以及系統(tǒng)、軟件(SDK等)的調(diào)配下,來進(jìn)行AI運(yùn)算。這就充分運(yùn)用了移動(dòng)設(shè)備各個(gè)運(yùn)算核心的性能。
在第五代AI Engine中,高通更是集成了更多運(yùn)算核心,包括CPU、GPU、Hexagon處理器、ISP、Qualcomm傳感器中樞(Sensing Hub)、安全處理單元、調(diào)制解調(diào)器,甚至Quick Charge等等,這些核心共同為AI運(yùn)算提供支持,特別是其中主要運(yùn)算核心性能的提升,驅(qū)動(dòng)AI Engine整體算力大幅上漲。其中,驍龍865的Adreno? 650 GPU改善了浮點(diǎn)運(yùn)算和AI性能,TOPS提升了2倍,Hexagon 698處理器通過全新張量加速器將TOPS提升4倍,Kryo? 585 CPU的性能相比上代提升了25%,能效提升25%。
在這些因素的驅(qū)動(dòng)下,驍龍865移動(dòng)平臺(tái)的第五代AI Engine的AI性能相比上一代提升了2倍多,具體到體運(yùn)算力上,可以達(dá)到15 TOPS,也就是每秒15萬億次運(yùn)算的水平。
除了性能的提升,第五代AI Engine還對(duì)每個(gè)內(nèi)核進(jìn)行大幅優(yōu)化和提升,更重視整體芯片架構(gòu)面向AI計(jì)算的高效率和靈活性。
以Hexagon 698處理器為例,它采用了可執(zhí)行多維度的數(shù)據(jù)架構(gòu),包括零階張量(標(biāo)量)、一階張量(向量)、二階張量(矩陣),以及更高階張量。
因?yàn)樵诮K端側(cè)運(yùn)行的一些神經(jīng)網(wǎng)絡(luò),有適合在標(biāo)量處理器上運(yùn)行的,也有適合整個(gè)在向量處理器上進(jìn)行的,還有的則需要通過張量處理器來處理。高通AI Engine的異構(gòu)架構(gòu),則可以根據(jù)不同需求,靈活調(diào)度處理核心,對(duì)于移動(dòng)終端而言功耗更低、效率更高。
終端側(cè)AI的高效優(yōu)勢(shì)5G,將引領(lǐng)我們進(jìn)入一個(gè)新的時(shí)代,一個(gè)萬物互聯(lián)的時(shí)代,5G時(shí)代就像一張大網(wǎng),將電視機(jī)、汽車、冰箱、洗衣機(jī)、空調(diào)、音箱、甚至電表水表等等海量設(shè)備,無數(shù)終端,都網(wǎng)羅在內(nèi)。這些海量終端彼此通信連接,就需要進(jìn)行AI運(yùn)算。那么這時(shí)候就不得不考慮一個(gè)問題了:這些AI運(yùn)算是放在云端進(jìn)行,還是在終端進(jìn)行?
終端側(cè)AI,就是針對(duì)這個(gè)問題產(chǎn)生的,顧名思義,它的意思就是數(shù)據(jù)的采集、計(jì)算、決策都在前端設(shè)備本地進(jìn)行。
我們的答案是,終端側(cè)更符合5G萬物互聯(lián)時(shí)代的發(fā)展大勢(shì)。因?yàn)槿绻窃谠贫诉M(jìn)行AI運(yùn)算,要考慮到,目前全球已有數(shù)十億的聯(lián)網(wǎng)終端,未來只會(huì)越來越多,海量終端彼此互連并感知周圍環(huán)境。產(chǎn)生的海量數(shù)據(jù)全部傳給云端進(jìn)行處理和管理,不容易,也不現(xiàn)實(shí),更影響體驗(yàn)。
而相較于云端AI,終端側(cè)AI擁有更好的隱私性、更高的可靠性和更低的時(shí)延,同時(shí)高效利用網(wǎng)絡(luò)帶寬。
當(dāng)然,把AI運(yùn)算放在終端,不等于解決了一切問題。以智能手機(jī)為例,AI運(yùn)算本身需要反復(fù)、高強(qiáng)度的運(yùn)算環(huán)境,智能手機(jī)的計(jì)算能力、電池、存儲(chǔ)空間等方面都可能是個(gè)問題,所以終端側(cè)AI首先要解決的問題就是怎樣在消耗資源最少的情況下,實(shí)現(xiàn)性能或是結(jié)果的最優(yōu)化。
這也是高通在AI Engine中引入Hexagon 張量加速器的原因,因?yàn)镠exagon支持的是8位和16位的定點(diǎn)運(yùn)算,而定點(diǎn)運(yùn)算有助于模型更快的運(yùn)行,同時(shí)能耗也更低。這對(duì)于無法高效進(jìn)行浮點(diǎn)運(yùn)算的移動(dòng)終端和嵌入式應(yīng)用尤其重要。Hexagon 張量處理器的加入,可以大大提高AI Engine的整體運(yùn)算效率,降低功耗。
同時(shí),移動(dòng)端很多AI用例都是并行用例,在處理這些用例的時(shí)候,往往有大量數(shù)據(jù)進(jìn)入到終端,處理這些海量數(shù)據(jù),一定會(huì)對(duì)手機(jī)的性能資源、功耗造成不小壓力。
針對(duì)這個(gè)問題,高通在AI Engine中開發(fā)了一項(xiàng)全新的專用技術(shù),叫做深度學(xué)習(xí)帶寬壓縮。這項(xiàng)技術(shù)能夠?qū)@些海量數(shù)據(jù)進(jìn)行高達(dá)50%的壓縮,從而將需要進(jìn)入到芯片處理的數(shù)據(jù)壓縮一半,以節(jié)省電能、降低功耗。這是一項(xiàng)完全無損的壓縮技術(shù),也就是說所有數(shù)據(jù)的精度不會(huì)有任何損失。在處理一些對(duì)AI性能要求極高的用例時(shí),LPDDR5內(nèi)存可以釋放更大帶寬,同時(shí)傳輸更多數(shù)據(jù)。
通過這些技術(shù),高通提升了AI Engine不斷提升在終端側(cè)進(jìn)行AI運(yùn)算的效率,功耗也不斷降低,這為未來移動(dòng)端更深入、更全面的AI用例夯實(shí)了基礎(chǔ)??梢韵胂?,未來將出現(xiàn)的狀態(tài):集中式的云端AI在大數(shù)據(jù)訓(xùn)練以及支持時(shí)延不敏感的內(nèi)容和存儲(chǔ)中發(fā)揮著重要作用,而AI的具體執(zhí)行卻會(huì)越來越多的在無線邊緣的海量終端上,兩者相輔相成,互為補(bǔ)充。
從這一角度來說,高通AI Engine無疑是終端側(cè)AI的重要推動(dòng)者,驅(qū)動(dòng)未來由各個(gè)智能終端構(gòu)建的智慧化場(chǎng)景。
總結(jié):AI Engine表現(xiàn)出色的關(guān)鍵通過上面的介紹,我們可以總結(jié)出高通驍龍移動(dòng)平臺(tái)的AI Engine人工智能引擎能夠有出色的AI表現(xiàn)的關(guān)鍵,首先是整合CPU、GPU、DSP、ISP、傳感器中樞等各個(gè)硬件的異構(gòu)并行計(jì)算的架構(gòu)在AI運(yùn)算方面天然契合的優(yōu)勢(shì),換句話說就是系統(tǒng)級(jí)硬件設(shè)計(jì)的優(yōu)勢(shì);其次,是高通AI Engine采用了靈活的架構(gòu)設(shè)計(jì),能夠滿足不同的AI用例的需求;第三,就是在終端側(cè)層面提高AI運(yùn)算能效的努力,對(duì)高能效AI運(yùn)算有著深刻的理解。
由此,AI Engine被打造成運(yùn)算速度更快,運(yùn)算精度更高、功耗更低、支持的用例更多的AI運(yùn)算平臺(tái),對(duì)于當(dāng)前移動(dòng)終端AI應(yīng)用體驗(yàn)的提升,以及未來全場(chǎng)景智慧化服務(wù)的構(gòu)建,都大有裨益。