網(wǎng)紅CNN技術(shù)也要玩移動端了 但沒有專門DSP可不行
網(wǎng)紅級別的CNN(卷積神經(jīng)網(wǎng)絡(luò)技術(shù))已經(jīng)開始應(yīng)用在車載、監(jiān)控安防、無人機和移動/可穿戴設(shè)備中,以提升這些設(shè)備的圖像識別能力。傳統(tǒng)的解決方案是由圖像DSP加硬件加速器來完成,但效率低下且耗能較高,新的技術(shù)因此呼之欲出。
近日,Cadence公司正式公布業(yè)界首款獨立完整的神經(jīng)網(wǎng)絡(luò)DSP —Cadence®Tensilica® Vision C5 DSP,面向?qū)ι窠?jīng)網(wǎng)絡(luò)計算能力有極高要求的視覺設(shè)備、雷達/光學(xué)雷達和融合傳感器等應(yīng)用量身優(yōu)化,可以勝任目前的CNN計算任務(wù)。
CNN是兩位科學(xué)家在上世紀60年代研究貓大腦時所提出的概念,經(jīng)過多年演化,已經(jīng)進入了實用領(lǐng)域。去年人機大戰(zhàn)的勝者阿法狗就是CNN結(jié)合深度學(xué)習的產(chǎn)物。目前,CNN正以“令人難以置信”的速度飛快演進。“不僅每隔幾個月就會誕生新的神經(jīng)網(wǎng)絡(luò)算法,而且在2012-2015年這短短的3年時間內(nèi),神經(jīng)網(wǎng)絡(luò)算法的復(fù)雜度也增加了16倍,遠遠超過摩爾定律的發(fā)展速度”,Cadence公司Tensilica事業(yè)部市場高級總監(jiān)Steve Roddy說。
CNN 的應(yīng)用領(lǐng)域非常廣泛,主要包括圖像和模式識別、語音識別、自然語言處理,以及視頻分析。從智能手機到智能手表,從高級駕駛輔助系統(tǒng)(ADAS)到虛擬現(xiàn)實游戲機,再到無人機控制和安防設(shè)備,依賴高分辨率成像(1080p,4K,甚至更高)的應(yīng)用領(lǐng)域正在快速發(fā)展。
通用CPU/GPU是CNN主流的應(yīng)用平臺,不過這種方法更適合于數(shù)據(jù)中心。Steve Roddy認為,CPU/GPU有強大的計算能力,但是功耗、體積都限制了它們在移動端的應(yīng)用。還有重要的一點,前方采集的數(shù)據(jù)回傳到數(shù)據(jù)中心是需要時間的,這就影響了應(yīng)用端面對復(fù)雜情況的處理能力。
就像Google開發(fā)自己的TPU一樣,前端設(shè)備也需要自己的專用處理器,這也是Vision C5 DSP誕生的原因。我們來看看這顆處理器的能力:
• 不到1mm2的芯片面積可以實現(xiàn)1TMAC/秒的計算能力(吞吐量較Vision P6 DSP提高4倍),為深度學(xué)習內(nèi)核提供極高的計算吞吐量;
• 1024 8-bit MAC或512 16-bit MAC 確保8-bit 和16-bit精度的出色性能;
• 128路8-bit SIMD或64路16-bit SIMD的VLIW SIMD架構(gòu);
• 專為多核設(shè)計打造,以極少的資源代價獲得NxTMAC的處理能力;
• 內(nèi)置iDMA和AXI4總線接口;
• 使用與Vision P5和P6 DSP一致的經(jīng)驗證軟件工具包;
基于業(yè)界知名的AlexNet CNNBenchmark,Vision C5 DSP的計算速度較業(yè)界的GPU最快提高6倍;Inception V3 CNN benchmark,有9倍的性能提升。
下面這張圖比較了Vision C5 DSP與其他幾種方案的特點。從圖中可以看出,在易于開發(fā)、能效、升級空間和單核運算能力方面,Vision C5 DSP都處于絕對的優(yōu)勢。
Steve Roddy指出,通用CPU/GPU加硬件加速器有一個重大的弊病。那就是,通用CPU/GPU與硬件加速器執(zhí)行CNN運算時會進行海量數(shù)據(jù)傳輸,這樣不但會占用相當?shù)馁Y源,并且會帶來驚人的能耗。
另外,硬件加速器屬于ASIC,從設(shè)計到投產(chǎn)會有很長時間,完全趕不上技術(shù)發(fā)展的速度,Steve Roddy補充。
以基于攝像頭的視覺系統(tǒng)為例,目前此類系統(tǒng)在汽車、無人機和安防領(lǐng)域最為常見。這種架構(gòu)需要兩種最基礎(chǔ)的視覺優(yōu)化計算模式:首先,利用傳統(tǒng)視覺算法對攝像頭捕捉到的照片或圖像進行增強;其次,使用基于神經(jīng)網(wǎng)絡(luò)的認知算法對物體進行檢測和識別?,F(xiàn)有的神經(jīng)網(wǎng)絡(luò)加速器解決方案皆依賴與圖像DSP連接的硬件加速器,神經(jīng)網(wǎng)絡(luò)代碼被分為兩部分,一部分網(wǎng)絡(luò)層運行在DSP上,卷積層則運行在硬件加速器上,直接導(dǎo)致架構(gòu)效率低下,且耗能較高。
Vision C5 DSP是專門針對神經(jīng)網(wǎng)絡(luò)進行了特定優(yōu)化的DSP,可以實現(xiàn)全神經(jīng)網(wǎng)絡(luò)層的計算加速(卷積層、全連接層、池化層和歸一化層),而不僅僅是卷積層的加速。因此,主視覺/圖像DSP能力得以釋放,獨立運行圖像增強應(yīng)用,Vision C5 DSP則負責執(zhí)行神經(jīng)網(wǎng)絡(luò)任務(wù)。通過移除神經(jīng)網(wǎng)絡(luò)DSP和主視覺/圖像DSP之間的冗余數(shù)據(jù)傳輸,Vision C5 DSP的功耗遠低于現(xiàn)有的神經(jīng)網(wǎng)絡(luò)加速器。同時,Vision C5 DSP還提供針對神經(jīng)網(wǎng)絡(luò)的單核編程模型。
Steve Roddy表示,Vision C5 DSP是一款靈活前瞻的永不過時(future-proof)解決方案,支持各類內(nèi)核尺寸、深度和輸入規(guī)格。Vision C5 DSP采用多項系數(shù)壓縮/解壓技術(shù),支持未來添加的新計算層。與之相反,CNN硬件加速器由于程序重編能力有限,擴展能力較差。
據(jù)悉,目前已有客戶正在利用C5 DSP核心開發(fā)下一代支持神經(jīng)網(wǎng)絡(luò)算法的SoC芯片。第一顆內(nèi)建VISION C5 DSP 內(nèi)核的SoC產(chǎn)品會在2018年量產(chǎn)出貨。