網紅CNN技術也要玩移動端了 但沒有專門DSP可不行
網紅級別的CNN(卷積神經網絡技術)已經開始應用在車載、監(jiān)控安防、無人機和移動/可穿戴設備中,以提升這些設備的圖像識別能力。傳統(tǒng)的解決方案是由圖像DSP加硬件加速器來完成,但效率低下且耗能較高,新的技術因此呼之欲出。
近日,Cadence公司正式公布業(yè)界首款獨立完整的神經網絡DSP —Cadence®Tensilica® Vision C5 DSP,面向對神經網絡計算能力有極高要求的視覺設備、雷達/光學雷達和融合傳感器等應用量身優(yōu)化,可以勝任目前的CNN計算任務。
CNN是兩位科學家在上世紀60年代研究貓大腦時所提出的概念,經過多年演化,已經進入了實用領域。去年人機大戰(zhàn)的勝者阿法狗就是CNN結合深度學習的產物。目前,CNN正以“令人難以置信”的速度飛快演進。“不僅每隔幾個月就會誕生新的神經網絡算法,而且在2012-2015年這短短的3年時間內,神經網絡算法的復雜度也增加了16倍,遠遠超過摩爾定律的發(fā)展速度”,Cadence公司Tensilica事業(yè)部市場高級總監(jiān)Steve Roddy說。
CNN 的應用領域非常廣泛,主要包括圖像和模式識別、語音識別、自然語言處理,以及視頻分析。從智能手機到智能手表,從高級駕駛輔助系統(tǒng)(ADAS)到虛擬現(xiàn)實游戲機,再到無人機控制和安防設備,依賴高分辨率成像(1080p,4K,甚至更高)的應用領域正在快速發(fā)展。
通用CPU/GPU是CNN主流的應用平臺,不過這種方法更適合于數(shù)據(jù)中心。Steve Roddy認為,CPU/GPU有強大的計算能力,但是功耗、體積都限制了它們在移動端的應用。還有重要的一點,前方采集的數(shù)據(jù)回傳到數(shù)據(jù)中心是需要時間的,這就影響了應用端面對復雜情況的處理能力。
就像Google開發(fā)自己的TPU一樣,前端設備也需要自己的專用處理器,這也是Vision C5 DSP誕生的原因。我們來看看這顆處理器的能力:
• 不到1mm2的芯片面積可以實現(xiàn)1TMAC/秒的計算能力(吞吐量較Vision P6 DSP提高4倍),為深度學習內核提供極高的計算吞吐量;
• 1024 8-bit MAC或512 16-bit MAC 確保8-bit 和16-bit精度的出色性能;
• 128路8-bit SIMD或64路16-bit SIMD的VLIW SIMD架構;
• 專為多核設計打造,以極少的資源代價獲得NxTMAC的處理能力;
• 內置iDMA和AXI4總線接口;
• 使用與Vision P5和P6 DSP一致的經驗證軟件工具包;
基于業(yè)界知名的AlexNet CNNBenchmark,Vision C5 DSP的計算速度較業(yè)界的GPU最快提高6倍;Inception V3 CNN benchmark,有9倍的性能提升。
下面這張圖比較了Vision C5 DSP與其他幾種方案的特點。從圖中可以看出,在易于開發(fā)、能效、升級空間和單核運算能力方面,Vision C5 DSP都處于絕對的優(yōu)勢。
Steve Roddy指出,通用CPU/GPU加硬件加速器有一個重大的弊病。那就是,通用CPU/GPU與硬件加速器執(zhí)行CNN運算時會進行海量數(shù)據(jù)傳輸,這樣不但會占用相當?shù)馁Y源,并且會帶來驚人的能耗。
另外,硬件加速器屬于ASIC,從設計到投產會有很長時間,完全趕不上技術發(fā)展的速度,Steve Roddy補充。
以基于攝像頭的視覺系統(tǒng)為例,目前此類系統(tǒng)在汽車、無人機和安防領域最為常見。這種架構需要兩種最基礎的視覺優(yōu)化計算模式:首先,利用傳統(tǒng)視覺算法對攝像頭捕捉到的照片或圖像進行增強;其次,使用基于神經網絡的認知算法對物體進行檢測和識別?,F(xiàn)有的神經網絡加速器解決方案皆依賴與圖像DSP連接的硬件加速器,神經網絡代碼被分為兩部分,一部分網絡層運行在DSP上,卷積層則運行在硬件加速器上,直接導致架構效率低下,且耗能較高。
Vision C5 DSP是專門針對神經網絡進行了特定優(yōu)化的DSP,可以實現(xiàn)全神經網絡層的計算加速(卷積層、全連接層、池化層和歸一化層),而不僅僅是卷積層的加速。因此,主視覺/圖像DSP能力得以釋放,獨立運行圖像增強應用,Vision C5 DSP則負責執(zhí)行神經網絡任務。通過移除神經網絡DSP和主視覺/圖像DSP之間的冗余數(shù)據(jù)傳輸,Vision C5 DSP的功耗遠低于現(xiàn)有的神經網絡加速器。同時,Vision C5 DSP還提供針對神經網絡的單核編程模型。
Steve Roddy表示,Vision C5 DSP是一款靈活前瞻的永不過時(future-proof)解決方案,支持各類內核尺寸、深度和輸入規(guī)格。Vision C5 DSP采用多項系數(shù)壓縮/解壓技術,支持未來添加的新計算層。與之相反,CNN硬件加速器由于程序重編能力有限,擴展能力較差。
據(jù)悉,目前已有客戶正在利用C5 DSP核心開發(fā)下一代支持神經網絡算法的SoC芯片。第一顆內建VISION C5 DSP 內核的SoC產品會在2018年量產出貨。