世界頂級FPGA會議——FPGA2017在落幕之時傳來消息:來自中國的初創(chuàng)公司深鑒科技的ESE語音識別引擎的論文獲得了本次會議唯一的最佳論文(Best Paper Award)。
FPGA2017 最佳論文證書
作為FPGA領域最具影響力、歷史最悠久的學術會議,F(xiàn)PGA國際大會始終引領著整個FPGA工業(yè)界的技術創(chuàng)新。
在深度學習浪潮席卷全球的今天,F(xiàn)PGA 2017特別增設了一個環(huán)節(jié):The Role of FPGAs in Machine Learning(FPGA在機器學習領域所扮演的角色),并邀請了兩家公司,英特爾與深鑒科技,共同致會議Tutorial。成立不足一年,深鑒科技已得到FPGA學術界的高度認可。
FPGA(現(xiàn)場可編程門陣列,F(xiàn)ield-Programmable Gate Array)。簡而言之,這是一種程序驅動邏輯器件,就像一個微處理器,其控制程序存儲在內(nèi)存中,加電后,程序自動裝載到芯片執(zhí)行。
相比CPU和GPU,F(xiàn)PGA憑借比特級細粒度定制的結構、流水線并行計算的能力和高效的能耗,在深度學習應用中展現(xiàn)出獨特的優(yōu)勢,在大規(guī)模服務器部署或資源受限的嵌入式應用方面有巨大潛力。此外,F(xiàn)PGA架構靈活,使得研究者能夠在諸如GPU的固定架構之外進行模型優(yōu)化探究。
深鑒科技開發(fā)的“雨燕”深度學習處理平臺
去年5月,DT君作為首家媒體,對剛成立不久的深鑒科技進行了專題報道。創(chuàng)始人兼CEO姚頌表示,現(xiàn)在有很多公司在做各種各樣的算法,包括ADAS(高級駕駛輔助系統(tǒng))或者機器人等應用,因為算法是最快的切入方式。
但算法最終要落地,無論是在CPU上運行,還是在GPU上運行,都會受限于性能、功耗和成本等因素。深鑒科技的產(chǎn)品將以ASIC級別的功耗,來達到優(yōu)于GPU的性能,可把它稱作“深度學習處理單元”(Deep Processing Unit,DPU)。
深鑒科技首席科學家韓松在大會做關于高效深度學習的Tutorial
在本次FPGA大會的演講中,深鑒科技首席科學家韓松從算法、硬件、訓練、推理四個維度,對于深度學習算法的訓練與應用兩方面如何變得更加高效進行了闡述。韓松提出的“先壓縮、再加速”的深度學習推理方案,比“訓完即用”的推理方案更快、更節(jié)約功耗。
上圖:傳統(tǒng)的“訓完即用”的機器學習推理方案;下圖:韓松提出的“先壓縮、再加速”的機器學習推理方案
在本次會議上,深鑒科技的論文《ESE: Efficient Speech Recognition Engine withSparse LSTM on FPGA》得到錄用并最終被評選為本次大會的唯一最佳論文。該項工作聚焦于使用LSTM進行語音識別的場景,結合深度壓縮以及專用處理器架構,使得經(jīng)過壓縮的網(wǎng)絡和未經(jīng)壓縮的網(wǎng)絡相比實現(xiàn)6倍的性能提升。本文所描述的ESE語音識別引擎也是深鑒科技RNN處理器產(chǎn)品的原型。
最佳論文頒獎
更為難得的是,此篇論文不僅僅停留在仿真與模擬結果階段,而是落在了實實在在的演示系統(tǒng)上。
會場外,基于ESE語音識別引擎的深鑒語音識別平臺進行了現(xiàn)場展示,得到了參會教授與工業(yè)界人士的極大關注——使用Xilinx KU060 FPGA與NVIDIA GTX 1080 GPU運行一個實際應用的LSTM現(xiàn)場對比,深鑒FPGA方案穩(wěn)定的保持了超過GPU六倍以上的性能。
這就意味著,處理相同的語音識別任務,處理延遲大大降低,用戶體驗能有明顯的提升。測試結果表明,深鑒能夠基于業(yè)界領先的商用的語音識別算法模型與數(shù)據(jù),實現(xiàn)模型壓縮,提升硬件性能。
深鑒科技CTO單羿(左圖)與CEO姚頌(右圖)現(xiàn)場向與會專家展示深鑒語音識別平臺
深鑒科技雖成立于2016年3月,但早在2013年,來自清華大學和斯坦福大學的幾位公司創(chuàng)始人就開始了深度學習相關的學術研究。
2015年深度學習頂級會議NIPS上,斯坦福大學在讀博士、深鑒科技首席科學家韓松提出利用剪枝和權重共享的方式對目前的深度神經(jīng)網(wǎng)絡在不損失網(wǎng)絡精度的前提下大幅度降低計算和存儲資源消耗。
公司技術團隊聚焦于稀疏化神經(jīng)網(wǎng)絡處理的技術路線,提出的“深度壓縮”(Deep Compression)算法可以將模型尺寸壓縮數(shù)十倍大小而不損失預測精度,并結合專用的深度學習處理架構來實現(xiàn)加速。
ICLR 2016和FPGA 2017兩篇最佳論文的獲獎,再次證明了這家中國技術型初創(chuàng)公司所聚焦的稀疏化技術路線,已越來越得到深度學習界的認可。