FPGA與ASIC,誰將引領(lǐng)移動端人工智能潮流?
傳統(tǒng)實現(xiàn)移動終端人工智能的方法是通過網(wǎng)絡(luò)把終端數(shù)據(jù)全部傳送到云端,之后在云端計算后再把結(jié)果發(fā)回移動端,例如蘋果的Siri服務(wù)。然而,這樣的方式會遇到幾個問題。第一,使用網(wǎng)絡(luò)傳輸數(shù)據(jù)會產(chǎn)生延遲,很可能數(shù)據(jù)計算的結(jié)果會需要等待數(shù)秒甚至數(shù)十秒才能傳送回終端(使用過Prisma app處理過照片的朋友們應(yīng)該深有體會)。這樣一來,那些需要立刻得到計算結(jié)果的應(yīng)用就不能用這種方式。例如無人機上使用的深度學(xué)習(xí)躲避障礙物算法,如果它全部在云端執(zhí)行恐怕計算結(jié)果還沒送回來無人機已經(jīng)掉下來了。第二,一旦使用網(wǎng)絡(luò)傳送數(shù)據(jù),那么數(shù)據(jù)就有被劫持的風(fēng)險。因此,那些要求低計算延遲以及對于數(shù)據(jù)安全性非常敏感的應(yīng)用就需要把人工智能算法全部在終端實現(xiàn),或者至少在終端完成一些預(yù)處理運算然后再把少量運算結(jié)果(而不是大量的原始數(shù)據(jù))傳送到云端完成最終計算,這就需要移動終端硬件能夠快速完成這些運算。另一方面,移動端硬件完成這些運算需要的能量又不能太多,否則電池一下就沒電了(想在手機上配功耗200W+的Nvidia Pascal顯卡肯定不行!)。
目前,許多公司正在積極開發(fā)能實現(xiàn)移動端人工智能的硬件。對于移動端人工智能硬件的實現(xiàn)方法,有兩大流派,即FPGA派和ASIC派。FPGA流派的代表公司如Xilinx主推的Zynq平臺,而ASIC流派的代表公司有Movidius。兩大流派各有長短,下面讓我來細(xì)細(xì)分說。
FPGA vs. ASIC
首先講講FPGA和ASIC的區(qū)別。FPGA全稱“可編輯門陣列”(Field Programmable Gate Array),其基本原理是在FPGA芯片內(nèi)集成大量的數(shù)字電路基本門電路以及存儲器,而用戶可以通過燒入FPGA配置文件來來定義這些門電路以及存儲器之間的連線。這種燒入不是一次性的,即用戶今天可以把FPGA配置成一個微控制器MCU,明天可以編輯配置文件把同一個FPGA配置成一個音頻編解碼器。ASIC則是專用集成電路(ApplicaTIon-Specific Integrated Circuit),一旦設(shè)計制造完成后電路就固定了,無法再改變。
用于深度學(xué)習(xí)加速器的FPGA(Xilinx Kintex 7 Ultrascle,左)和ASIC(Movidius Myriad 2,右)
比較FPGA和ASIC就像比較樂高積木和模型。舉例來說,如果你發(fā)現(xiàn)最近星球大戰(zhàn)里面Yoda大師很火,想要做一個Yoda大師的玩具賣,你要怎么辦呢?有兩種辦法,一種是用樂高積木搭,還有一種是找工廠開模定制。用樂高積木搭的話,只要設(shè)計完玩具外形后去買一套樂高積木即可。而找工廠開模的話在設(shè)計完玩具外形外你還需要做很多事情,比如玩具的材質(zhì)是否會散發(fā)氣味,玩具在高溫下是否會融化等等,所以用樂高積木來做玩具需要的前期工作比起找工廠開模制作來說要少得多,從設(shè)計完成到能夠上市所需要的時間用樂高也要快很多。FPGA和ASIC也是一樣,使用FPGA只要寫完Verilog代碼就可以用FPGA廠商提供的工具實現(xiàn)硬件加速器了,而要設(shè)計ASIC則還需要做很多驗證和物理設(shè)計(ESD,Package等等),需要更多的時間。如果要針對特殊場合(如軍事和工業(yè)等對于可靠性要求很高的應(yīng)用),ASIC則需要更多時間進(jìn)行特別設(shè)計以滿足需求,但是用FPGA的話可以直接買軍工級的高穩(wěn)定性FPGA完全不影響開發(fā)時間。但是,雖然設(shè)計時間比較短,但是樂高積木做出來的玩具比起工廠定制的玩具要粗糙(性能差)許多(下圖),畢竟工廠開模是量身定制。另外,如果出貨量大的話,工廠大規(guī)模生產(chǎn)玩具的成本會比用樂高積木做便宜許多。FPGA和ASIC也是如此,在同一時間點上用最好的工藝實現(xiàn)的ASIC的加速器的速度會比用同樣工藝FPGA做的加速器速度快5-10倍,而且一旦量產(chǎn)后ASIC的成本會遠(yuǎn)遠(yuǎn)低于FPGA方案(便宜10到100倍)。
FPGA vs ASIC :積木vs 手辦
當(dāng)然,F(xiàn)PGA還有另一大特點,就是可以隨時重新配置,從而在不同的場合實現(xiàn)不同的功能。但是,當(dāng)把FPGA實現(xiàn)的加速器當(dāng)作一個商品賣給用戶時,要讓用戶自己去重新配置卻要花一番功夫?;氐接脴犯叻e木做玩具的例子,玩具廠商可以宣稱這個Yoda大師由積木搭起來,所以玩家可以把這些積木重新組合成其他角色(比如天行者路克)。但是一般玩家根本不會拆裝積木,怎么辦?解決方案要么是把目標(biāo)市場定為精通積木的專業(yè)核心玩家,要么是在玩具后面加一個開關(guān),一般玩家只要按一下就可以讓積木自動重新組裝。很顯然,第二個方案需要很高的技術(shù)門檻。對于FPGA加速器來說,如果要把可重配置作為賣點,要么是賣給有能力自己開發(fā)FPGA的企業(yè)用戶(如百度,微軟等公司確實有在開發(fā)基于FPGA的深度學(xué)習(xí)加速器并且在不同的應(yīng)用場合將FPGA配置為不同的加速器),要么是開發(fā)一套方便易用能將用戶的深度學(xué)習(xí)網(wǎng)絡(luò)轉(zhuǎn)化為FPGA配置文件的編譯器(深鑒等公司正在嘗試)。從目前來看,即使用高端的服務(wù)器來做FPGA編譯都會需要數(shù)分鐘的時間,如果編譯在計算能力較弱的移動終端做需要的時間就更長了。對于移動終端用戶來說,如何說服他們嘗試重新配置FPGA并接受長達(dá)數(shù)十分鐘的時間來編譯網(wǎng)絡(luò)并配置FPGA仍然是一個問題。
小結(jié):