Xilinx AI 加速+阿里云 FaaS
借助 ML 框架在賽靈思 FPGA 上直接加速 Yolo-v2
阿里巴巴過(guò)去使用 GPU 運(yùn)行 Yolo-v2 Tiny(數(shù)據(jù)類(lèi)型為 Float32),通過(guò)這種方法掌握每日千萬(wàn)級(jí)的圖像內(nèi)容。由于該架構(gòu)未經(jīng)充分優(yōu)化,GPU 只能實(shí)現(xiàn)有限的每秒查詢(xún)次數(shù) (QPS) 吞吐量,導(dǎo)致用電成本高、服務(wù)器空間占用大。為了降低運(yùn)營(yíng)費(fèi)用,阿里巴巴尋求比 GPU 成本更低的解決方案來(lái)檢測(cè)有害或多余的文本信息。
依托于賽靈思 16nm Virtex UltraScale+? FPGA 的高度自適應(yīng)架構(gòu),阿里云 FaaS 團(tuán)隊(duì)在 Int16 上運(yùn)行 Yolo-v2 Tiny 模型,在媲美 GPU 精度的前提下實(shí)現(xiàn)一流的 QPS 性能。單片賽靈思 UltraScale+ FPGA 每秒能處理數(shù)百幅圖片,與最初的 GPU 實(shí)現(xiàn)方案相比性能提高 3.5 倍。在 FaaS 的啟發(fā)下,雖然GPU通過(guò)完成類(lèi)似優(yōu)化也可以達(dá)到類(lèi)似性能,但賽靈思解決方案的單幅圖像成本更低。除此之外,賽靈思 Vitis AI 在加快開(kāi)發(fā)速度方面也有著上佳表現(xiàn)。
VU9P 與 GPU 運(yùn)行 YOLO V2 Tiny 的對(duì)比
賽靈思 Vitis AI 堆棧
在不降低精度的前提下節(jié)省 75% 總擁有成本
Vitis AI 支持開(kāi)發(fā)者在無(wú)需編寫(xiě)任何 RTL 代碼的情況下,優(yōu)化 DNN 模型并將預(yù)訓(xùn)練的 DNN 模型部署到賽靈思 FPGA 中。其運(yùn)行時(shí)及外殼程序讓開(kāi)發(fā)者無(wú)需成為 FPGA 專(zhuān)家就能夠充分從賽靈思硬件加速中獲益。
阿里巴巴云和智能FPGA異構(gòu)計(jì)算負(fù)責(zé)人張振祥負(fù)責(zé)領(lǐng)導(dǎo)該項(xiàng)目并成功在 F3 實(shí)例上實(shí)施了 AI 加速。
阿里云 FaaS 在云端提供統(tǒng)一的硬件平臺(tái)與中間件。在賽靈思 Vitis AI 的支持下,阿里云 FaaS 能夠大幅降低 AI 加速器的開(kāi)發(fā)成本與部署成本。加速器廠(chǎng)商可以將加速器以服務(wù)形式提供給用戶(hù),克服加速技術(shù)的硬件壁壘。用戶(hù)可以按需使用加速服務(wù),不必理解底層硬件詳情。借助 Vitis AI,阿里巴巴和賽靈思聯(lián)合開(kāi)發(fā) AI 加速解決方案的最大優(yōu)勢(shì)在于,阿里巴巴不需要任何人成為使用 FPGA 技術(shù)的專(zhuān)家。