成立7年的AI新創(chuàng)公司W(wǎng)ave Computing日前在Hot Chips大會上介紹了該公司研發(fā)的多核架構資料流處理器(Dataflow Processing Unit;DPU),號稱在神經(jīng)網(wǎng)路訓練速度方面可達GPU加速器的1,000倍,該公司技術長Chris Nicol更認為資料流架構是訓練高效能網(wǎng)路最有效的方式。
根據(jù)The Next Platform報導,Nicol在應用多核策略解決問題方面擁有豐富的經(jīng)驗,不僅曾協(xié)助澳洲最大的資訊及通訊科技研究機構NICTA,也成立了貝爾實驗室共同研發(fā)最早的多處理器系統(tǒng)單晶片。 Nicol認為未來大規(guī)模的訓練遲早會移出資料中心改在邊緣執(zhí)行,彰顯DPU元件的潛在價值。
Wave Computing發(fā)表的DPU晶片具有16,000個處理元件、8,000個以上的運算單元以及獨特的自定時機制,使用粗粒可重組式架構(coarse grained reconfigurable architecture),運行頻率為6.7GHz,在沒有資料通過時,DPU會進入休眠狀態(tài)。 DPU可以看作是FPGA與多核處理器的混合體,能處理數(shù)千個元件的靜態(tài)資料流圖排程。
Nicol表示,目前異質運算的定義有個問題,也就是主控都在CPU上執(zhí)行,加速器必須等待CPU下達指令,而Wave Computing希望徹底改變這樣的架構。 Nicol指出,新的加速器架構(尤其是GPU)在載入核心(kernel)以及使用微控制器在執(zhí)行期移出與移入程式時都會產生延遲問題,而一個去除CPU的架構可以在卸載模式中得到更多性能效益。
Nicole指出,深度學習實際就是在深度學習軟體上編程的資料流圖,在類似Wave這種可以在執(zhí)行期組成資料流圖的處理器上運行,而這樣的工作流程產生了用來訓練網(wǎng)路的資料流圖。舉例來說,系統(tǒng)會在執(zhí)行期從TensorFlow取得資料流圖,然后直接將它轉換成不需要CPU就可執(zhí)行的資料流圖,然后再映成到Wave的資料流晶片上。
Nicol表示,這是一個粗??芍貥嬯嚵?,有點類似空間運算(spatial computing),當程式編譯為多處理器核心時,仍然需要將該程式分區(qū),這也是多核晶片的問題所在,而開放式運算語言(OpenCL)并無法提供解決之道。 Wave有自己的空間編譯器可以排程、規(guī)定路線、將軟體映成在其緊密耦合的互連處理器架構上,這樣會比使用暫存器速度更快。
盡管這些新架構非常令人注目,但GPU的軟體生態(tài)系統(tǒng)在機器學習工作負載已十分健全,超大規(guī)模資料中心是否愿意容忍風險,導入一個完全不同的訓練模式,還是由他們自己決定。