算力載體形態(tài)從未如今天這樣多元,從老三樣CPU、GPU、FPGA,到新三樣NPU、TPU、DPU,各領風騷,如果算上各種小眾處理器名稱的術語縮寫,據說26個英文字母都不夠用了。于是,全球處理器龍頭,算力武器庫最豐富的英特爾決定終結這一亂局,提出XPU概念。所謂XPU,一如X86中的“X”,是任意的意思,XPU概念將覆蓋CPU、GPU、FPGA和各種專用加速處理芯片,可處理標量、矢量、矩陣和空間架構等各種計算要素,是一個大一統的異構計算體系。
算力載體多元化肇始于數據量持續(xù)指數級增長,以及數據形態(tài)越來越多元化?,F如今,大量的數據并不是易編程處理的結構化數據,處理形態(tài)多元的數據需要新算法與新算力載體支持,一種架構包打天下已經成為歷史,傳統解決方案耗能巨大難以支撐數據增長勢頭。在2021世界人工智能大會上,英特爾研究院副總裁、英特爾中國研究院院長宋繼強表示,新時代科技公司需要融合不同技術,以應對全社會數字化轉型帶來的機遇和挑戰(zhàn)。他說:“用不同架構去處理不同類型的數據,根據處理速度的要求、帶寬的要求去優(yōu)化,打組合拳好過只用一種武器解決所有問題?!?

從異構計算到超異構計算
XPU概念出現離不開異構計算。異構計算是行業(yè)熱點,宋繼強曾撰文介紹過異構計算發(fā)展情況,并提出超異構計算概念,他認為,超異構計算將消除當前異構計算累積的弊病,打開算力增長空間,滿足人工智能跳躍式發(fā)展對算力的需求。
異構計算是指在完成一個任務時,采用一種以上的硬件架構設計,將其組合在一起,以實現更優(yōu)性能和功耗表現。異構計算組合方式主要包括:一體化SoC,該方式專用性最強、能耗最低、性能可能也最高,能效比非常好,但只在需求量達到一定規(guī)模時,才能達到商用化開發(fā)要求的投入產出比;分體式板卡,其優(yōu)勢是靈活,工程師可以根據需求隨意組合,但受限于PCB走線與接插件性能,板級組合系統的功耗和帶寬速度都要打很大折扣。

傳統的異構計算,已經不能滿足產業(yè)應用對AI計算的需求。如下圖所示,一體化SoC(紅線)和分體式板卡(藍線),分別有著比較明顯的劣勢。為改變傳統異構計算劣勢,英特爾提出了超異構計算概念。

架構融合、異質集成和軟件統一構成“超異構計算”三要素。架構融合,即之前提到的面向標量、矢量、矩陣和空間等不同架構相互組合,各用所長。例如,用CPU處理標量數據;用GPU處理矢量運算;用深度神經網絡加速器處理塊狀運算,進行矩陣加速;用FPGA處理稀疏矩陣運算,可以大幅降低專用I/O和計算消耗。

超異構計算與異構計算的主要區(qū)別體現在兩點,一個是異質封裝能力,一個是統一軟件平臺,宋繼強告訴告訴探索科技(techsugar),超異構的“‘超’就超在這里。”
異質封裝集成是利用半導體先進制造與封裝技術,將不同節(jié)點裸芯片封裝在同一顆產品里面。傳統異質集成封裝將芯片平鋪在一起,主要有兩個缺點,第一增加面積,芯片數量多時導致封裝面積過大,成本增加很多;平面集成導致芯片之間連線較長,從而限制了連通帶寬。立體封裝(2.5D或3D封裝)則解決了上述問題,將芯片像高樓一樣分層堆疊,讓異質集成有了極其廣闊的發(fā)揮空間。

宋繼強在演進和受訪時都強調,當前異質封裝技術多是將處理器與存儲器封在一起,目的是為了打破存儲墻,增加處理器與存儲器之間的帶寬。在此之上,英特爾更提出了計算芯片異質封裝,將不同節(jié)點工藝屬性的計算芯片(Compute Die)封在同一產品內,更能發(fā)揮不同計算核心的協同效力。
多架構并存滿足了應用對硬件性能的多樣化需求,但不同架構開發(fā)工具和環(huán)境往往不同,一個算法到另外一個架構去實施往往要重新開發(fā),所以異構計算增加了巨大的軟件開發(fā)工作量。為解決這一異構計算的最大痛點,英特爾在2019年公布oneAPI項目,這是一個開源跨架構的編程模型,為開發(fā)者在使用CPU、GPU、FPGA和專用加速器時提供統一的開發(fā)體驗。

oneAPI的目的是降低軟件開發(fā)者使用異構系統的門檻,減少重復開發(fā)工作,在硬件平臺升級后,軟件能以最小開發(fā)成本升級到新一代硬件平臺。oneAPI開放包容,并不囿于英特爾硬件,該編程模型可以支持現在市場上主流計算硬件,目前已經有四五十家企業(yè)、大學機構宣布支持oneAPI。宋繼強說:“友商的GPU和CPU,都已經有oneAPI支持的案例?!?
集成光電和神經擬態(tài)計算
I/O傳輸瓶頸是當代大型計算系統面臨的另一核心挑戰(zhàn)。計算能力的提升,帶來更多數據交互需求,當前以銅線為主的I/O互連技術應對起來就有些左支右絀,難以為繼,I/O模塊的尺寸和功耗都限制了計算系統的擴展。以功耗為例,增加的I/O線路會消耗大量的電能,這樣計算模塊分到的電能就非常少。
宋繼強指出,與銅相比,光是理論上更優(yōu)的互連介質。但在實際應用中,光互連技術還有光電轉換效率低、光器件體積大等劣勢。近年來,英特爾在光互連技術中已經取得突破性進展,逐漸消除光互連技術的缺點。例如,英特爾研究院將硅光發(fā)射、調制和接收模塊等光處理中間過程模塊尺寸縮小,從而將光模塊和CMOS光處理器整合在一個芯片中,大幅度縮小整個系統的尺寸和功耗,從而可以用在服務器應用中。

此外,英特爾100G硅光收發(fā)器累積出貨超過400萬顆;英特爾在2020年推出業(yè)界首個一體封裝光學以太網交換機,集成了1.6 Tbps 的硅光引擎與 12.8 Tbps 的可編程以太網交換機。宋繼強認為,集成光電技術具備變革性能力,非常值得關注。
神經擬態(tài)計算也是英特爾當前的一個研究重點。英特爾推出的神經擬態(tài)計算基礎芯片Loihi,采用易擴展的存算一體架構,純數字電路實現,擁有128個核,每個神經擬態(tài)計算內核模擬1024個神經元計算結構,共13萬個神經元,每個神經元又有1000個突觸連接,共1.3億個突觸。在一個應用實施中,英特爾將768個Loihi芯片連接在一起,做成規(guī)模接近1億神經元的系統,用于科學研究。
相比深度學習算法,神經擬態(tài)計算的優(yōu)勢是低功耗與廣適用。英特爾Loihi基于脈沖神經網絡(Spike Neural Network,簡稱SSN),采用異步時鐘,只有工作的模塊耗電,不工作的部分完全不耗電。宋繼強表示,與傳統深度學習加速芯片相比,Loihi用電效率高1000倍。
深度學習模型基于數據驅動,針對某一個任務訓練出的算法并不能輕易擴展到其他應用上。而神經擬態(tài)計算具備自學習機制,系統會根據工作時輸入的數據調整參數相對應的硬件配置,這樣硬件就能根據需求不同而演化出不同的模型,其靈活性是深度學習算法不能比擬的。

宋繼強介紹,Loihi沒有乘加器和浮點運算單元,其運算功能由神經元來實現,開發(fā)者可以根據應用將神經元劃分為視覺、語言和數學等不同區(qū)域,同時進行多模態(tài)訓練。以識別榴蓮為例,深度學習算法要靠成千上萬張榴蓮照片訓練才能識別出來,而人則可以通過看、嗅、摸等多種感覺去感知榴蓮,不同感知映射成為同一個符號“榴蓮”。神經擬態(tài)計算就是模仿人類這種認識事物的方式來運作,宋繼強說:“這就是類腦芯片真正想要達到的目標,同時進行多個輸入訓練,最后歸結到一個符號,識別準確度高,而且功耗比較低?!?
向應用要性能
從名稱上來看,XPU表面是百花齊放,實質是走向統一,任意計算硬件都可以歸類到XPU,從而終結無意義的概念之爭;oneAPI聽起來是獨尊儒術,骨子里是百家爭鳴,任意計算硬件都可以接入oneAPI,在不同架構下做開發(fā)的軟件工程師都可以在oneAPI平臺上放飛創(chuàng)意。超異構計算體系就是這樣一個看似矛盾的開放包容與嚴謹統一具備的結合體。

數據急劇增長帶來計算體系概念的空前繁榮,叫什么都可以,但能否用得上、用得好才是關鍵,在科研中,可以極致優(yōu)化某一個維度的性能,但商業(yè)化產品部署,必然是性能、開發(fā)成本和運維成本折中平衡的結果。而商業(yè)化方案的成功則離不開向應用的深度優(yōu)化,即所謂垂直整合,宋繼強認為,在超異構計算中,垂直整合比單一技術創(chuàng)新難度高很多,原因有三:
-
首先,垂直整合需要能夠接觸到實際應用的場景與真實數據,根據應用場景需求來打磨解決方案;
-
其次,多個領域專家要能相互配合,除了通用的算法、硬件和軟件專家,還要有領域專家的鼎力支持,才能做出符合垂直應用需求的好方案;
-
第三,解決方案要能接受市場檢驗,一兩套方案原型與大規(guī)模商業(yè)化部署的難度差異極大。
宋繼強舉例:“就像現在的一些AI系統,原型做了出來,拿到了前一兩輪投資,但到后面商業(yè)化的時候,還在用原型,那就不行了。”

垂直整合成功的案例,除了Mobileye的自動駕駛整體解決方案,還有英特爾為微軟提供的搜索引擎優(yōu)化方案。在搜索引擎優(yōu)化應用中,對于搜索結果反饋的實時性要求極高,CPU和GPU都難以滿足毫秒級硬實時要求,而由于搜索引擎算法迭代周期短,需要不斷升級改版,因而ASIC也不適用,所以最終采用了英特爾CPU加FPGA組合,即典型的XPU解決方案。
垂直整合是工程和藝術的結合,因為性價比和芯片出廠后的靈活可配置是不可調和的矛盾。然而開發(fā)者總要在限定時空下去做出選擇,如同英特爾推XPU和oneAPI這兩個術語一樣,叫什么不重要,能否落地成為大家接受的行業(yè)標準最重要。