全球首款異構(gòu)計算處理器 華夏真的能背負重任?
掃描二維碼
隨時隨地手機看文章
2016年初,在北京亦莊召開的“高性能異構(gòu)計算及網(wǎng)絡(luò)安全研討會”上,華夏芯(北京)通用處理器技術(shù)有限公司即將推出全球首款完全支持異構(gòu)系統(tǒng)架構(gòu)(HSA)的處理器。
據(jù)報道,“處理器IP核與生態(tài)系統(tǒng)兩方面問題的解決,將使中國自主處理器產(chǎn)業(yè)有望在下一代異構(gòu)計算時代,取得更快速的發(fā)展,趕上國際先進水平。”摘錄如下:
1、華夏芯的突破表明我國在新一代異構(gòu)計算上取得重大進展,有望在原本相對空白的處理器IP(知識產(chǎn)權(quán))核授權(quán)領(lǐng)域打破國外壟斷,徹底改變中國處理器產(chǎn)業(yè)的核心知識產(chǎn)權(quán)基本依賴于國外許可的被動局面。
2、從軟件角度看,應(yīng)用開發(fā)將變得輕松,任何程序都不必費心考慮不同處理器內(nèi)核之間的存儲差異。這將給計算性能以革命性的提高。
3、是全球首次推出完全支持HSA標準的CPU+GPU+DSP的處理器IP核平臺,它從指令集、微架構(gòu)到工具鏈具有完全自主知識產(chǎn)權(quán)。同時,華夏芯還可進行SoC定制設(shè)計服務(wù)。這將有效改善國產(chǎn)IP核設(shè)計及許可上的短板。
什么是異構(gòu)計算?
異構(gòu)計算主要是指使用不同類型指令集(X86、ARM、MIPS、POWER......)和體系架構(gòu)的計算單元(CPU、GPU、DSP、ASIC、FPGA......)組成系統(tǒng)的計算方式。
舉例來說,AMD的APU其實就屬于異構(gòu)計算。
異構(gòu)計算主要的優(yōu)點有:
一是可以讓各個計算單元執(zhí)行自己最擅長的任務(wù)。術(shù)業(yè)有專攻,CPU、GPU、DSP、FPGA等計算單元各有所長,在引入特定計算單元,讓計算系統(tǒng)變成混合結(jié)構(gòu),就能讓CPU、GPU、DSP、FPGA執(zhí)行自己最擅長的任務(wù),并相對于同構(gòu)計算可能有一定性能優(yōu)勢,或性能功耗比優(yōu)勢。
二是可以避免顯式拷貝。最新的異構(gòu)計算理論上要求實現(xiàn)CPU、GPU、DSP等計算單元實現(xiàn)內(nèi)存統(tǒng)一尋址,使CPU、GPU等計算單元可以共享內(nèi)存,不必將數(shù)據(jù)復(fù)制一份到對方的內(nèi)存區(qū)域中。
異構(gòu)計算并非新概念,AMD、ARM等公司早已成立異構(gòu)系統(tǒng)架構(gòu)基金會 (HSA Foundation)。另外,異構(gòu)計算在超算領(lǐng)域已經(jīng)有一定的應(yīng)用,而且已經(jīng)有取代同構(gòu)計算的發(fā)展趨勢。
舉例來說,美國泰坦(每個計算節(jié)點由1個AMD Opteron 6274處理器和1個NVIDIA Tesla K20加速器組成),中國天河2號(每個計算節(jié)點由2個E5和3個Xeon Phi組成)。中國正在升級或建設(shè)的3臺100P超算也都采用異構(gòu)計算。
相對于上述提到泰坦和天河2號,由于CPU和加速器無法共享內(nèi)存,會因為需要顯式拷貝而導(dǎo)致性能損失,最新的異構(gòu)系統(tǒng)架構(gòu)的優(yōu)勢在于可以發(fā)展成統(tǒng)一的內(nèi)存編制——在理論上,可以實現(xiàn)CPU、GPU、DSP等計算單元實現(xiàn)內(nèi)存統(tǒng)一尋址,使各個計算單元交互數(shù)據(jù)時,不再需要將自身內(nèi)存區(qū)域中現(xiàn)有的數(shù)據(jù)復(fù)制一份到對方的內(nèi)存區(qū)域中,而是可以直接通過相同的地址訪問到,在內(nèi)存和顯存的設(shè)計科學(xué)合理的前提下,實現(xiàn)性能提升。
另外,在編程方面,可以避免顯式拷貝,使程序員們不用介入不同計算單元的內(nèi)存管理,能有效降低編程的繁瑣程度。
當然,理想很豐滿,現(xiàn)實很骨感——不同核心直接cache級別的互通始終是HSA架構(gòu)無法攻克的難關(guān)——雖然AMD的APU通過將CPU和GPU集成到一個芯片上實現(xiàn)了共享內(nèi)存。但CPU和GPU的Cache卻還沒有做到統(tǒng)一,不同核心直接cache級別的互通,而這也是HSA架構(gòu)最大的技術(shù)難點(CPU,GPU,DSP的緩存模型不同)。即便AMD等廠商給HSA畫了非常美好的藍圖,但就現(xiàn)階段而言,HSA的優(yōu)勢并不大。
華夏芯的技術(shù)究竟如何?
華夏芯未必能實現(xiàn)Cache級別的互通。
在HSA方面,AMD顯然是最有發(fā)言權(quán)的廠商之一,但其APU也只實現(xiàn)了CPU+GPU,而且實現(xiàn)了內(nèi)存共享,但CPU和GPU的Cache卻還沒有做到統(tǒng)一,而華夏芯言之鑿鑿,“該產(chǎn)品在架構(gòu)層面成功整合了CPU、GPU、DSP,實現(xiàn)了異構(gòu)多核的內(nèi)存統(tǒng)一尋址,使不同內(nèi)核真正無縫地緊密聯(lián)系在一起,”一家初出茅廬公司的技術(shù)水平已經(jīng)超越AMD這樣的老牌IC設(shè)計公司了,這實在令人難以置信,不知道AMD看到這段文字做何感想。
華夏芯所謂“自主知識產(chǎn)權(quán)”存在水分
根據(jù)報道,“華夏芯正在開發(fā)并即將推出的‘統(tǒng)一處理器平臺’是全球首次推出完全支持HSA標準的CPU+GPU+DSP的處理器IP核平臺,它從指令集、微架構(gòu)到工具鏈具有完全自主知識產(chǎn)權(quán)。”這段文字所蘊藏的消息實在讓人難以置信。
雖然國內(nèi)IC設(shè)計廠商推出了不少產(chǎn)品,但大多都是購買購買國外 IP核授權(quán),或者就是國外芯片的馬甲,能做自主設(shè)計CPU或GPU或DSP的單位如鳳毛麟角,更遑論同時具備三者的設(shè)計能力。
因此,筆者是不太相信一家在此之前從未聽聞,也沒有什么技術(shù)積累的廠商,能橫空出世,并突然間同時具備CPU、GPU、DSP的設(shè)計能力。
而自主指令集雖然實現(xiàn)難度并不大,比如深圳中微電就采用了自主指令集,但是由于不可能兼容現(xiàn)有的軟件生態(tài),在商業(yè)化方面基本不具備市場前景。在黨政軍市場早已被龍芯、申威、飛騰等自主芯片瓜分完畢,武器裝備、人造衛(wèi)星、航天設(shè)備等特殊領(lǐng)域的嵌入式芯片也已“名花有主”的情況下,采用自主指令集既不具備商業(yè)市場前景,也無法在黨政軍市場贏得一席之地。
加上領(lǐng)導(dǎo)非常喜歡“自主知識產(chǎn)權(quán)”的因素,所謂“從指令集、微架構(gòu)到工具鏈具有完全自主知識產(chǎn)權(quán)”很有可能有相當大的水分。
宣傳言過其實
就現(xiàn)階段而言,HSA的優(yōu)勢并不明顯,還遠遠達不到“給計算性能以革命性的提高”的地步。
而且就軟件而言,雖然APU統(tǒng)一尋址能方便編程,能使程序員們不用介入繁瑣的CPU-GPU內(nèi)存管理,但《中國電子報》對華夏芯的報道中稱“任何程序都不必費心考慮不同處理器內(nèi)核之間的存儲差異”——消除CPU、GPU、DSP、ASIC、FPGA等計算單元之間的存儲差異,即便是AMD也只能表示:“臣妾做不到啊!”
國內(nèi)在異構(gòu)計算方面做得如何?
雖然異構(gòu)計算是老概念了,但由于現(xiàn)階段并不具備多少比較優(yōu)勢,因而只在超算等為數(shù)不多的領(lǐng)域取得了明顯的成績,有取同構(gòu)計算而代之的趨勢。
相對于華夏芯這樣的處于紙面上的產(chǎn)品,上海高性能集成電路設(shè)計中心設(shè)計的國產(chǎn)眾核芯片則是比較成功的例子,該芯片有數(shù)個主核心和兩百余個從核心,主核心主要負責(zé)邏輯運算,兩百余個從核心可以使芯片擁有非常高的理論雙精浮點性能和良好的性能功耗比(小道消息稱10-15G/W),其峰值雙精度浮點運算速度超過每秒3萬億次(3TFlops),完全追平了Intel第二代Xeon Phi(也是Intel最好的眾核芯片)。
結(jié)合《我國首個研究完全自主知識產(chǎn)權(quán)的異構(gòu)計算處理器實驗室破繭》的新聞看,華夏芯通用處理器技術(shù)有限公司目前還處于草創(chuàng)階段,其官方網(wǎng)站也非常簡陋,除“成為國內(nèi)嵌入式處理器領(lǐng)域擁有自主知識產(chǎn)權(quán)的一流設(shè)計企業(yè)”表示華夏芯主攻嵌入式處理器外,基本沒有任何有價值的信息,華夏芯現(xiàn)在有可能依舊處于草臺班子階段。加上“從指令集、微架構(gòu)到工具鏈具有完全自主知識產(chǎn)權(quán)”需要非常深厚的技術(shù)積累,并非朝夕之間可以鑄就。
筆者斗膽推測,所謂“是全球首次推出完全支持HSA標準的CPU+GPU+DSP的處理器IP核平臺,它從指令集、微架構(gòu)到工具鏈具有完全自主知識產(chǎn)權(quán)”有很大的水分,即將推出的產(chǎn)品很有可能就是一款集成了CPU+GPU+DSP的SOC,以目前華夏芯的公開資料和媒體的相關(guān)報道,華夏芯頗有套取政策之利的嫌疑。