深度:32家公司決戰(zhàn)云端AI芯片!
2019年,新的云端AI芯片戰(zhàn)場(chǎng)正風(fēng)起云涌。
過去幾年,人工智能(AI)從一個(gè)被輕視的學(xué)術(shù)冷門研究突然爆紅,一路狂奔到商業(yè)化的最前沿,在安防、金融、教育、制造、家居、娛樂等各個(gè)與人們生活息息相關(guān)的領(lǐng)域掀起了一股智能化升級(jí)和萬(wàn)物互聯(lián)的颶風(fēng)。
這場(chǎng)前所未有的技術(shù)革命的直接推動(dòng)者,是國(guó)外谷歌微軟Facebook、國(guó)內(nèi)BAT等互聯(lián)網(wǎng)巨頭以及一眾新生的AI初創(chuàng)企業(yè),而這些公司快速在AI領(lǐng)域開疆辟土的靈魂支柱,則是提供源源不斷高密度計(jì)算能力的AI硬件提供商。
AI硬件應(yīng)用場(chǎng)景通常分為云端和終端,云端主要指大規(guī)模數(shù)據(jù)中心和服務(wù)器,終端包括手機(jī)、車載、安防攝像頭、機(jī)器人等豐富的場(chǎng)景。
無(wú)論是在線翻譯、語(yǔ)音助手、個(gè)性化推薦還是各種降低開發(fā)者使用門檻的AI開發(fā)平臺(tái),但凡需要AI技術(shù)之處,背后都需要云端AI芯片夜以繼日地為數(shù)據(jù)中心提供強(qiáng)大的算力支撐。
根據(jù)NVIDIA在2017年亮出的數(shù)據(jù),到2020年,全球云端AI芯片的市場(chǎng)規(guī)模累計(jì)將超過200億美元,這個(gè)體量龐大的市場(chǎng)已成為各路芯片巨頭虎視眈眈之地。
NVIDIA通用圖形處理單元(GPGPU)即是乘著深度學(xué)習(xí)的東風(fēng)扶搖直上,股價(jià)在2015年還是20美元,到2018年10月飆升至292美元,市值超過肯德基和麥當(dāng)勞,一躍成為AI領(lǐng)域第一股,市值數(shù)十億美元,坐享無(wú)限風(fēng)光。
其火箭般的漲勢(shì)驚醒了一眾潛在競(jìng)爭(zhēng)對(duì)手,風(fēng)暴出現(xiàn)在地平線上。半導(dǎo)體巨頭英特爾、AMD等奮起直追,谷歌、亞馬遜、百度、華為跨界自研,還有數(shù)十家新生芯片創(chuàng)企揭竿而起,意圖通過自研架構(gòu)等方式突破云端AI芯片性能的天花板,重塑這一市場(chǎng)的版圖。
本文將對(duì)云端AI芯片的戰(zhàn)事進(jìn)行全景式復(fù)盤,盤點(diǎn)加入戰(zhàn)局的五大半導(dǎo)體巨頭、七大中美科技巨頭和20家國(guó)內(nèi)外芯片創(chuàng)企,看曾經(jīng)締造神話的NVIDIA,能否維系它的傳奇帝國(guó)?如今已經(jīng)出現(xiàn)或者正在開發(fā)的新計(jì)算架構(gòu),能否適配未來(lái)的算法?哪些企業(yè)更有望在強(qiáng)手如林的競(jìng)爭(zhēng)環(huán)境中生存下來(lái)?
誰(shuí)能主導(dǎo)這場(chǎng)云端AI芯片戰(zhàn)事,誰(shuí)就掌握了將在未來(lái)云計(jì)算和AI市場(chǎng)的戰(zhàn)役中贏得更多話語(yǔ)權(quán)。
一、十年押注,AI核彈發(fā)射
一切始于意外,又絕非一次意外。
十幾年前,英偉達(dá)(NVIDIA)在經(jīng)歷過和數(shù)十家對(duì)手的激烈廝殺后,和AMD成為圖形顯卡領(lǐng)域的兩大霸主。那時(shí),大多數(shù)NVIDIA員工們,并不知道人工智能(AI)是什么。
彼時(shí),NVIDIA總營(yíng)收規(guī)模約30億美元,其創(chuàng)始人兼CEO黃仁勛做了一個(gè)冒險(xiǎn)的決定每年為CUDA項(xiàng)目砸5億美元,通過一系列改動(dòng)和軟件開發(fā),將GPU轉(zhuǎn)化成更通用的計(jì)算工具,累計(jì)總額近100億美元。
這是一個(gè)極具前瞻性的決定。2006年,全球首款GPU上的通用計(jì)算解決方案CUDA現(xiàn)世,這一技術(shù)為編程人員帶來(lái)越來(lái)越方便的入門體驗(yàn),逐漸為NVIDIA GPU積累了強(qiáng)健穩(wěn)固的開發(fā)者生態(tài)。
直到2012年,NVIDIA遇到了深度學(xué)習(xí)的風(fēng)口。
這一年,加拿大多倫多大學(xué)教授、機(jī)器學(xué)習(xí)領(lǐng)域泰斗、神經(jīng)網(wǎng)絡(luò)之父Geoffrey Hinton帶領(lǐng)課題組用GPU訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(CNN)AlexNet,一舉拿下ImageNet圖像識(shí)別比賽的冠軍,將AI推到了學(xué)術(shù)界焦點(diǎn)的歷史性拐點(diǎn)。
GPU并非為深度學(xué)習(xí)而生,其并行計(jì)算能力竟與深度學(xué)習(xí)算法的邏輯一拍即合。每個(gè)GPU有數(shù)千個(gè)內(nèi)核并行,這些核心通常執(zhí)行許多低級(jí)的、繁復(fù)的數(shù)學(xué)運(yùn)算,非常適合運(yùn)行深度學(xué)習(xí)算法。
之后,越來(lái)越強(qiáng)的“CUDA+GPU”組合,憑借無(wú)敵的處理速度和多任務(wù)處理能力,迅速俘獲一大批研究人員們的芳心,很快就成為全球各大數(shù)據(jù)中心和云服務(wù)基礎(chǔ)設(shè)施的必備組件。
巨頭們的云端AI芯片之戰(zhàn),悄然拉開序幕。
二、芯片巨頭鏖戰(zhàn)云端:NVIDIA獨(dú)霸,英特爾AMD奮起
起步早加上生態(tài)穩(wěn)健,NVIDIA很快就成為云端AI芯片市場(chǎng)的領(lǐng)導(dǎo)者。
NVIDIA在通往更強(qiáng)的道路上一往無(wú)前,陸續(xù)展示令人驚嘆的Tensor Core、NVSwitch等技術(shù),不斷打造新的性能標(biāo)桿。此外,它還構(gòu)建了GPU云,使得開發(fā)者隨時(shí)可以下載新版的深度學(xué)習(xí)優(yōu)化軟件堆棧容器,極大程度上降低了AI研發(fā)與應(yīng)用的門檻。
就這樣,NVIDIA靠時(shí)間、人才和技術(shù)的積累,壘起了堅(jiān)不可摧的城墻。想要城池者,無(wú)不需要遵循NVIDIA指定的法則。截至今日,NVIDIA的工程師軍團(tuán)已逾萬(wàn)人,其GPU+CUDA計(jì)算平臺(tái)是迄今為止最為成熟的AI訓(xùn)練方案,吞食掉絕大多數(shù)訓(xùn)練市場(chǎng)的蛋糕。
從功能來(lái)看,云AI芯片主要在做兩件事:訓(xùn)練(Training)和推理(Inference)。
訓(xùn)練是把海量數(shù)據(jù)塞給機(jī)器,通過反復(fù)調(diào)整AI算法,使其學(xué)習(xí)掌握特定的功能。這個(gè)過程需要極高的計(jì)算性能、精度和通用性。
推理則是將訓(xùn)練好的模型拿來(lái)應(yīng)用,它的參數(shù)已經(jīng)固化,也不需要海量數(shù)據(jù),對(duì)性能、精度和通用性的要求沒有訓(xùn)練那么高。
GPU在訓(xùn)練市場(chǎng)的是一座難以翻越的高山,但在對(duì)功耗要求更高的推理市場(chǎng),它的優(yōu)勢(shì)相對(duì)沒那么明顯。
而這里,也是入局偏晚的半導(dǎo)體巨頭們聚集的方向。
芯片巨頭主要云端AI芯片產(chǎn)品不完全統(tǒng)計(jì)
1、GPU:NVIDIA贏者通吃,AMD搶壘7nm
芯片是贏者通吃的市場(chǎng),云端AI芯片亦不例外,NVIDIA為加速數(shù)據(jù)中心應(yīng)用推出的高中低端通用GPU,一直是各路玩家參考的性能標(biāo)桿。
NVIDIA在短時(shí)間內(nèi)投入數(shù)十億美元?jiǎng)佑脭?shù)千工程師,于2016年推出了第一個(gè)專為深度學(xué)習(xí)優(yōu)化的Pascal GPU。2017年,它又推出了性能相比Pascal提升5倍的新GPU架構(gòu)Volta,神經(jīng)網(wǎng)絡(luò)推理加速器TensorRT 3也同期亮相。
在最新季度財(cái)報(bào)中,NVIDIA數(shù)據(jù)中心收入同比增長(zhǎng)58%至7.92億美元,占公司總收入的近25%,在過去的四個(gè)季度中總共達(dá)到了28.6億美元。如果它能夠保持這種增長(zhǎng),預(yù)計(jì)2019年的數(shù)據(jù)中心將達(dá)到約45億美元。
和NVIDIA在GPU領(lǐng)域長(zhǎng)期相爭(zhēng)的AMD,亦在積極地推進(jìn)對(duì)AI加速計(jì)算的研發(fā)。2016年12月,AMD宣布主打AI與深度學(xué)習(xí)的加速卡計(jì)劃Radeon Instinct。
說(shuō)起來(lái),AMD在深度學(xué)習(xí)領(lǐng)域的起步離不開中國(guó)公司的支持。百度是第一家在數(shù)據(jù)中心采用AMD Radeon InsTInct GPU的中國(guó)公司,后來(lái)阿里巴巴也跟AMD簽了合同。
目前AMD的GPU仍然至少落后于NVIDIA的一代Tesla V100,不過在NVIDIA新招未發(fā)之時(shí),AMD率先在其Next Horizon會(huì)議上宣布推出全球首款7nm GPU,名為Radeon InsTInct MI60,內(nèi)存帶寬高達(dá)1 TB /秒,并聲稱其7nm GPU通過AMD Infinity Fapic Link等技術(shù),成為世界上最快的雙精度加速器,可以提供高達(dá)7.4 TFLOPS的浮點(diǎn)性能。
除了提供GPU芯片,AMD也在通過推出ROCm開放軟件平臺(tái)等方式構(gòu)建更強(qiáng)大的開源機(jī)器學(xué)習(xí)生態(tài)系統(tǒng)。
雖說(shuō)GPU暫時(shí)還抗不過NVIDIA,不過AMD有自己獨(dú)特的優(yōu)勢(shì)。AMD既有GPU又有CPU,可以在其GPU與CPU間用Infinity Fapic實(shí)現(xiàn)無(wú)縫連接,而英特爾至強(qiáng)處理器+NVIDIA GPU就很難做到這樣的完美連接。
同樣扎在GPU市場(chǎng)安營(yíng)扎寨的還有ImaginaTIon Technologies,只不過它長(zhǎng)期深耕于移動(dòng)GPU。從2017年到2018年,ImaginaTIon宣布了三款新的PowerVR圖形處理單元(GPU),主打AI終端市常
在去年年底,Imagination高管在接受采訪時(shí)透露,Imagination可能會(huì)宣布推出面向AI訓(xùn)練的GPU。
2、FPGA:賽靈思打出創(chuàng)新牌,英特爾“買”出全套大禮包
在AI推理的應(yīng)用當(dāng)中,F(xiàn)PGA相較專用集成電路(ASIC)具有靈活可編程的優(yōu)勢(shì),它們可以針對(duì)特定的工作進(jìn)行即時(shí)重新配置,比GPU功耗更低。
處理器的靈活性與性能差異
FPGA領(lǐng)域的老大老二常年是賽靈思和英特爾Altera,面對(duì)新興的AI市場(chǎng),體內(nèi)的創(chuàng)新基因亦是躍躍欲試。
賽靈思即將上線的大殺器叫Versal,這是業(yè)界首款自適應(yīng)計(jì)算加速平臺(tái)(Adaptive Compute Acceleration Platform ,ACAP),采用臺(tái)積電7nm工藝,集成了AI和DSP引擎,其軟硬件均可由開發(fā)者進(jìn)行編程和優(yōu)化。
這一殺器用了4年的時(shí)間來(lái)打磨,據(jù)稱Versal AI Core的AI推斷性能預(yù)計(jì)比業(yè)領(lǐng)先的GPU提升8倍。按照此前賽靈思釋放的消息,Versal將在今年發(fā)貨。
有業(yè)內(nèi)人士認(rèn)為,Versal系列可能會(huì)改變AI推理市常
如果說(shuō)NVIDIA打開AI的大門,靠的是天然契合的基因,那么英特爾則是靠“買買買”的捷徑,快速躋身云AI芯片的前排。作為幾十年的半導(dǎo)體霸主,英特爾一出手目標(biāo)就是成為“全才”。
眾所周知,英特爾屹立不倒的王牌是至強(qiáng)處理器。至強(qiáng)處理器猶如一個(gè)智慧超群的軍師,運(yùn)籌帷幄,能處理各種任務(wù),但如果你讓他去鑄造兵器,他的效率則完全比不過一個(gè)頭腦簡(jiǎn)單但有一身蠻力的武夫。
因此,面對(duì)擁有大量重復(fù)性簡(jiǎn)單運(yùn)算的AI,讓至強(qiáng)處理器去處理此類任務(wù)既是大材小用,結(jié)果又很低效。英特爾的做法是給至強(qiáng)處理器搭配加速器。
沒有做AI加速器的技術(shù)背景怎么辦?英特爾大筆一揮,直接買!
2015年12月,英特爾砸下167億美元買走當(dāng)時(shí)的可編程邏輯器件(FPGA)的前年老二Altera,如今英特爾憑著“Xeon+Altera FPGA”異構(gòu)芯片的打法,將數(shù)據(jù)中心某些任務(wù)提速十倍有余。
尤其是近一年來(lái),英特爾對(duì)FPGA的加碼肉眼可見。前兩年,英特爾陸續(xù)推出號(hào)稱是史上最快FPGA芯片的Stratix 10系列,這一系列獲得了微軟的青睞。
微軟推出基于英特爾Stratix 10 FPGA的云端解決方案Project Brainwave,稱其運(yùn)行速度達(dá)39.5 TFLOPS,延遲不足1 ms。
除了Stratix 10 FPGA芯片外,英特爾先是去年12月在重慶落戶了其全球最大的FPGA創(chuàng)新中心,后又在今年4月亮出被悄然打磨了數(shù)年的新武器全新架構(gòu)的FPGA Agilex,集成了英特爾最先進(jìn)的10nm工藝、3D封裝、第二代HyperFlex等多種創(chuàng)新技術(shù)。
英特爾的FPGA已經(jīng)在服務(wù)器市場(chǎng)初步站穩(wěn)腳跟,而另一項(xiàng)重要的交易還處于蟄伏期。
2016年8月,英特爾花了三四億美元買下專注于打造深度學(xué)習(xí)專用于硬件的加州創(chuàng)企Nervana,收購(gòu)后不久,前Nervana CEO就被晉升為英特爾AI事業(yè)部總負(fù)責(zé)人,首款采用臺(tái)積電28nm工藝的深度學(xué)習(xí)專用芯片Lake Crest在2018年量產(chǎn),并宣稱性能是當(dāng)時(shí)最快的GPU的10倍。
2018年5月,英特爾全新云AI芯片Nervana神經(jīng)網(wǎng)絡(luò)處理器(Nervana Neural Network Processors,NNP)Spring Crest正式亮相,據(jù)稱其功耗小于210瓦,訓(xùn)練性能比Lake Crest提升3-4倍,將于2019年下半年向用戶開放。
對(duì)于云端AI芯片推理,英特爾在拉斯維加斯舉行的CES上透露,它正在與Facebook就Nervana神經(jīng)網(wǎng)絡(luò)處理器NNP-I的推理版本密切合作。NNP-I將是一個(gè)片上系統(tǒng)(SoC),內(nèi)置英特爾10nm晶體管,并將包括IceLake x86內(nèi)核。
對(duì)比谷歌的TPU來(lái)看,英特爾人工智能事業(yè)群(AIPG)副總裁、Nervana團(tuán)隊(duì)核心成員Carey Kloss認(rèn)為TPU 2.0類似于Lake Crest,TPU 3.0類似于Spring Crest。
3、新晉入局者:終端芯片巨頭高通
在移動(dòng)芯片領(lǐng)域如日中天的高通,也剛剛舉起進(jìn)軍云計(jì)算和超算領(lǐng)域的敲門磚。
今年4月,高通宣布推出Cloud AI 100加速器,將高通的技術(shù)拓展至數(shù)據(jù)中心,預(yù)計(jì)將于2019年下半年開始向客戶出樣。
據(jù)悉,這款加速器基于高通在信號(hào)處理和功效方面的技術(shù)積累,專為滿足急劇增長(zhǎng)的云端AI推理處理的需求而設(shè)計(jì),可以讓分布式智能從云端遍布至用戶的邊緣終端,以及云端和邊緣終端之間的全部節(jié)點(diǎn)。
高通產(chǎn)品管理高級(jí)副總裁Keith Kressin稱:“高通CloudAI 100加速器將為當(dāng)今業(yè)界的數(shù)據(jù)中心的AI推理處理器樹立全新標(biāo)桿無(wú)論是采用CPU、GPU和/或FPGA的哪種組合方式來(lái)實(shí)現(xiàn)AI推理的處理器?!?/p>
此外,他還介紹說(shuō),高通目前正處在優(yōu)勢(shì)地位支持完整的從云端到邊緣的AI解決方案,所有的AI解決方案均可與具備高速率和低時(shí)延優(yōu)勢(shì)的5G實(shí)現(xiàn)連接。
三、跨界巨頭跌出:互聯(lián)網(wǎng)霸主爭(zhēng)上游
相比上面對(duì)云和數(shù)據(jù)中心市場(chǎng)野心勃勃的芯片巨頭們,下面這些跨界玩家的心思可就相對(duì)“單純”很多。
這些中美互聯(lián)網(wǎng)巨頭的目標(biāo)不是直接與NVIDIA、英特爾或AMD競(jìng)爭(zhēng),而是向他們自己的云客戶提供強(qiáng)大的算力,減少對(duì)傳統(tǒng)芯片制造商的依賴。
他們自研芯片的選擇也不盡相同,谷歌、亞馬遜等選擇專用芯片(ASIC)的路線,而微軟等則致力于使用現(xiàn)場(chǎng)可編程門列(FPGA)。
跨界科技巨頭主要云端AI芯片產(chǎn)品不完全統(tǒng)計(jì)
1、谷歌:專用AI芯片商用開路人
作為最早開始做AI相關(guān)研發(fā)的科技公司之一,谷歌亦是試水專用AI芯片的先鋒,最早驗(yàn)證ASIC可以在深度學(xué)習(xí)領(lǐng)域替代GPU。
谷歌于2016年推出了自己開發(fā)的AI芯片Tensor Processing Unit(TPU),現(xiàn)已進(jìn)入第三代,為谷歌的語(yǔ)音助理、谷歌地圖、谷歌翻譯等各種AI應(yīng)用提供算力支撐。最初設(shè)計(jì)的TPU用于深度學(xué)習(xí)的推理階段,而新版本已經(jīng)可以用于AI訓(xùn)練。
谷歌聲稱,使用32種最好的商用GPU訓(xùn)練機(jī)器翻譯系統(tǒng)需要一天的時(shí)間,相同的工作量需要在8個(gè)連接的TPU上花費(fèi)6個(gè)小時(shí)。
谷歌目前只在自己的數(shù)據(jù)中心內(nèi)運(yùn)營(yíng)這種設(shè)備,沒有對(duì)外出售。不過最近,谷歌表示將允許其他公司通過其云計(jì)算機(jī)服務(wù)購(gòu)買其TPU芯片。
谷歌TPU在谷歌對(duì)外服務(wù)的市場(chǎng)是有限制的,TPU只能用與和運(yùn)行Google TensorFlow AI框架,用戶無(wú)法使用它們來(lái)訓(xùn)練或運(yùn)行使用Apache MxNet或Facebook的PyTorch構(gòu)建的AI,也不能將它們用于GPU占據(jù)著至高無(wú)上地位的非AI HPC應(yīng)用程序中。
但谷歌對(duì)此表示滿意,因?yàn)樗鼘PU和TensorFlow視為其全面的AI領(lǐng)導(dǎo)力的戰(zhàn)略。針對(duì)其軟件進(jìn)行了優(yōu)化的軟件針對(duì)其軟件進(jìn)行了優(yōu)化,可以構(gòu)建強(qiáng)大而耐用的平臺(tái)。
今年開年的新消息是谷歌在印度班加羅爾成立了新的芯片團(tuán)隊(duì)gChips,并從英特爾、高通、博通和NVIDIA等傳統(tǒng)芯片公司那里大舉招兵買馬,至少招募了16名技術(shù)老兵。
2、內(nèi)部商用在即:微軟FPGA、百度昆侖與華為騰
去年5月,微軟AI芯片Brainwave開放云端測(cè)試版,稱Project Brainwave計(jì)算平臺(tái)使用的FPGA芯片為實(shí)時(shí)AI而設(shè)計(jì),比谷歌使用的TPU芯片處理速度快上了5倍(微軟AI芯片Brainwave開放云端試用版 比TPU快5倍)。微軟Azure執(zhí)行副總裁Jason Zander還曾表示,微軟Azure實(shí)際上設(shè)計(jì)了許多自研芯片,用于數(shù)據(jù)中心。
不得不承認(rèn),國(guó)內(nèi)科技巨頭給芯片起名字,那文化水平高出國(guó)外不止一個(gè)Level。
百度給云端AI芯片命名的“昆侖”是中國(guó)第一神山,相傳這座山的先主,被古人尊為“萬(wàn)山之宗”、“龍脈之祖”,嫦娥奔月、西游記、白蛇傳等家喻戶曉的神話傳說(shuō)都與此山有所關(guān)聯(lián)。
華為云端AI芯片的“騰”則取超脫塵世、上升、器宇軒昂之義,頗受文人墨客的喜愛。
百度和華為都是國(guó)內(nèi)早早跨界造芯的科技公司。早在2017年8月,百度就在加州Hot Chips大會(huì)上發(fā)布了一款256核、基于FPGA的云計(jì)算加速芯片,合作伙伴是賽靈思。華為做芯片就更早了,2004年就成立半導(dǎo)體公司海思,只不過以前都是做終端的芯片解決方案。
2018年下半年,以它們?yōu)榇淼男乱惠喸煨緞?shì)力吹響了中國(guó)云端AI芯片沖鋒的號(hào)角。
百度是國(guó)內(nèi)較早試水造芯的科技巨頭,最早在2010年就開始用FPGA做AI架構(gòu)的研發(fā),2011年開展小規(guī)模部署上線,2015年打破幾千片的部署規(guī)模,2017年部署超過了10000片F(xiàn)PGA,百度內(nèi)部數(shù)據(jù)中心、自動(dòng)駕駛系統(tǒng)等都在大規(guī)模使用。
2017年8月,百度發(fā)布了一款256核、基于FPGA的XPU芯片,這款是和賽靈思合作的,核心很小,沒有緩存或操作系統(tǒng),效率與CPU相當(dāng)。
隨后在2018年7月舉辦的百度AI開發(fā)者大會(huì)上,百度宣布當(dāng)時(shí)業(yè)內(nèi)的算力最高的AI芯片昆侖。
參數(shù)方面,昆侖芯片由三星代工,采用14nm工藝,內(nèi)存帶寬達(dá)512GB/s,核心有數(shù)萬(wàn)個(gè),能在100W以上的功耗提供260 TOPS的算力。
以NVIDIA最新圖靈(Turing)架構(gòu)的T4 GPU為對(duì)比,T4最大功耗為70W,能提供的最高算力也是260 TOPS,但這款GPU比昆侖芯片的發(fā)布晚了2個(gè)月,并且初期并沒有在中國(guó)開售。百度主任架構(gòu)師歐陽(yáng)劍在今年的AI芯片創(chuàng)新峰會(huì)上透露,今年“昆侖”會(huì)在百度內(nèi)部大規(guī)模使用。
華為的云端AI芯片騰910更是直接在發(fā)布現(xiàn)場(chǎng)和NVIDIA與谷歌正面PK。騰910直接用起了最先進(jìn)的7nm工藝,采用華為自研的達(dá)芬奇架構(gòu),最大功耗350W。華為打的旗號(hào)是截止到發(fā)布日期“單芯片計(jì)算密度最大的芯片”,半精度(FP16)運(yùn)算能力達(dá)到256 TFLOPS,比NVIDIA V100的125 TFLOPS足足高了一倍。
徐直軍甚至表示,假設(shè)集齊1024個(gè)騰910,會(huì)出現(xiàn)“迄今為止全球最大的AI計(jì)算集群,性能達(dá)到256P,不管多么復(fù)雜的模型都能輕松訓(xùn)練?!边@個(gè)大規(guī)模分布式訓(xùn)練系統(tǒng),名為“Ascend Cluster”。
落地方面,百度 稱其昆侖將于今年年內(nèi)在百度數(shù)據(jù)中心大規(guī)模使用,華為的騰910原計(jì)劃在今年Q2上市,現(xiàn)在在貿(mào)易戰(zhàn)的背景之下,不知道會(huì)不會(huì)延遲。
3、神秘主義:亞馬遜、阿里與臉書
作為中美云計(jì)算市場(chǎng)的龍頭,阿里巴巴和亞馬遜雖然稍微遲到,但絕對(duì)不會(huì)缺席。
兩家的研發(fā)目的都很明確,是為了解決圖像、視頻識(shí)別、云計(jì)算等商業(yè)場(chǎng)景的AI推理運(yùn)算問題,提升運(yùn)算效率、降低成本。
阿里巴巴達(dá)摩院去年4月宣布,Ali-NPU性能將是現(xiàn)在市面上主流CPU、GPU架構(gòu)AI芯片的10倍,制造成本和功耗僅為一半,性價(jià)比超40倍。同月,阿里全資收購(gòu)大陸唯一的自主嵌入式CPU IP核公司中天微。
新進(jìn)展發(fā)生在9月,阿里將中天微與達(dá)摩院自研芯片業(yè)務(wù)合并,整合成一家芯片公司平頭哥。研發(fā)Ali-NPU的重任由平頭哥接棒,首批AI芯片預(yù)計(jì)2019年下半年面世,將應(yīng)用在阿里數(shù)據(jù)中心、城市大腦和自動(dòng)駕駛等云端數(shù)據(jù)場(chǎng)景中。未來(lái)將通過阿里云對(duì)外開放使用。
在模擬驗(yàn)證測(cè)試中,這款芯片的原型讓鋪設(shè)阿里城市大腦的硬件成本節(jié)約了35%。但此后,阿里幾乎未再發(fā)出相關(guān)進(jìn)展的聲音。
亞馬遜的云AI芯片Inferentia是去年11月在拉斯維加斯舉行的re:Invent大會(huì)上公布的。
這款芯片的技術(shù)源頭要追溯到亞馬遜在2015年初花費(fèi)3.5億美元收購(gòu)的以色列芯片公司Annapurna Labs。按照官方介紹,每個(gè)Inferentia芯片提供高達(dá)幾百TOPS的算力,多個(gè)AWS Inferentia芯片可形成成千上萬(wàn)的TOPS算力。該芯片仍在開發(fā)中,按預(yù)告,這款芯片將于2019年底上市。
Facebook的造芯計(jì)劃浮出水面的很早,但卻是信息曝光最少的玩家。
除了買下相對(duì)成熟的芯片公司外,招兵買馬也是常備之眩Facebook的造芯計(jì)劃在去年4月初露端倪,官網(wǎng)上發(fā)布了招聘ASIC&FPGA設(shè)計(jì)工程師的廣告,用于組建芯片團(tuán)隊(duì)。3個(gè)月后,美媒彭博社報(bào)道稱,F(xiàn)acebook挖走谷歌高級(jí)工程師主管Shahriar Rabii擔(dān)任副總裁兼芯片負(fù)責(zé)人。
Facebook首席人工智能科學(xué)家、最新圖靈獎(jiǎng)獲得者Yann LeCun在接受采訪時(shí)透露,其造芯主要是未來(lái)滿足對(duì)網(wǎng)站進(jìn)行實(shí)時(shí)視頻監(jiān)控的需求。
而等到今年1月時(shí),英特爾在全球消費(fèi)電子展(CES)上表示,正與Facebook合作開發(fā)一款新的AI芯片,用于加速推理,并力爭(zhēng)在今年下半年開發(fā)完成。
不過迄今為止,外界對(duì)Facebook AI芯片的性能信息一無(wú)所知。
四、新秀迭出:國(guó)內(nèi)創(chuàng)企搶先落地,國(guó)外創(chuàng)企醞釀大招
AI的復(fù)興顛覆了以往由英特爾、AMD、高通等頂級(jí)芯片公司carry全產(chǎn)業(yè)的穩(wěn)定局面,為新的一批芯片創(chuàng)業(yè)者創(chuàng)造了機(jī)會(huì)。
一些初創(chuàng)公司希望從頭開始創(chuàng)建一個(gè)新平臺(tái),一直到硬件,專門針對(duì)AI操作進(jìn)行優(yōu)化。希望通過這樣做,它能夠在速度,功耗,甚至可能是芯片的實(shí)際尺寸方面超越GPU。
國(guó)內(nèi)初創(chuàng)企業(yè)主要云端AI芯片產(chǎn)品不完全統(tǒng)計(jì)
1、中國(guó)創(chuàng)企:比特大陸寒武紀(jì)領(lǐng)銜,依圖智能密度超NVIDIA
先說(shuō)國(guó)內(nèi)做云端AI芯片創(chuàng)企,其中最耀眼的當(dāng)屬比特大陸和中科寒武紀(jì)。
比特大陸作為礦機(jī)芯片老大業(yè)界聞名,但在過去一年的比特幣大退潮中,比特大陸首當(dāng)其沖陷入輿論漩渦,上市計(jì)劃未能如期實(shí)現(xiàn)。
這家2013年成立的公司,在2015年就啟動(dòng)AI芯片業(yè)務(wù)。繼2017年推出第一代28nm云端AI芯片產(chǎn)品BM1680后,它在2018年第一季度發(fā)布第二代BM1682,迭代時(shí)間僅9個(gè)月。
按照比特大陸去年公布的造芯計(jì)劃,12nm的云端芯片BM1684應(yīng)在2018年年底推出,BM1686將在2019年推出,很可能采用7nm制程,不過這兩款芯片都姍姍來(lái)遲。
和比特大陸一樣同時(shí)發(fā)力云端和終端芯片的還有AI小芯片獨(dú)角獸中科寒武紀(jì)。
寒武紀(jì)曾因嵌在華為首款中麒麟970中的神經(jīng)網(wǎng)絡(luò)處理器(NPU)成功打響知名度,成為國(guó)內(nèi)外AI芯片創(chuàng)企中的當(dāng)紅炸子雞,在經(jīng)歷A、B兩輪融資后,整體估值約25億美元(約170多億人民幣)。
2018年5月,寒武紀(jì)正式發(fā)布第一代云AI芯片MLU100,據(jù)稱可以以更低的功率提供比NVIDIA V100更好的性能。其客戶科大訊飛曾披露測(cè)試結(jié)果,稱MLU100芯片在語(yǔ)音智能處理的能耗效率領(lǐng)先國(guó)際競(jìng)爭(zhēng)對(duì)手的云端GPU方案5倍以上。
一年后,其第二代云端AI芯片思元270芯片未發(fā)先熱,部分性能被知乎網(wǎng)友曝光,峰值性能和功耗都基本與NVIDIA Tesla T4基本持平,業(yè)內(nèi)傳聞寒武紀(jì)可能在低精度訓(xùn)練領(lǐng)域有所突破。該芯片不出意外地話將于近期發(fā)布。
欲對(duì)標(biāo)NVIDIA和谷歌的創(chuàng)企不止于此。
令人稍感意外的玩家是國(guó)內(nèi)計(jì)算機(jī)視覺(CV)四小龍之一依圖科技。今年5月,依圖發(fā)布了與AI芯片創(chuàng)企熠知電子(ThinkForce)聯(lián)合開發(fā)的首款云端AI芯片求索questcore。
熠知電子是一家低調(diào)但不容小覷的上海AI芯片創(chuàng)企,于2017年獲依圖科技、云鋒基金、紅杉資本、高瓴資本的4.5億元人民幣A輪融資。其核心成員來(lái)自IBM、AMD、英特爾、博通、Cadence等半導(dǎo)體巨頭,均有十年以上的芯片行業(yè)從業(yè)經(jīng)歷。
這款云端深度學(xué)習(xí)推理定制化SoC芯片采用16nm制程和擁有自主知識(shí)產(chǎn)權(quán)的ManyCore架構(gòu),據(jù)稱最高能提供每秒15 TOPS的視覺推理性能,僅針對(duì)INT 8數(shù)據(jù)(8 位整數(shù)數(shù)據(jù)類型)進(jìn)行加速,最大功耗僅20W,比一個(gè)普通的電燈泡還校
依圖表示,開發(fā)這款芯片不是想追求NVIDIA那樣幾百個(gè)T的算力,而是看重高計(jì)算密度。
和前述的跨界科技巨頭們一樣,依圖芯片商用的第一步也是結(jié)合其自身軟硬件和解決方案打包出售,不會(huì)單獨(dú)售賣,第二、三代產(chǎn)品也都在籌備中。
上海的熱門造芯新勢(shì)力還有燧原科技。它可以說(shuō)是國(guó)內(nèi)最年輕的AI芯片造芯者,2018年3月成立,獲得由騰訊領(lǐng)投的3.4億元人民幣Pre-A輪融資,主攻云端AI加速芯片及相關(guān)軟件生態(tài)的研發(fā)投入。這是騰訊第一次投資國(guó)內(nèi)AI芯片創(chuàng)企。
燧原科技的創(chuàng)始團(tuán)隊(duì)主要來(lái)自于AMD,其創(chuàng)始人趙立東此前曾任職于 AMD 中國(guó),后又赴銳迪科(現(xiàn)與展訊合并為紫光展銳)任職總裁。
2019年6月6日,燧原科技宣布新一輪3億元人民幣融資,由紅點(diǎn)創(chuàng)投中國(guó)基金領(lǐng)投,海松資本、騰訊等投資。其深度學(xué)習(xí)高端芯片的神秘面紗尚未揭開。
和前幾位玩家不同的是,天數(shù)智芯和登臨科技選擇的是直接與NVIDIA對(duì)標(biāo)的通用GPU(GPU)。
在國(guó)內(nèi),尚無(wú)能與NVIDIA分庭抗禮的GPGPU公司,這對(duì)創(chuàng)企而言是個(gè)值得切入的機(jī)會(huì)。
兩家公司的造芯陣容都很成熟,天數(shù)智芯的硬件團(tuán)隊(duì)基于AMD在上海和硅谷的GPU團(tuán)隊(duì),登臨科技的創(chuàng)始團(tuán)隊(duì)也是在GPU行業(yè)多年的老將。
目前天數(shù)智芯的高中低端GPGPU產(chǎn)品都在研發(fā)中,其高端芯片Big Island將同時(shí)支持云端推理和訓(xùn)練。登臨科技的GPGPU處理器也已通過FPGA驗(yàn)證,第一代產(chǎn)品Goldwasser的設(shè)計(jì)已完成,計(jì)劃在今年年底前可供客戶測(cè)試使用。
還有一家創(chuàng)企名為龍加智,創(chuàng)立于2017年7月,由摯信資本和翊翎資本領(lǐng)投,致力于研發(fā)TPU芯片。
為了滿足對(duì)低時(shí)延、高可靠性和數(shù)據(jù)安全的需求,龍加智推出新的芯片類型關(guān)鍵任務(wù)芯片 (Mission-Critical AI Processor),第一代芯片命名Dino-TPU,最先應(yīng)用于云端數(shù)據(jù)中心,算力超過除最新款Nvidia Volta之外的所有GPU,時(shí)延僅為Volta V100的1/10,功耗為75W,且獨(dú)具冗余備份和數(shù)據(jù)安全保障。
按照龍加智的開發(fā)計(jì)劃,公司計(jì)劃于 2018 年底完成第一款芯片的流片。
2、美國(guó)創(chuàng)企:Wave 7nm芯片推出在即,Cerepas仍處于秘密模式
在大洋彼岸,美國(guó)多家AI芯片創(chuàng)企也瞄準(zhǔn)了云與計(jì)算中心市常
一家去年存在感較強(qiáng)的企業(yè)是Wave Computing。這家創(chuàng)企去年收購(gòu)了老芯片IP供應(yīng)商MIPS,還推出MIPS開放計(jì)劃。它的累計(jì)融資達(dá)到1.17億美元。
它的核心產(chǎn)品叫其數(shù)據(jù)流處理器單元(DPU),采用非馮諾依曼(von Neumann)架構(gòu)的軟件可動(dòng)態(tài)重構(gòu)處理器CGRA(Coarse grain reconfigurable array/accelerator)技術(shù),適用于大規(guī)模異步并行計(jì)算問題。
其主要優(yōu)勢(shì)是使得硬件更加靈活地適配于軟件,在可編程性(或通用性)和性能方面達(dá)到很好的綜合平衡,降低AI芯片開發(fā)門檻,不會(huì)受到GPU等加速器中存在的內(nèi)存瓶頸的影響。
Wave的第一代DPU采用16nm制程工藝,以6 GHz以上的速度運(yùn)行,已經(jīng)落地商用。據(jù)其高級(jí)副總裁兼CTO Chris Nicol介紹,新一代7nm DPU將引入MIPS技術(shù),并采用高帶寬內(nèi)存HBM(High Band Memory),預(yù)計(jì)在明年發(fā)布。
還有一家十分神秘的創(chuàng)企Cerepas System,它于2016年在美國(guó)加利福尼亞創(chuàng)辦。即便它至今未發(fā)布任何產(chǎn)品,這并不妨礙它常常被與芯片巨頭們相提并論。
Cerepas的創(chuàng)始團(tuán)隊(duì)大多來(lái)自芯片巨頭AMD。其聯(lián)合創(chuàng)始人兼首席CEO安德魯費(fèi)爾德曼(Andrew Feldman)此前曾創(chuàng)辦SeaMicro,這是一家低功耗服務(wù)器制造商,在2012年被AMD以3.34億美元收購(gòu)。此后,費(fèi)爾德曼花了兩年半的時(shí)間爬上了AMD的副總裁之位。
在三輪融資中,Cerepas籌集了1.12億美元,其估值已飆升至高達(dá)8.6億美元。如今,Cerepas仍處于秘密模式,據(jù)相關(guān)人士透露,其硬件將為“訓(xùn)練”深度學(xué)習(xí)算法量身定制。
Cerepas使用深度學(xué)習(xí)加速器進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練和推理專利
2017年4月成立的Groq創(chuàng)始團(tuán)隊(duì)更是搶眼,來(lái)自谷歌TPU十人核心團(tuán)隊(duì)中的8人。這家創(chuàng)企一出場(chǎng)就雄心勃勃,官網(wǎng)顯示器芯片算力將能達(dá)到400 TOPS。
SambaNova Systems比Groq晚7個(gè)月成立,總部位于加州Palo Alto,創(chuàng)始人包括兩位斯坦福大學(xué)教授Kunle Olukotun和ChrisRé和一位老牌芯片公司(Sun前任開發(fā)高級(jí)副總裁)高管。
其A輪融資由谷歌母公司Alphabet的風(fēng)險(xiǎn)投資部門Google Venture(GV)領(lǐng)投,這是GV首次對(duì)人工智能芯片公司進(jìn)行投資。今年4月,英特爾投資宣布向14家科技創(chuàng)業(yè)公司新投資總計(jì)1.17億美元,SambaNova Systems也在名單中。
3、其他創(chuàng)企:英國(guó)獨(dú)角獸Graphcore最受青睞,多數(shù)芯片尚未推出
除了中美外,其他地域的AI芯片創(chuàng)企也在蓄勢(shì)待發(fā)。
最被看好的是一家資金雄厚的英國(guó)獨(dú)角獸Graphcore,成立于2016年,估值達(dá)到17億美元,累計(jì)融資3.12億美元。這家創(chuàng)企堪稱巨頭收割機(jī),投資陣容很強(qiáng)大,包括紅杉資本、寶馬、微軟、博世和戴爾科技。
這家公司打造了一款專為機(jī)器智能工作負(fù)載而設(shè)計(jì)的智能處理單元(IPU),采用支持片上互連和片上存儲(chǔ),從邊緣設(shè)備擴(kuò)展到用于數(shù)據(jù)中心訓(xùn)練和推理的“Colossus”雙芯片封裝。
Graphcore在官網(wǎng)上如是寫道:我們的IPU系統(tǒng)旨在降低在云和企業(yè)數(shù)據(jù)中心加速AI應(yīng)用程序的成本,與目前最快的系統(tǒng)相比,將訓(xùn)練和推理的性能提高多達(dá)100倍。
在去年年底的NeurIPS活動(dòng)中,Graphcore展示了一個(gè)示例配置RackScale IPU-Pod,包括32個(gè)1U IPU-Machines,每個(gè)由4個(gè)Colossus GC2 IPU處理器組成,提供500 TFLOPS混合精度計(jì)算,超過1.2GB的處理器內(nèi)存以及超過200TB/s的內(nèi)存帶寬。
Graphcore IPU-Pod racksale系統(tǒng)
另一家2016年成立的以色列創(chuàng)企Habana Labs,在去年9月的AI硬件峰會(huì)上宣布已經(jīng)準(zhǔn)備推出其首款用于推理的AI芯片Goya,它顯示了在Resnet50圖像分類數(shù)據(jù)庫(kù)中每秒分類15000張圖像的吞吐量,比NVIDIA的T4設(shè)備高出約50%,延遲時(shí)間為1.3ms,功耗僅為100 W。
其最新7500萬(wàn)美元B輪融資(2018年12月)由英特爾風(fēng)險(xiǎn)投資公司領(lǐng)投,資金將部分用于研發(fā)第二款芯片Gaudi,該芯片將面向訓(xùn)練市場(chǎng),據(jù)稱訓(xùn)練性能可線性擴(kuò)展到1000多個(gè)處理器。
印度AlphaICs公司也是在2016年成立,正在設(shè)計(jì)AI芯片并致力于AI 2.0,希望通過該系列產(chǎn)品實(shí)現(xiàn)下一代AI。
AlphaICs的一位聯(lián)合創(chuàng)始人之一是有“奔騰芯片之父”稱號(hào)的Vinod Dham,他與一些年輕的芯片設(shè)計(jì)師們合作打造了可執(zhí)行基于代理的AI協(xié)處理芯片RAP芯片。
Dham表示,AlphaICs芯片在處理速度上相較競(jìng)爭(zhēng)對(duì)手更有優(yōu)勢(shì),并稱當(dāng)前我們看到的大多屬于弱AI,而他們可以被稱之為“強(qiáng)AI”。
按照Dham的說(shuō)法,RAP芯片有望在2019年年中推出,“希望為真正的AI創(chuàng)造一個(gè)大爆炸”。
Tenstorrent是位于加拿大多倫多的創(chuàng)企,由兩位AMD前工程師Ljubisa Bajic和Milos Trajkovic創(chuàng)辦,核心團(tuán)隊(duì)大多來(lái)自NVIDIA和AMD,研發(fā)專為深度學(xué)習(xí)和智能硬件而設(shè)計(jì)的高性能處理器。
去年早些時(shí)候,這家公司獲得來(lái)自Real Ventures的種子輪投資,不過至今仍處于秘密模式。
4、獨(dú)特戰(zhàn)隊(duì):光子AI芯片
在面向云和數(shù)據(jù)中心領(lǐng)域的硬件勢(shì)力中,一支特別的戰(zhàn)隊(duì)正受到國(guó)內(nèi)外科技巨頭的青睞,它就是光子AI芯片。
和常規(guī)芯片不同,這些芯片采用光子電路來(lái)代替電子傳輸信號(hào),他們比電子電路擁有更高的傳輸速度、更低的延遲和更高的吞吐量。
2016年,MIT研究團(tuán)隊(duì)打造了首個(gè)光學(xué)計(jì)算系統(tǒng),該成果于2017年以封面文章的形式發(fā)表在頂級(jí)期刊Nature Photonics雜志。正是這篇論文,在全球范圍內(nèi)啟發(fā)更多人投入到光子AI芯片的研發(fā)之中。
僅是這一MIT團(tuán)隊(duì),就在2017年孵化出Lightelligence和LightMatter兩家美國(guó)公司。
Lightelligence在2018年2月拿到百度風(fēng)投和和美國(guó)半導(dǎo)體行業(yè)高管1000萬(wàn)美元種子輪融資,LightMatter在2019年2月拿到由谷歌母公司Alphabet旗下的風(fēng)險(xiǎn)投資部門Google Ventures領(lǐng)投的2200萬(wàn)美元B輪融資。
Lightelligence稱光子電路(Photonic Circuits)不僅能在云計(jì)算領(lǐng)域作為CPU的協(xié)處理器加速深度學(xué)習(xí)訓(xùn)練和推理,還能用于要求高效低能耗的網(wǎng)絡(luò)邊緣設(shè)備。
今年4月,Lightelligence宣布成功開發(fā)出世界第一款光子芯片原型板卡(Prototype),其光子芯片已與谷歌、Facebook、AWS、BAT級(jí)別的客戶接洽。
LightMatter同樣重點(diǎn)面向大型云計(jì)算數(shù)據(jù)中心和高性能計(jì)算集群,他們?cè)蛟斐?個(gè)早期的芯片,其中一個(gè)芯片包含超過十一個(gè)晶體管。
受MIT那篇論文的啟發(fā),2017年,國(guó)內(nèi)第一家光子AI芯片創(chuàng)企光子算數(shù)由來(lái)自由清華大學(xué)、北京大學(xué)、北京交通大學(xué)等10所高校的博士生創(chuàng)立。
這家公司在2018年9月獲得天使輪融資,據(jù)稱其光子芯片的性能是電子芯片的1000倍,而功耗只有電子芯片的1%。
就在本月,比爾蓋茨也開始,而且投資的是同樣研發(fā)硅光技術(shù)的Luminous。其他投資者還包括Uber聯(lián)合創(chuàng)始人Travis Kalanick的10100基金,以及現(xiàn)任Uber CEO Dara Khosrowshahi。
Luminous目前僅有7位成員,但它的胃口可不小,目標(biāo)是為包含谷歌最新的Tensor Processing Unit AI芯片的3000塊電路板創(chuàng)建一個(gè)替代品。它們采用的方法借鑒了其聯(lián)合創(chuàng)始人Mitchell Nahmias在普林斯頓大學(xué)的早期神經(jīng)形態(tài)光子學(xué)工作。
現(xiàn)在這幾家創(chuàng)企共同存在的問題是,不清楚多久能發(fā)布首款量產(chǎn)的光子AI芯片,以及這些芯片的實(shí)際應(yīng)用效果能否真正取代電子芯片的位置。
五、當(dāng)前云端AI芯片主要挑戰(zhàn)
如今切入云AI芯片市場(chǎng)的玩家已經(jīng)有數(shù)十家,不過由NVIDIA主導(dǎo)、多家半導(dǎo)體巨頭分食的軟硬件和服務(wù)市場(chǎng)大體格局依然比較穩(wěn)定,產(chǎn)生新的格局變動(dòng)絕非一件易事。
1、粥多僧少,聚攏效應(yīng)明顯
對(duì)于芯片行業(yè)來(lái)說(shuō),足量的產(chǎn)能至關(guān)重要。
半導(dǎo)體巨頭可以實(shí)現(xiàn)十倍、百倍的產(chǎn)能,而創(chuàng)企很難在創(chuàng)業(yè)初期就做到這一點(diǎn)?,F(xiàn)在的創(chuàng)企多為IC設(shè)計(jì)廠商,如果他們想要成為像英特爾、三星那樣“自給自足”的公司,可能需要花數(shù)十億美元不止。
經(jīng)過2015-2016年的半導(dǎo)體行業(yè)整合浪潮后,近兩年半導(dǎo)體并購(gòu)潮正在逐漸“退燒”,大公司對(duì)芯片創(chuàng)企的投資或收購(gòu)行動(dòng)會(huì)更加謹(jǐn)慎。
2、人才爭(zhēng)奪愈演愈烈
云端AI芯片的核心競(jìng)爭(zhēng)力在于人才。
從當(dāng)前市場(chǎng)上較受關(guān)注的云AI芯片公司來(lái)看,它們的研究團(tuán)隊(duì)多是在芯片巨頭有超過十年從業(yè)經(jīng)歷的行業(yè)老兵,而且往往有帶頭研發(fā)出相關(guān)成功產(chǎn)品的經(jīng)驗(yàn)。
無(wú)論是半導(dǎo)體巨頭還是跨界造芯的科技巨頭,基本上都在走兩種路徑,一是投資并購(gòu)成熟的芯片公司,另一種就是從挖走其他大公司的芯片高管。
3、創(chuàng)新難+落地難
英特爾研究院院長(zhǎng)宋繼強(qiáng)曾經(jīng)向智東西表示,AI芯片的未來(lái)一定是多樣化,不同種類的產(chǎn)品滿足不同功耗、尺寸、價(jià)錢的要求,AI一場(chǎng)馬拉松,現(xiàn)在這場(chǎng)比賽才剛剛開始。
現(xiàn)階段,入局云AI芯片領(lǐng)域的絕大多數(shù)巨頭和創(chuàng)企都在打創(chuàng)新的招牌,包括創(chuàng)新的架構(gòu)、存儲(chǔ)技術(shù)以及硅光技術(shù)等。
由于對(duì)推動(dòng)深度學(xué)習(xí)的新型計(jì)算資源的需求激增,許多人認(rèn)為這是初創(chuàng)企業(yè)從巨頭和投資機(jī)構(gòu)手中爭(zhēng)取資金的難得機(jī)會(huì)。
盡管玩家正在增多,打出的旗幟也趨于多樣化,但就目前而言,真正落地量產(chǎn)的創(chuàng)新硬件還很有限。云端AI芯片面臨的困境仍有很多,比如計(jì)算機(jī)體系結(jié)構(gòu)普遍存在的摩爾定律難以維系和半導(dǎo)體器件方面的瓶頸。
研發(fā)芯片的過程可能需要數(shù)年時(shí)間,目前大部分硬件仍在開發(fā)中或在早期試驗(yàn)計(jì)劃中進(jìn)行。因此,很難預(yù)測(cè)哪些企業(yè)會(huì)實(shí)現(xiàn)承諾的性能。
結(jié)語(yǔ):三股勢(shì)力,決戰(zhàn)云端AI芯片之巔
總體來(lái)看,云端AI芯片市場(chǎng)正逐漸分成三股勢(shì)力,以英偉達(dá)、英特爾等為代表的半導(dǎo)體巨頭,以谷歌、華為等為代表的中美科技巨頭,和以寒武紀(jì)、Groq等為代表的芯片創(chuàng)企。其中,半導(dǎo)體巨頭和芯片創(chuàng)企面向主攻通用芯片,而跨界造芯的科技巨頭以及AI創(chuàng)企依圖暫時(shí)不對(duì)外直接銷售。
從應(yīng)用領(lǐng)域來(lái)看,盡管GPU的高能耗遭到業(yè)界越來(lái)越多的吐槽,但因其無(wú)與倫比的并行運(yùn)算能力,使得云端AI訓(xùn)練領(lǐng)域至今尚未出現(xiàn)能與NVIDIA GPU分庭抗禮的玩家。挑戰(zhàn)這一領(lǐng)域的玩家主要是傳統(tǒng)芯片巨頭和創(chuàng)企,跨界的科技巨頭有谷歌、百度和華為,主要采用的架構(gòu)是通用GPU和ASIC。
在更注重能耗、時(shí)延、成本、性價(jià)比等綜合能力的云端AI推理領(lǐng)域,入局的玩家相對(duì)更多,F(xiàn)PGA和ASIC的優(yōu)勢(shì)相對(duì)高于GPU。擁有全面AI芯片布局的英特爾勢(shì)頭正猛,其他玩家也不遑多讓,中美幾大互聯(lián)網(wǎng)巨頭基本上全部加入戰(zhàn)局,但部分巨頭的芯片研發(fā)進(jìn)展尚未可知。
關(guān)于提升造芯實(shí)力,多數(shù)半導(dǎo)體巨頭和科技巨頭均選擇了投資、并購(gòu)和挖芯片大牛的捷徑,從而直接得到成熟芯片團(tuán)隊(duì)的輔助,快速補(bǔ)足人才和業(yè)務(wù)的空缺。而對(duì)于創(chuàng)企來(lái)說(shuō),獲得投資界青睞的基本都具備兩大因素富有經(jīng)驗(yàn)的創(chuàng)始團(tuán)隊(duì)和擁有創(chuàng)新技術(shù)的產(chǎn)品,從落地進(jìn)程來(lái)看,我國(guó)芯片創(chuàng)企的步伐可以排在世界前列。
就目前來(lái)看,絕大多數(shù)AI應(yīng)用仍然依賴于在云端的訓(xùn)練和推理,在訓(xùn)練領(lǐng)域,NVIDIA穩(wěn)固的生態(tài)體系依然是難以撼動(dòng)的一座高山,在推理領(lǐng)域,更是群雄逐鹿能者勝。隨著AI更加廣泛地落地到各行各業(yè),云端AI芯片市場(chǎng)也會(huì)獲得更大的增長(zhǎng)空間,但這篇市場(chǎng)未必容得下這么多的玩家,資金、器件瓶頸、架構(gòu)創(chuàng)新、適配快速改變的AI算法以及構(gòu)建生態(tài)系統(tǒng)都是擺在這些企業(yè)面前的難題。什么是完全適合云端訓(xùn)練和推理的AI芯片形態(tài),也尚未出現(xiàn)統(tǒng)一的結(jié)論。