AI芯片公司大盤(pán)點(diǎn) 努力提高人工智能性能
為了跟上前沿神經(jīng)網(wǎng)絡(luò)的要求,高科技公司正在努力尋找提高人工智能性能的最佳方式。與此同時(shí),世界各地涌現(xiàn)出許多初創(chuàng)公司,它們對(duì)如何更好的地實(shí)現(xiàn)AI提出了新的想法。這一領(lǐng)域正在吸引大量風(fēng)險(xiǎn)資本的投資,這使得該領(lǐng)域不僅擁有大量現(xiàn)金,而且還擁有計(jì)算架構(gòu)的新穎想法。
我們正在追蹤來(lái)自美國(guó)、歐洲和亞洲的約60家人工智能芯片公司, 從重新研發(fā)可編程邏輯和多核設(shè)計(jì),到開(kāi)發(fā)自己全新架構(gòu)的公司,再到使用神經(jīng)形態(tài)(腦啟發(fā))架構(gòu)和光學(xué)計(jì)算等未來(lái)技術(shù)的公司。
以下是10個(gè)我們認(rèn)為有前途,或至少有一些有趣想法的案例。我們將它們按照其產(chǎn)品在網(wǎng)絡(luò)中的目標(biāo)位置分為:數(shù)據(jù)中心、端點(diǎn)或AIoT設(shè)備。
數(shù)據(jù)中心的人工智能
根據(jù)位置不同,數(shù)據(jù)中心可以算作“邊緣”。邊緣計(jì)算的關(guān)鍵概念是在(或接近)生成或收集數(shù)據(jù)的相同地理位置處理數(shù)據(jù)。這包括網(wǎng)關(guān)或集線器設(shè)備,也包括加速公司單一人工智能應(yīng)用程序的內(nèi)部服務(wù)器。想想醫(yī)院或醫(yī)學(xué)研究機(jī)構(gòu)中加速x射線或CT掃描圖像分類的服務(wù)器,以及從工廠接收狀態(tài)數(shù)據(jù)并在現(xiàn)場(chǎng)處理的網(wǎng)關(guān)。
Graphcore
總部位于英國(guó)布里斯托爾的Graphcore公司在早期的一輪融資中獲得了超過(guò)10億美元的估值,成為首家被認(rèn)定為獨(dú)角獸的西方半導(dǎo)體初創(chuàng)公司。
Graphcore的IPU(智能處理單元)芯片擁有超過(guò)1200個(gè)專業(yè)核心的大規(guī)模并行架構(gòu),每個(gè)核心可以運(yùn)行6個(gè)程序線程。還有大量的片上內(nèi)存,幾百M(fèi)B的RAM,更重要的是,還有45 tb的內(nèi)存帶寬。這使得整個(gè)機(jī)器學(xué)習(xí)模型可以存儲(chǔ)在芯片上。
Graphcore的IPU芯片可以在戴爾服務(wù)器上用于邊緣計(jì)算應(yīng)用程序。
Groq
Groq是由谷歌的一個(gè)團(tuán)隊(duì)在硅谷創(chuàng)立,擁有70名員工,迄今已籌集了6700萬(wàn)美元的資金。在SC ‘ 19,他們正式推出了他們的超大芯片,可以達(dá)到1000 TOPS。
Groq的軟件優(yōu)先的方法意味著他們的編譯器處理許多通常在硬件中會(huì)發(fā)生的控制功能,比如執(zhí)行計(jì)劃。軟件會(huì)編排所有的數(shù)據(jù)流和時(shí)間,以確保計(jì)算不會(huì)出現(xiàn)停頓,并使延遲、性能和功耗在編譯時(shí)完全可預(yù)測(cè)。
Groq正以其張量流處理器(TSP)芯片為目標(biāo),瞄準(zhǔn)數(shù)據(jù)中心應(yīng)用和自動(dòng)駕駛車輛。
Cerebras
Cerebras是以恢復(fù)圓片規(guī)模芯片的倡導(dǎo)而著稱,而這個(gè)想法早在80年代就已經(jīng)被放棄。
我們常見(jiàn)的處理器都是經(jīng)過(guò)封裝之后才可使用的,實(shí)際上如CPU中的核心裸片大小一般在200平方毫米以下,而GPU核心的大小也沒(méi)有超過(guò)1000平方毫米的,所以在一片晶圓上可以切割出很多核心裸片。不過(guò)這并不代表無(wú)法制造超大尺寸的芯片,在Hot Chip 31會(huì)議中,Cerebras Systems就推出了一款晶圓級(jí)深度學(xué)習(xí)芯片,尺寸達(dá)到了215×215平方毫米。幾乎占據(jù)了一整個(gè)晶圓的大小。
Cerebras龐大的46,225mm2的芯片,占用整個(gè)晶圓,其功耗15千瓦,在84個(gè)處理器塊上封裝40萬(wàn)個(gè)核和18GB內(nèi)存。雖然這些數(shù)字看起來(lái)非常龐大,但請(qǐng)記住,這么大的芯片被設(shè)計(jì)出來(lái),目的是代替成千上萬(wàn)個(gè)GPU的。
而這么大的芯片主要就是用來(lái)進(jìn)行深度學(xué)習(xí)訓(xùn)練的,而深度學(xué)習(xí)的訓(xùn)練是應(yīng)用小變化的過(guò)程,模型的大小等因素讓神經(jīng)網(wǎng)絡(luò)訓(xùn)練變得非常困難。對(duì)于粗粒度計(jì)算,需要告訴互聯(lián)才能進(jìn)行訓(xùn)練,規(guī)模依舊有限且成本高昂。所以Celebras Systems設(shè)計(jì)了專門(mén)為神經(jīng)網(wǎng)絡(luò)原語(yǔ)優(yōu)化的核心,這種核心可編程、可以快速進(jìn)行西數(shù)計(jì)算,而且具有高速互聯(lián)能力。Celebras Systems設(shè)計(jì)了非常靈活的內(nèi)核,而且可以高效的處理張量運(yùn)算。
該公司表示,它已經(jīng)解決了之前困擾晶圓片規(guī)模設(shè)計(jì)的問(wèn)題,如成品率(它繞過(guò)缺陷),并發(fā)明了對(duì)抗熱效應(yīng)的封裝。
Cerebras已經(jīng)籌集了超過(guò)2億美元的資金,此前曾表示,他們的rack系統(tǒng)正在少數(shù)幾個(gè)客戶數(shù)據(jù)中心運(yùn)行。
Cambricon寒武紀(jì)
Cambricon是中國(guó)最早的人工智能芯片公司之一,但絕不是最后一家。Cambricon是2016年由中國(guó)科學(xué)院的兩名研究員創(chuàng)立。
由于CPU和通用GPU (GPGPU)指令集在加速神經(jīng)網(wǎng)絡(luò)方面缺乏靈活性,他們開(kāi)發(fā)了自己的指令集架構(gòu)(ISA),這是一種集成了標(biāo)量、向量、矩陣、邏輯、數(shù)據(jù)傳輸和控制指令的負(fù)載存儲(chǔ)架構(gòu)。
Cambricon的第一款產(chǎn)品Cambricon-1A被用于數(shù)千萬(wàn)部智能手機(jī),以及無(wú)人機(jī)和可穿戴設(shè)備等其他終端設(shè)備。如今,第二代芯片包括云計(jì)算的兩部分和邊緣計(jì)算芯片——思源220。這種邊緣芯片的設(shè)計(jì)是為了填補(bǔ)該公司在邊緣計(jì)算產(chǎn)品組合中的空白。思遠(yuǎn)220標(biāo)志著寒武紀(jì)實(shí)現(xiàn)了云、邊、端的全方位立體覆蓋。MLU220是一款專門(mén)用于邊緣計(jì)算應(yīng)用場(chǎng)景的AI加速產(chǎn)品(邊緣人工智能加速卡)。產(chǎn)品集成4核ARM CORTEX A55,LPDDR4x內(nèi)存及豐富的外圍接口。用戶既可以使用MLU220作為AI加速協(xié)處理器,也可以使用其實(shí)現(xiàn)SOC方案。
Cambricon(以及Horizon Robotics,見(jiàn)下文)目前是全球最有價(jià)值的芯片初創(chuàng)企業(yè)之一:該公司迄今已融資2億美元,使其市值達(dá)到25億美元左右。
端點(diǎn)處的AI
“端點(diǎn)”是指網(wǎng)絡(luò)末端的設(shè)備,數(shù)據(jù)在收集數(shù)據(jù)的同一設(shè)備內(nèi)處理。這包括從安全攝像頭到消費(fèi)電子產(chǎn)品和家用電器的一切。當(dāng)然,由于一些設(shè)備既可以用作網(wǎng)關(guān),也存在一些灰色地帶,也可以用作端點(diǎn)(比如自動(dòng)駕駛汽車或智能手機(jī))。
Hailo
Hailo于2017年在以色列特拉維夫成立,由前以色列國(guó)防軍精英情報(bào)單位成員創(chuàng)建。該公司約有60名員工,迄今已融資2100萬(wàn)美元。
Hailo的AI協(xié)同處理器Hailo-8可以處理26臺(tái)電腦,功率效率為2.8臺(tái)/W。應(yīng)用目標(biāo)是ADAS和自動(dòng)駕駛。它的結(jié)構(gòu)混合了記憶塊、控制塊和計(jì)算塊,并通過(guò)軟件分配相鄰塊來(lái)計(jì)算神經(jīng)網(wǎng)絡(luò)的每一層。減少芯片內(nèi)外的數(shù)據(jù)傳輸有助于節(jié)約電能。
Hailo表示他們的Hailo-8將勝過(guò)所有其他邊緣處理器,并且尺寸更小,小于一分錢(qián)硬幣,內(nèi)存需求更少。而且除了計(jì)算外,它還集成了內(nèi)存和控制功能。
公司通過(guò)設(shè)計(jì)一種依賴于神經(jīng)網(wǎng)絡(luò)核心特性的架構(gòu),邊緣設(shè)備現(xiàn)在可以比傳統(tǒng)解決方案更高效,更有效,更具持續(xù)性地運(yùn)行深度學(xué)習(xí)應(yīng)用程序,同時(shí)顯著降低成本。
由于功能強(qiáng)大的軟件開(kāi)發(fā)套件(SDK)和新型散熱設(shè)計(jì),無(wú)需主動(dòng)冷卻,Hailo-8在幾個(gè)AI語(yǔ)義分割和對(duì)象檢測(cè)基準(zhǔn)測(cè)試中優(yōu)于英偉達(dá)的Xavier AGX,包括ResNet-50。
在圖像分辨率為224 x 224的初步測(cè)試中,與Xavier AGX的每秒656幀相比,Hailo-8每秒處理672幀。
Hailo-8預(yù)計(jì)在2020年上半年開(kāi)始批量生產(chǎn)。
Kneron
Kneron在圣地亞哥和臺(tái)灣擁有150名員工,并獲得了7300萬(wàn)美元的資金,Kneron是首批在2019年5月將硅推向市場(chǎng)的初創(chuàng)公司之一。該公司已經(jīng)有幾個(gè)客戶宣布了其第一代KL520芯片,并在2019年創(chuàng)造了“數(shù)百萬(wàn)美元”的收入。
KL520針對(duì)卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行了優(yōu)化,可以在0.5W下運(yùn)行0.3個(gè)TOPS (相當(dāng)于0.6 TOPS/W)。這已經(jīng)足夠用于IP安全攝像頭中的面部識(shí)別,也可用于智能門(mén)鎖和門(mén)鈴。據(jù)介紹,以這款 KL520 芯片來(lái)說(shuō),它不僅僅在規(guī)格、性能上領(lǐng)先,還有在成本上能實(shí)現(xiàn)比較好的平衡,讓方案擁有更全面的競(jìng)爭(zhēng)力;其次在智能門(mén)鎖特別是人臉識(shí)別智能門(mén)鎖的高速成長(zhǎng)階段,選用 KL520,以更低的門(mén)檻切入,有機(jī)會(huì)快速搶占市場(chǎng)。
該公司最初生產(chǎn)用于面部識(shí)別的神經(jīng)網(wǎng)絡(luò),現(xiàn)在又為其神經(jīng)處理單元(NPU)提供這些網(wǎng)絡(luò)和IP。該公司表示,第二代芯片將于今年夏天問(wèn)世,它將能夠加速CNN和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)。在 KL520 性能的支持下,耐能還能將這個(gè)芯片應(yīng)用到更多的領(lǐng)域中,但耐能并不滿足于此,他們現(xiàn)在已經(jīng)規(guī)劃了更強(qiáng)的 28nm 和 16nm 產(chǎn)品,展望為未來(lái)的 AI 市場(chǎng)帶來(lái)更多的可能。
Mythic
Mythic于2012年在密歇根大學(xué)成立。該公司目前位于得克薩斯州奧斯汀市,已經(jīng)籌集了8,600萬(wàn)美元來(lái)開(kāi)發(fā)其模擬計(jì)算芯片,該芯片使用基于閃存晶體管的處理器存儲(chǔ)技術(shù),在功率、性能和成本方面都優(yōu)于CPU和GPU。
內(nèi)存處理器并不是什么新技術(shù),但Mythic表示,它已經(jīng)解決了一些棘手的補(bǔ)償和校準(zhǔn)技術(shù),這些技術(shù)可以消除噪聲,并允許可靠的8位計(jì)算。Mythic計(jì)劃銷售獨(dú)立芯片以及多芯片處理卡。由于該設(shè)備可以處理30幀/秒的高清視頻圖像處理,Mythic的主要目標(biāo)市場(chǎng)之一是安全攝像頭和用于安全攝像頭系統(tǒng)的現(xiàn)場(chǎng)聚合器。
地平線
Horizon RoboTIcs 于2015年在中國(guó)北京成立,這家初創(chuàng)公司到2019年底已經(jīng)籌集了大約6億美元,公司估值為30億美元。如今,Horizon RoboTIcs擁有500多名員工,擁有600多項(xiàng)專利。
Horizon RoboTIcs的BPU(大腦處理單元)最初是為計(jì)算機(jī)視覺(jué)應(yīng)用而設(shè)計(jì)。第二代BPU是一個(gè)64位多指令多數(shù)據(jù)(MIMD)核心,可以處理所有類型的神經(jīng)網(wǎng)絡(luò)(不僅僅是卷積網(wǎng)絡(luò))。它使用該公司的稀疏神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)物體的運(yùn)動(dòng)和場(chǎng)景解析。第三代將為決策算法和深度學(xué)習(xí)之外的其他AI部分增加加速功能。
Horizon RoboTIcs有兩條芯片產(chǎn)品線:汽車版Journey和AIoT版Sunrise。第一代Journey和Sunrise芯片于2017年12月發(fā)布,第二代基于BPU 2.0的芯片將于2019年秋季發(fā)布。Journey 2.0為L(zhǎng)3/L4自動(dòng)駕駛提供典型功耗2W情況下可提供4TOPS的性能。并結(jié)合Horizon自己的感知算法,實(shí)現(xiàn)了90%的核心利用率。
Journey 2.0處理器2019年初流片成功,采用臺(tái)積電28nm HPC+工藝,基于地平線自主研發(fā)的BPU 2.0架構(gòu),集成了2個(gè)Cortex-A53核心,典型功耗2W下就可以提供4TOPS的性能,是同等級(jí)GPU的10倍以上。
此外,基于BPU 3.0架構(gòu)的第三代征程處理器Journey 3.0,專為自動(dòng)駕駛和域控制器打造,同樣符合AEC-Q100和ISO 26262車規(guī)級(jí)標(biāo)準(zhǔn),而預(yù)計(jì)明年發(fā)布的Matrix 3.0自動(dòng)駕駛計(jì)算平臺(tái)也會(huì)使用征程三代處理器,算力提升到192TOPS,具備支持ASIL D的系統(tǒng)應(yīng)用場(chǎng)景的能力。
物聯(lián)網(wǎng)中的人工智能(TinyML)
在這一類,我們考慮微控制器級(jí)別的計(jì)算機(jī)芯片,它們?cè)谫Y源受限的環(huán)境中以超低功耗運(yùn)行。在這些情況下,端點(diǎn)設(shè)備上的人工智能推斷非常有吸引力,因?yàn)樗黾恿搜舆t,節(jié)省了帶寬,幫助保護(hù)隱私,并節(jié)省了與數(shù)據(jù)到云的RF傳輸相關(guān)的能量。
GreenWaves
GreenWaves是位于法國(guó)格勒諾布爾的博洛尼亞大學(xué)的一個(gè)分支,它在一個(gè)超低功耗ML應(yīng)用處理器中使用了多個(gè)RISC-V核心,用于電池供電的傳感設(shè)備。該公司依賴于其自定義指令集擴(kuò)展,以方便DSP操作和人工智能加速的最低功耗。GreenWaves是最早為業(yè)界提供高度差異化技術(shù)和市場(chǎng)定位的RISC-V芯片供應(yīng)商之一,以滿足市場(chǎng)對(duì)RISC-V指令集架構(gòu)日益增長(zhǎng)的需求
GreenWaves作為ARM的競(jìng)爭(zhēng)對(duì)手,將其擁有的專利RISC架構(gòu)授權(quán)給許多芯片設(shè)計(jì)公司使用。而ARM銷售的知識(shí)產(chǎn)權(quán)可以結(jié)合到芯片制造商制作的芯片中。
2018年他們推出了全球首款物聯(lián)網(wǎng)應(yīng)用處理器——GAP8,該處理器是業(yè)界首款在物聯(lián)網(wǎng)(IoT)應(yīng)用中實(shí)現(xiàn)可以用電池長(zhǎng)期供電人工智能(AI)的超低功耗處理器,可以在傳感設(shè)備中進(jìn)行低功率AI處理,芯片基RISC-V與PULP的完全可編程并行運(yùn)算架構(gòu),以應(yīng)對(duì)機(jī)器學(xué)習(xí)算法最新技術(shù)的快速發(fā)展。
GreenWaves的第二代產(chǎn)品GAP9使用了10個(gè)核心。其中,1個(gè)用作fabric控制器, 9個(gè)構(gòu)成計(jì)算集群,控制器和集群位于不同的電壓和頻率域中,因此它們僅在必要時(shí)才消耗電能。它還利用了最先進(jìn)的FD-SOI(完全耗盡的絕緣體上的硅)工藝技術(shù),進(jìn)一步降低功耗。
GAP9的樣品將于2020年上半年到達(dá)。
Eta Compute
Eta Compute為超低功耗物聯(lián)網(wǎng)設(shè)備中的AI處理設(shè)計(jì)了兩個(gè)核心—Arm Cortex-M3+一個(gè)DSP。兩個(gè)核心都使用了動(dòng)態(tài)電壓和頻率縮放技術(shù),以盡可能低的功率水平運(yùn)行,這是在沒(méi)有鎖相環(huán)的情況下實(shí)現(xiàn)的。AI工作負(fù)載可以運(yùn)行在任何一個(gè)核心上,也可以運(yùn)行在兩個(gè)核心上(這是由軟件分配)。使用這種技術(shù),在線圖像處理和傳感器融合可以實(shí)現(xiàn)功率預(yù)算100μw。
Eta Compute還為運(yùn)行在ECM3532設(shè)備上的超低功耗應(yīng)用優(yōu)化了神經(jīng)網(wǎng)絡(luò)。ECM3532為雙核(Arm Cortex-M3和NXP CoolFlux DSP)SoC,可支持用于電池供電或能源采集設(shè)計(jì)的微瓦級(jí)傳感器融合應(yīng)用。它以僅100μW的功率可實(shí)現(xiàn)物聯(lián)網(wǎng)中的在線圖像處理和傳感器應(yīng)用,號(hào)稱能效是其競(jìng)品的100-1000倍。
Eta Compute成立于2015年,在美國(guó)和印度有35名員工,迄今已籌集了1900萬(wàn)美元資金。樣品已經(jīng)問(wèn)市。