AI芯片公司大盤點(diǎn) 努力提高人工智能性能

時(shí)間：2020-05-01 15:18:02

關(guān)鍵字：人工智能 AI芯片內(nèi)存 CE

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] 為了跟上前沿神經(jīng)網(wǎng)絡(luò)的要求，高科技公司正在努力尋找提高人工智能性能的最佳方式。與此同時(shí)，世界各地涌現(xiàn)出許多初創(chuàng)公司，它們對(duì)如何更好的地實(shí)現(xiàn)AI提出了新的想法。這一領(lǐng)域正在吸引大量風(fēng)險(xiǎn)資本的投資，

為了跟上前沿神經(jīng)網(wǎng)絡(luò)的要求，高科技公司正在努力尋找提高人工智能性能的最佳方式。與此同時(shí)，世界各地涌現(xiàn)出許多初創(chuàng)公司，它們對(duì)如何更好的地實(shí)現(xiàn)AI提出了新的想法。這一領(lǐng)域正在吸引大量風(fēng)險(xiǎn)資本的投資，這使得該領(lǐng)域不僅擁有大量現(xiàn)金，而且還擁有計(jì)算架構(gòu)的新穎想法。

我們正在追蹤來(lái)自美國(guó)、歐洲和亞洲的約60家人工智能芯片公司，從重新研發(fā)可編程邏輯和多核設(shè)計(jì)，到開發(fā)自己全新架構(gòu)的公司，再到使用神經(jīng)形態(tài)（腦啟發(fā)）架構(gòu)和光學(xué)計(jì)算等未來(lái)技術(shù)的公司。

以下是10個(gè)我們認(rèn)為有前途，或至少有一些有趣想法的案例。我們將它們按照其產(chǎn)品在網(wǎng)絡(luò)中的目標(biāo)位置分為：數(shù)據(jù)中心、端點(diǎn)或AIoT設(shè)備。

數(shù)據(jù)中心的人工智能

根據(jù)位置不同，數(shù)據(jù)中心可以算作“邊緣”。邊緣計(jì)算的關(guān)鍵概念是在（或接近）生成或收集數(shù)據(jù)的相同地理位置處理數(shù)據(jù)。這包括網(wǎng)關(guān)或集線器設(shè)備，也包括加速公司單一人工智能應(yīng)用程序的內(nèi)部服務(wù)器。想想醫(yī)院或醫(yī)學(xué)研究機(jī)構(gòu)中加速x射線或CT掃描圖像分類的服務(wù)器，以及從工廠接收狀態(tài)數(shù)據(jù)并在現(xiàn)場(chǎng)處理的網(wǎng)關(guān)。

Graphcore

總部位于英國(guó)布里斯托爾的Graphcore公司在早期的一輪融資中獲得了超過(guò)10億美元的估值，成為首家被認(rèn)定為獨(dú)角獸的西方半導(dǎo)體初創(chuàng)公司。

Graphcore的IPU（智能處理單元）芯片擁有超過(guò)1200個(gè)專業(yè)核心的大規(guī)模并行架構(gòu)，每個(gè)核心可以運(yùn)行6個(gè)程序線程。還有大量的片上內(nèi)存，幾百M(fèi)B的RAM，更重要的是，還有45 tb的內(nèi)存帶寬。這使得整個(gè)機(jī)器學(xué)習(xí)模型可以存儲(chǔ)在芯片上。

Graphcore的IPU芯片可以在戴爾服務(wù)器上用于邊緣計(jì)算應(yīng)用程序。

Groq

Groq是由谷歌的一個(gè)團(tuán)隊(duì)在硅谷創(chuàng)立，擁有70名員工，迄今已籌集了6700萬(wàn)美元的資金。在SC ‘ 19，他們正式推出了他們的超大芯片，可以達(dá)到1000 TOPS。

Groq的軟件優(yōu)先的方法意味著他們的編譯器處理許多通常在硬件中會(huì)發(fā)生的控制功能，比如執(zhí)行計(jì)劃。軟件會(huì)編排所有的數(shù)據(jù)流和時(shí)間，以確保計(jì)算不會(huì)出現(xiàn)停頓，并使延遲、性能和功耗在編譯時(shí)完全可預(yù)測(cè)。

Groq正以其張量流處理器（TSP）芯片為目標(biāo)，瞄準(zhǔn)數(shù)據(jù)中心應(yīng)用和自動(dòng)駕駛車輛。

Cerebras

Cerebras是以恢復(fù)圓片規(guī)模芯片的倡導(dǎo)而著稱，而這個(gè)想法早在80年代就已經(jīng)被放棄。

我們常見的處理器都是經(jīng)過(guò)封裝之后才可使用的，實(shí)際上如CPU中的核心裸片大小一般在200平方毫米以下，而GPU核心的大小也沒有超過(guò)1000平方毫米的，所以在一片晶圓上可以切割出很多核心裸片。不過(guò)這并不代表無(wú)法制造超大尺寸的芯片，在Hot Chip 31會(huì)議中，Cerebras Systems就推出了一款晶圓級(jí)深度學(xué)習(xí)芯片，尺寸達(dá)到了215×215平方毫米。幾乎占據(jù)了一整個(gè)晶圓的大小。

Cerebras龐大的46，225mm2的芯片，占用整個(gè)晶圓，其功耗15千瓦，在84個(gè)處理器塊上封裝40萬(wàn)個(gè)核和18GB內(nèi)存。雖然這些數(shù)字看起來(lái)非常龐大，但請(qǐng)記住，這么大的芯片被設(shè)計(jì)出來(lái)，目的是代替成千上萬(wàn)個(gè)GPU的。

而這么大的芯片主要就是用來(lái)進(jìn)行深度學(xué)習(xí)訓(xùn)練的，而深度學(xué)習(xí)的訓(xùn)練是應(yīng)用小變化的過(guò)程，模型的大小等因素讓神經(jīng)網(wǎng)絡(luò)訓(xùn)練變得非常困難。對(duì)于粗粒度計(jì)算，需要告訴互聯(lián)才能進(jìn)行訓(xùn)練，規(guī)模依舊有限且成本高昂。所以Celebras Systems設(shè)計(jì)了專門為神經(jīng)網(wǎng)絡(luò)原語(yǔ)優(yōu)化的核心，這種核心可編程、可以快速進(jìn)行西數(shù)計(jì)算，而且具有高速互聯(lián)能力。Celebras Systems設(shè)計(jì)了非常靈活的內(nèi)核，而且可以高效的處理張量運(yùn)算。

該公司表示，它已經(jīng)解決了之前困擾晶圓片規(guī)模設(shè)計(jì)的問題，如成品率（它繞過(guò)缺陷），并發(fā)明了對(duì)抗熱效應(yīng)的封裝。

Cerebras已經(jīng)籌集了超過(guò)2億美元的資金，此前曾表示，他們的rack系統(tǒng)正在少數(shù)幾個(gè)客戶數(shù)據(jù)中心運(yùn)行。

Cambricon寒武紀(jì)

Cambricon是中國(guó)最早的人工智能芯片公司之一，但絕不是最后一家。Cambricon是2016年由中國(guó)科學(xué)院的兩名研究員創(chuàng)立。

由于CPU和通用GPU （GPGPU）指令集在加速神經(jīng)網(wǎng)絡(luò)方面缺乏靈活性，他們開發(fā)了自己的指令集架構(gòu)（ISA），這是一種集成了標(biāo)量、向量、矩陣、邏輯、數(shù)據(jù)傳輸和控制指令的負(fù)載存儲(chǔ)架構(gòu)。

Cambricon的第一款產(chǎn)品Cambricon-1A被用于數(shù)千萬(wàn)部智能手機(jī)，以及無(wú)人機(jī)和可穿戴設(shè)備等其他終端設(shè)備。如今，第二代芯片包括云計(jì)算的兩部分和邊緣計(jì)算芯片——思源220。這種邊緣芯片的設(shè)計(jì)是為了填補(bǔ)該公司在邊緣計(jì)算產(chǎn)品組合中的空白。思遠(yuǎn)220標(biāo)志著寒武紀(jì)實(shí)現(xiàn)了云、邊、端的全方位立體覆蓋。MLU220是一款專門用于邊緣計(jì)算應(yīng)用場(chǎng)景的AI加速產(chǎn)品（邊緣人工智能加速卡）。產(chǎn)品集成4核ARM CORTEX A55，LPDDR4x內(nèi)存及豐富的外圍接口。用戶既可以使用MLU220作為AI加速協(xié)處理器，也可以使用其實(shí)現(xiàn)SOC方案。

Cambricon（以及Horizon Robotics，見下文）目前是全球最有價(jià)值的芯片初創(chuàng)企業(yè)之一：該公司迄今已融資2億美元，使其市值達(dá)到25億美元左右。

端點(diǎn)處的AI

“端點(diǎn)”是指網(wǎng)絡(luò)末端的設(shè)備，數(shù)據(jù)在收集數(shù)據(jù)的同一設(shè)備內(nèi)處理。這包括從安全攝像頭到消費(fèi)電子產(chǎn)品和家用電器的一切。當(dāng)然，由于一些設(shè)備既可以用作網(wǎng)關(guān)，也存在一些灰色地帶，也可以用作端點(diǎn)（比如自動(dòng)駕駛汽車或智能手機(jī)）。

Hailo

Hailo于2017年在以色列特拉維夫成立，由前以色列國(guó)防軍精英情報(bào)單位成員創(chuàng)建。該公司約有60名員工，迄今已融資2100萬(wàn)美元。

Hailo的AI協(xié)同處理器Hailo-8可以處理26臺(tái)電腦，功率效率為2.8臺(tái)/W。應(yīng)用目標(biāo)是ADAS和自動(dòng)駕駛。它的結(jié)構(gòu)混合了記憶塊、控制塊和計(jì)算塊，并通過(guò)軟件分配相鄰塊來(lái)計(jì)算神經(jīng)網(wǎng)絡(luò)的每一層。減少芯片內(nèi)外的數(shù)據(jù)傳輸有助于節(jié)約電能。

Hailo表示他們的Hailo-8將勝過(guò)所有其他邊緣處理器，并且尺寸更小，小于一分錢硬幣，內(nèi)存需求更少。而且除了計(jì)算外，它還集成了內(nèi)存和控制功能。

公司通過(guò)設(shè)計(jì)一種依賴于神經(jīng)網(wǎng)絡(luò)核心特性的架構(gòu)，邊緣設(shè)備現(xiàn)在可以比傳統(tǒng)解決方案更高效，更有效，更具持續(xù)性地運(yùn)行深度學(xué)習(xí)應(yīng)用程序，同時(shí)顯著降低成本。

由于功能強(qiáng)大的軟件開發(fā)套件（SDK）和新型散熱設(shè)計(jì)，無(wú)需主動(dòng)冷卻，Hailo-8在幾個(gè)AI語(yǔ)義分割和對(duì)象檢測(cè)基準(zhǔn)測(cè)試中優(yōu)于英偉達(dá)的Xavier AGX，包括ResNet-50。

在圖像分辨率為224 x 224的初步測(cè)試中，與Xavier AGX的每秒656幀相比，Hailo-8每秒處理672幀。

Hailo-8預(yù)計(jì)在2020年上半年開始批量生產(chǎn)。

Kneron

Kneron在圣地亞哥和臺(tái)灣擁有150名員工，并獲得了7300萬(wàn)美元的資金，Kneron是首批在2019年5月將硅推向市場(chǎng)的初創(chuàng)公司之一。該公司已經(jīng)有幾個(gè)客戶宣布了其第一代KL520芯片，并在2019年創(chuàng)造了“數(shù)百萬(wàn)美元”的收入。

KL520針對(duì)卷積神經(jīng)網(wǎng)絡(luò)（CNN）進(jìn)行了優(yōu)化，可以在0.5W下運(yùn)行0.3個(gè)TOPS （相當(dāng)于0.6 TOPS/W）。這已經(jīng)足夠用于IP安全攝像頭中的面部識(shí)別，也可用于智能門鎖和門鈴。據(jù)介紹，以這款 KL520 芯片來(lái)說(shuō)，它不僅僅在規(guī)格、性能上領(lǐng)先，還有在成本上能實(shí)現(xiàn)比較好的平衡，讓方案擁有更全面的競(jìng)爭(zhēng)力；其次在智能門鎖特別是人臉識(shí)別智能門鎖的高速成長(zhǎng)階段，選用 KL520，以更低的門檻切入，有機(jī)會(huì)快速搶占市場(chǎng)。

該公司最初生產(chǎn)用于面部識(shí)別的神經(jīng)網(wǎng)絡(luò)，現(xiàn)在又為其神經(jīng)處理單元（NPU）提供這些網(wǎng)絡(luò)和IP。該公司表示，第二代芯片將于今年夏天問世，它將能夠加速CNN和遞歸神經(jīng)網(wǎng)絡(luò)（RNN）。在 KL520 性能的支持下，耐能還能將這個(gè)芯片應(yīng)用到更多的領(lǐng)域中，但耐能并不滿足于此，他們現(xiàn)在已經(jīng)規(guī)劃了更強(qiáng)的 28nm 和 16nm 產(chǎn)品，展望為未來(lái)的 AI 市場(chǎng)帶來(lái)更多的可能。

Mythic

Mythic于2012年在密歇根大學(xué)成立。該公司目前位于得克薩斯州奧斯汀市，已經(jīng)籌集了8，600萬(wàn)美元來(lái)開發(fā)其模擬計(jì)算芯片，該芯片使用基于閃存晶體管的處理器存儲(chǔ)技術(shù)，在功率、性能和成本方面都優(yōu)于CPU和GPU。

內(nèi)存處理器并不是什么新技術(shù)，但Mythic表示，它已經(jīng)解決了一些棘手的補(bǔ)償和校準(zhǔn)技術(shù)，這些技術(shù)可以消除噪聲，并允許可靠的8位計(jì)算。Mythic計(jì)劃銷售獨(dú)立芯片以及多芯片處理卡。由于該設(shè)備可以處理30幀/秒的高清視頻圖像處理，Mythic的主要目標(biāo)市場(chǎng)之一是安全攝像頭和用于安全攝像頭系統(tǒng)的現(xiàn)場(chǎng)聚合器。

地平線

Horizon RoboTIcs 于2015年在中國(guó)北京成立，這家初創(chuàng)公司到2019年底已經(jīng)籌集了大約6億美元，公司估值為30億美元。如今，Horizon RoboTIcs擁有500多名員工，擁有600多項(xiàng)專利。

Horizon RoboTIcs的BPU（大腦處理單元）最初是為計(jì)算機(jī)視覺應(yīng)用而設(shè)計(jì)。第二代BPU是一個(gè)64位多指令多數(shù)據(jù)（MIMD）核心，可以處理所有類型的神經(jīng)網(wǎng)絡(luò)（不僅僅是卷積網(wǎng)絡(luò)）。它使用該公司的稀疏神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)物體的運(yùn)動(dòng)和場(chǎng)景解析。第三代將為決策算法和深度學(xué)習(xí)之外的其他AI部分增加加速功能。

Horizon RoboTIcs有兩條芯片產(chǎn)品線：汽車版Journey和AIoT版Sunrise。第一代Journey和Sunrise芯片于2017年12月發(fā)布，第二代基于BPU 2.0的芯片將于2019年秋季發(fā)布。Journey 2.0為L(zhǎng)3/L4自動(dòng)駕駛提供典型功耗2W情況下可提供4TOPS的性能。并結(jié)合Horizon自己的感知算法，實(shí)現(xiàn)了90%的核心利用率。

Journey 2.0處理器2019年初流片成功，采用臺(tái)積電28nm HPC+工藝，基于地平線自主研發(fā)的BPU 2.0架構(gòu)，集成了2個(gè)Cortex-A53核心，典型功耗2W下就可以提供4TOPS的性能，是同等級(jí)GPU的10倍以上。

此外，基于BPU 3.0架構(gòu)的第三代征程處理器Journey 3.0，專為自動(dòng)駕駛和域控制器打造，同樣符合AEC-Q100和ISO 26262車規(guī)級(jí)標(biāo)準(zhǔn)，而預(yù)計(jì)明年發(fā)布的Matrix 3.0自動(dòng)駕駛計(jì)算平臺(tái)也會(huì)使用征程三代處理器，算力提升到192TOPS，具備支持ASIL D的系統(tǒng)應(yīng)用場(chǎng)景的能力。

物聯(lián)網(wǎng)中的人工智能（TinyML）

在這一類，我們考慮微控制器級(jí)別的計(jì)算機(jī)芯片，它們?cè)谫Y源受限的環(huán)境中以超低功耗運(yùn)行。在這些情況下，端點(diǎn)設(shè)備上的人工智能推斷非常有吸引力，因?yàn)樗黾恿搜舆t，節(jié)省了帶寬，幫助保護(hù)隱私，并節(jié)省了與數(shù)據(jù)到云的RF傳輸相關(guān)的能量。

GreenWaves

GreenWaves是位于法國(guó)格勒諾布爾的博洛尼亞大學(xué)的一個(gè)分支，它在一個(gè)超低功耗ML應(yīng)用處理器中使用了多個(gè)RISC-V核心，用于電池供電的傳感設(shè)備。該公司依賴于其自定義指令集擴(kuò)展，以方便DSP操作和人工智能加速的最低功耗。GreenWaves是最早為業(yè)界提供高度差異化技術(shù)和市場(chǎng)定位的RISC-V芯片供應(yīng)商之一，以滿足市場(chǎng)對(duì)RISC-V指令集架構(gòu)日益增長(zhǎng)的需求

GreenWaves作為ARM的競(jìng)爭(zhēng)對(duì)手，將其擁有的專利RISC架構(gòu)授權(quán)給許多芯片設(shè)計(jì)公司使用。而ARM銷售的知識(shí)產(chǎn)權(quán)可以結(jié)合到芯片制造商制作的芯片中。

2018年他們推出了全球首款物聯(lián)網(wǎng)應(yīng)用處理器——GAP8，該處理器是業(yè)界首款在物聯(lián)網(wǎng)（IoT）應(yīng)用中實(shí)現(xiàn)可以用電池長(zhǎng)期供電人工智能（AI）的超低功耗處理器，可以在傳感設(shè)備中進(jìn)行低功率AI處理，芯片基RISC-V與PULP的完全可編程并行運(yùn)算架構(gòu)，以應(yīng)對(duì)機(jī)器學(xué)習(xí)算法最新技術(shù)的快速發(fā)展。

GreenWaves的第二代產(chǎn)品GAP9使用了10個(gè)核心。其中，1個(gè)用作fabric控制器， 9個(gè)構(gòu)成計(jì)算集群，控制器和集群位于不同的電壓和頻率域中，因此它們僅在必要時(shí)才消耗電能。它還利用了最先進(jìn)的FD-SOI（完全耗盡的絕緣體上的硅）工藝技術(shù)，進(jìn)一步降低功耗。

GAP9的樣品將于2020年上半年到達(dá)。

Eta Compute

Eta Compute為超低功耗物聯(lián)網(wǎng)設(shè)備中的AI處理設(shè)計(jì)了兩個(gè)核心—Arm Cortex-M3+一個(gè)DSP。兩個(gè)核心都使用了動(dòng)態(tài)電壓和頻率縮放技術(shù)，以盡可能低的功率水平運(yùn)行，這是在沒有鎖相環(huán)的情況下實(shí)現(xiàn)的。AI工作負(fù)載可以運(yùn)行在任何一個(gè)核心上，也可以運(yùn)行在兩個(gè)核心上（這是由軟件分配）。使用這種技術(shù)，在線圖像處理和傳感器融合可以實(shí)現(xiàn)功率預(yù)算100μw。

Eta Compute還為運(yùn)行在ECM3532設(shè)備上的超低功耗應(yīng)用優(yōu)化了神經(jīng)網(wǎng)絡(luò)。ECM3532為雙核（Arm Cortex-M3和NXP CoolFlux DSP）SoC，可支持用于電池供電或能源采集設(shè)計(jì)的微瓦級(jí)傳感器融合應(yīng)用。它以僅100μW的功率可實(shí)現(xiàn)物聯(lián)網(wǎng)中的在線圖像處理和傳感器應(yīng)用，號(hào)稱能效是其競(jìng)品的100-1000倍。

Eta Compute成立于2015年，在美國(guó)和印度有35名員工，迄今已籌集了1900萬(wàn)美元資金。樣品已經(jīng)問市。