www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當(dāng)前位置:首頁(yè) > 嵌入式 > 嵌入式動(dòng)態(tài)
[導(dǎo)讀]相信你一定還記得擊敗了李世石和柯潔的谷歌“阿爾法狗”(Alpha Go),那你知道驅(qū)動(dòng)Alpha Go的是什么嗎?

相信你一定還記得擊敗了李世石和柯潔的谷歌“阿爾法狗”(Alpha Go),那你知道驅(qū)動(dòng)Alpha Go的是什么嗎?

如果你覺得Alpha Go和人相似,只不過是把人腦換成了芯片,那么你就大錯(cuò)特錯(cuò)了。擊敗李世石的Alpha Go裝有48個(gè)谷歌的AI芯片,而這48個(gè)芯片不是安裝在Alpha Go身體里,而是在云端。所以,真正驅(qū)動(dòng)Alpha Go的裝置,看上去是這樣的...

因此李世石和柯潔不是輸給了“機(jī)器人”,而是輸給了裝有AI芯片的云工作站。

然而近幾年,AI技術(shù)的應(yīng)用場(chǎng)景開始向移動(dòng)設(shè)備轉(zhuǎn)移,比如汽車上的自動(dòng)駕駛、手機(jī)上的人臉識(shí)別等。產(chǎn)業(yè)的需求促成了技術(shù)的進(jìn)步,而AI芯片作為產(chǎn)業(yè)的根基,必須達(dá)到更強(qiáng)的性能、更高的效率、更小的體積,才能完成AI技術(shù)從云端到終端的轉(zhuǎn)移。

目前,AI芯片的研發(fā)方向主要分兩種:一是基于傳統(tǒng)馮·諾依曼架構(gòu)的FPGA(現(xiàn)場(chǎng)可編程門陣列)和ASIC(專用集成電路)芯片,二是模仿人腦神經(jīng)元結(jié)構(gòu)設(shè)計(jì)的類腦芯片。其中FPGA和ASIC芯片不管是研發(fā)還是應(yīng)用,都已經(jīng)形成一定規(guī)模;而類腦芯片雖然還處于研發(fā)初期,但具備很大潛力,可能在未來成為行業(yè)內(nèi)的主流。

這兩條發(fā)展路線的主要區(qū)別在于,前者沿用馮·諾依曼架構(gòu),后者采用類腦架構(gòu)。你看到的每一臺(tái)電腦,采用的都是馮·諾依曼架構(gòu)。它的核心思路就是處理器和存儲(chǔ)器要分開,所以才有了CPU(中央處理器)和內(nèi)存。而類腦架構(gòu),顧名思義,模仿人腦神經(jīng)元結(jié)構(gòu),因此CPU、內(nèi)存和通信部件都集成在一起。

接下來將為你分別介紹兩種架構(gòu)的簡(jiǎn)要發(fā)展史、技術(shù)特點(diǎn)和代表性產(chǎn)品。

從GPU到FPGA和ASIC芯片

2007年以前,受限于當(dāng)時(shí)算法和數(shù)據(jù)等因素, AI 對(duì)芯片還沒有特別強(qiáng)烈的需求,通用的 CPU 芯片即可提供足夠的計(jì)算能力。比如現(xiàn)在在讀這篇文章的你,手機(jī)或電腦里就有 CPU 芯片。

之后由于高清視頻和游戲產(chǎn)業(yè)的快速發(fā)展, GPU (圖形處理器)芯片取得迅速的發(fā)展。因?yàn)?GPU 有更多的邏輯運(yùn)算單元用于處理數(shù)據(jù),屬于高并行結(jié)構(gòu),在處理圖形數(shù)據(jù)和復(fù)雜算法方面比 CPU 更有優(yōu)勢(shì),又因?yàn)?AI 深度學(xué)習(xí)的模型參數(shù)多、數(shù)據(jù)規(guī)模大、計(jì)算量大,此后一段時(shí)間內(nèi) GPU 代替了 CPU ,成為當(dāng)時(shí) AI 芯片的主流。

然而 GPU 畢竟只是圖形處理器,不是專門用于 AI 深度學(xué)習(xí)的芯片,自然存在不足,比如在執(zhí)行 AI 應(yīng)用時(shí),其并行結(jié)構(gòu)的性能無法充分發(fā)揮,導(dǎo)致能耗高。

與此同時(shí), AI 技術(shù)的應(yīng)用日益增長(zhǎng),在教育、醫(yī)療、無人駕駛等領(lǐng)域都能看到 AI 的身影。然而 GPU 芯片過高的能耗無法滿足產(chǎn)業(yè)的需求,因此取而代之的是 FPGA 芯片,和 ASIC 芯片。

那么這兩種芯片的技術(shù)特點(diǎn)分別是什么呢?又有什么代表性的產(chǎn)品呢?

“萬能芯片” FPGA

FPGA(FIELD-PROGRAMMABLE GATE ARRAY),即 “現(xiàn)場(chǎng)可編程門陣列”,是在 PAL、GAL、CPLD 等可編程器件的基礎(chǔ)上進(jìn)一步發(fā)展的產(chǎn)物。

FPGA 可以被理解為“萬能芯片”。用戶通過燒入 FPGA 配置文件,來定義這些門電路以及存儲(chǔ)器之間的連線,用硬件描述語(yǔ)言(HDL)對(duì) FPGA 的硬件電路進(jìn)行設(shè)計(jì)。每完成一次燒錄,F(xiàn)PGA內(nèi)部的硬件電路就有了確定的連接方式,具有了一定的功能,輸入的數(shù)據(jù)只需要依次經(jīng)過各個(gè)門電路,就可以得到輸出結(jié)果。

用大白話說,“萬能芯片” 就是你需要它有哪些功能、它就能有哪些功能的芯片。

盡管叫“萬能芯片”,F(xiàn)PGA也不是沒有缺陷。正因?yàn)?FPGA 的結(jié)構(gòu)具有較高靈活性,量產(chǎn)中單塊芯片的成本也比 ASIC 芯片高,并且在性能上,F(xiàn)PGA 芯片的速度和能耗相比 ASIC 芯片也做出了妥協(xié)。

也就是說,“萬能芯片” 雖然是個(gè) “多面手”,但它的性能比不上 ASIC 芯片,價(jià)格也比 ASIC 芯片更高。

但是在芯片需求還未成規(guī)模、深度學(xué)習(xí)算法需要不斷迭代改進(jìn)的情況下,具備可重構(gòu)特性的FPGA芯片適應(yīng)性更強(qiáng)。因此用FPGA來實(shí)現(xiàn)半定制人工智能芯片,毫無疑問是保險(xiǎn)的選擇。

目前,F(xiàn)PGA 芯片市場(chǎng)被美國(guó)廠商 Xilinx 和 Altera 瓜分。據(jù)國(guó)外媒體 Marketwatch 的統(tǒng)計(jì),前者占全球市場(chǎng)份額 50%、后者占 35%左右,兩家廠商霸占了 85% 的市場(chǎng)份額,專利達(dá)到 6000 多項(xiàng),毫無疑問是行業(yè)里的兩座大山。

Xilinx 的 FPGA 芯片從低端到高端,分為四個(gè)系列,分別是 Spartan、Artix、Kintex、Vertex,芯片工藝也從 45 到 16 納米不等。芯片工藝水平越高,芯片越小。其中 Spartan 和 Artix 主要針對(duì)民用市場(chǎng),應(yīng)用包括無人駕駛、智能家居等;Kintex 和 Vertex 主要針對(duì)軍用市場(chǎng),應(yīng)用包括國(guó)防、航空航天等。

我們?cè)僬f說 Xilinx 的老對(duì)手 Altera。Altera 的主流 FPGA 芯片分為兩大類,一種側(cè)重低成本應(yīng)用,容量中等,性能可以滿足一般的應(yīng)用需求,如 Cyclone 和 MAX 系列;還有一種側(cè)重于高性能應(yīng)用,容量大,性能能滿足各類高端應(yīng)用,如Startix和Arria系列。Altera的FPGA芯片主要應(yīng)用在消費(fèi)電子、無線通信、軍事航空等領(lǐng)域。

專用集成電路 ASIC

在 AI 產(chǎn)業(yè)應(yīng)用大規(guī)模興起之前,使用 FPGA 這類適合并行計(jì)算的通用芯片來實(shí)現(xiàn)加速,可以避免研發(fā) ASIC 這種定制芯片的高投入和風(fēng)險(xiǎn)。

但就像我們剛才說到的,由于通用芯片的設(shè)計(jì)初衷并非專門針對(duì)深度學(xué)習(xí),因此 FPGA 難免存在性能、功耗等方面的瓶頸。隨著人工智能應(yīng)用規(guī)模的擴(kuò)大,這類問題將日益突出。換句話說,我們對(duì)人工智能所有的美好設(shè)想,都需要芯片追上人工智能迅速發(fā)展的步伐。如果芯片跟不上,就會(huì)成為人工智能發(fā)展的瓶頸。

所以,隨著近幾年人工智能算法和應(yīng)用領(lǐng)域的快速發(fā)展,以及研發(fā)上的成果和工藝上的逐漸成熟,ASIC 芯片正在成為人工智能計(jì)算芯片發(fā)展的主流。

ASIC芯片是針對(duì)特定需求而定制的專用芯片。雖然犧牲了通用性,但 ASIC 無論是在性能、功耗還是體積上,都比 FPGA 和 GPU 芯片有優(yōu)勢(shì),特別是在需要芯片同時(shí)具備高性能、低功耗、小體積的移動(dòng)端設(shè)備上,比如我們手上的手機(jī)。

但是,因?yàn)槠渫ㄓ眯缘停珹SIC 芯片的高研發(fā)成本也可能會(huì)帶來高風(fēng)險(xiǎn)。然而如果考慮市場(chǎng)因素,ASIC芯片其實(shí)是行業(yè)的發(fā)展大趨勢(shì)。

為什么這么說呢?因?yàn)閺姆?wù)器、計(jì)算機(jī)到無人駕駛汽車、無人機(jī),再到智能家居的各類家電,海量的設(shè)備需要引入人工智能計(jì)算能力和感知交互能力。出于對(duì)實(shí)時(shí)性的要求,以及訓(xùn)練數(shù)據(jù)隱私等考慮,這些能力不可能完全依賴云端,必須要有本地的軟硬件基礎(chǔ)平臺(tái)支撐。而 ASIC 芯片高性能、低功耗、小體積的特點(diǎn)恰好能滿足這些需求。

ASIC 芯片市場(chǎng)百家爭(zhēng)鳴

2016 年,英偉達(dá)發(fā)布了專門用于加速 AI 計(jì)算的 Tesla P100 芯片,并且在 2017 年升級(jí)為 Tesla V100。在訓(xùn)練超大型神經(jīng)網(wǎng)絡(luò)模型時(shí),Tesla V100 可以為深度學(xué)習(xí)相關(guān)的模型訓(xùn)練和推斷應(yīng)用提供高達(dá) 125 萬億次每秒的張量計(jì)算(張量計(jì)算是AI深度學(xué)習(xí)中最經(jīng)常用到的計(jì)算)。然而在最高性能模式下,Tesla V100的功耗達(dá)到了300W,雖然性能強(qiáng)勁,但也毫無疑問是顆“核彈”,因?yàn)樘M(fèi)電了。

同樣在 2016 年,谷歌發(fā)布了加速深度學(xué)習(xí)的 TPU(Tensor Processing Unit)芯片,并且之后升級(jí)為 TPU 2.0 和 TPU 3.0。與英偉達(dá)的芯片不同,谷歌的 TPU 芯片設(shè)置在云端,就像文章在Alpha Go 的例子中說的一樣,并且“只租不賣“,服務(wù)按小時(shí)收費(fèi)。不過谷歌 TPU 的性能也十分強(qiáng)大,算力達(dá)到 180 萬億次每秒,并且功耗只有200w。

關(guān)于各自 AI 芯片的性能,谷歌 CEO Sundar Pichai 和英偉達(dá)CEO 黃仁勛之前還在網(wǎng)上產(chǎn)生過爭(zhēng)論。別看兩位大佬為自家產(chǎn)品撐腰,爭(zhēng)得不可開交,實(shí)際上不少網(wǎng)友指出,這兩款產(chǎn)品沒必要“硬做比較”,因?yàn)橐粋€(gè)是在云端,一個(gè)是在終端。

除了大公司,初創(chuàng)企業(yè)也在激烈競(jìng)爭(zhēng) ASIC 芯片市場(chǎng)。那么初創(chuàng)企業(yè)在行業(yè)中該如何生存呢?對(duì)此,AI 芯片初創(chuàng)企業(yè) Novumind 的中國(guó)區(qū) CEO 周斌告訴小探:創(chuàng)新是初創(chuàng)企業(yè)的核心競(jìng)爭(zhēng)力。

2017 年,NovuMind 推出了第一款自主設(shè)計(jì)的AI芯片:NovuTensor。這款芯片使用原生張量處理器(Native Tensor Processor)作為內(nèi)核構(gòu)架,這種內(nèi)核架構(gòu)由 NovuMind 自主研發(fā),并在短短一年內(nèi)獲得美國(guó)專利。除此之外,NovuTensor 芯片采用不同的異構(gòu)計(jì)算模式來應(yīng)對(duì)不同 AI 應(yīng)用領(lǐng)域的三維張量計(jì)算。2018年下半年,Novumind 剛推出了新一代 NovuTensor 芯片,這款芯片在做到 15 萬億次計(jì)算每秒的同時(shí),全芯片功耗控制在 15W 左右,效率極高。

盡管 NovuTensor 芯片的紙面算力不如英偉達(dá)的芯片,但是其計(jì)算延遲和功耗卻低得多,因此適合邊緣端 AI計(jì)算,也就是服務(wù)于物聯(lián)網(wǎng)。雖然大家都在追求高算力,但實(shí)際上不是所有芯片都需要高算力的。比如用在手機(jī)、智能眼鏡上的芯片,雖然也對(duì)算力有一定要求,但更需要的是低能耗,否則你的手機(jī)、智能眼鏡等產(chǎn)品,用幾下就沒電了,也是很麻煩的一件事情。并且據(jù) EE Times 的報(bào)道,在運(yùn)行 ResNet-18、ResNet-34、ResNet70、VGG16等業(yè)界標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)推理時(shí),NovuTensor 芯片的吞吐量和延遲都要優(yōu)于英偉達(dá)的另一款高端芯片 Xavier。

結(jié)合Novumind現(xiàn)階段的成功,我們不難看出:在云端市場(chǎng)目前被英偉達(dá)、谷歌等巨頭公司霸占,終端應(yīng)用芯片群雄逐鹿的情形下,專注技術(shù)創(chuàng)新,在關(guān)鍵指標(biāo)上大幅領(lǐng)先所有競(jìng)爭(zhēng)對(duì)手,或許是AI芯片初創(chuàng)企業(yè)的生存之道。

類腦芯片

如文章開頭所說,目前所有電腦,包括以上談到的所有芯片,都基于馮·諾依曼架構(gòu)。

然而這種架構(gòu)并非十全十美。將CPU與內(nèi)存分開的設(shè)計(jì),反而會(huì)導(dǎo)致所謂的馮·諾伊曼瓶頸(von Neumann bottleneck):CPU與內(nèi)存之間的資料傳輸率,與內(nèi)存的容量和CPU的工作效率相比都非常小,因此當(dāng)CPU需要在巨大的資料上執(zhí)行一些簡(jiǎn)單指令時(shí),資料傳輸率就成了整體效率非常嚴(yán)重的限制。

既然要研制人工智能芯片,那么有的專家就回歸問題本身,開始模仿人腦的結(jié)構(gòu)。

人腦內(nèi)有上千億個(gè)神經(jīng)元,而且每個(gè)神經(jīng)元都通過成千上萬個(gè)突觸與其他神經(jīng)元相連,形成超級(jí)龐大的神經(jīng)元回路,以分布式和并發(fā)式的方式傳導(dǎo)信號(hào),相當(dāng)于超大規(guī)模的并行計(jì)算,因此算力極強(qiáng)。人腦的另一個(gè)特點(diǎn)是,不是大腦的每個(gè)部分都一直在工作,從而整體能耗很低。

這種類腦芯片跟傳統(tǒng)的馮·諾依曼架構(gòu)不同,它的內(nèi)存、CPU和通信部件是完全集成在一起,把數(shù)字處理器當(dāng)作神經(jīng)元,把內(nèi)存作為突觸。除此之外,在類腦芯片上,信息的處理完全在本地進(jìn)行,而且由于本地處理的數(shù)據(jù)量并不大,傳統(tǒng)計(jì)算機(jī)內(nèi)存與CPU之間的瓶頸不復(fù)存在了。同時(shí),神經(jīng)元只要接收到其他神經(jīng)元發(fā)過來的脈沖,這些神經(jīng)元就會(huì)同時(shí)做動(dòng)作,因此神經(jīng)元之間可以方便快捷地相互溝通。

在類腦芯片的研發(fā)上,IBM 是行業(yè)內(nèi)的先行者。2014 年 IBM 發(fā)布了 TrueNorth 類腦芯片,這款芯片在直徑只有幾厘米的方寸的空間里,集成了 4096 個(gè)內(nèi)核、100 萬個(gè)“神經(jīng)元”和 2.56 億個(gè)“突觸”,能耗只有不到 70 毫瓦,可謂是高集成、低功耗的完美演繹。

那么這款芯片的實(shí)戰(zhàn)表現(xiàn)如何呢?IBM研究小組曾經(jīng)利用做過 DARPA 的NeoVision2 Tower數(shù)據(jù)集做過演示。它能以30幀每秒速度,實(shí)時(shí)識(shí)別出街景視頻中的人、自行車、公交車、卡車等,準(zhǔn)確率達(dá)到了80%。相比之下,一臺(tái)筆記本編程完成同樣的任務(wù)用時(shí)要慢100倍,能耗卻是IBM芯片的1萬倍。

然而目前類腦芯片研制的挑戰(zhàn)之一,是在硬件層面上模仿人腦中的神經(jīng)突觸,換而言之就是設(shè)計(jì)完美的人造突觸。

在現(xiàn)有的類腦芯片中,通常用施加電壓的方式來模擬神經(jīng)元中的信息傳輸。但存在的問題是,由于大多數(shù)由非晶材料制成的人造突觸中,離子通過的路徑有無限種可能,難以預(yù)測(cè)離子究竟走哪一條路,造成不同神經(jīng)元電流輸出的差異。

針對(duì)這個(gè)問題,今年麻省理工的研究團(tuán)隊(duì)制造了一種類腦芯片,其中的人造突觸由硅鍺制成,每個(gè)突觸約 25 納米。對(duì)每個(gè)突觸施加電壓時(shí),所有突觸都表現(xiàn)出幾乎相同的離子流,突觸之間的差異約為 4%。與無定形材料制成的突觸相比,其性能更為一致。

即便如此,類腦芯片距離人腦也還有相當(dāng)大的距離,畢竟人腦里的神經(jīng)元個(gè)數(shù)有上千億個(gè),而現(xiàn)在最先進(jìn)的類腦芯片中的神經(jīng)元也只有幾百萬個(gè),連人腦的萬分之一都不到。因此這類芯片的研究,離成為市場(chǎng)上可以大規(guī)模廣泛使用的成熟技術(shù),還有很長(zhǎng)的路要走,但是長(zhǎng)期來看類腦芯片有可能會(huì)帶來計(jì)算體系的革命。

說了這么多,相信讀者們對(duì) AI 芯片行業(yè)已經(jīng)有了基本的認(rèn)識(shí)。在未來,AI芯片是否會(huì)從云端向終端發(fā)展?行業(yè)中大小公司的激烈的競(jìng)爭(zhēng)會(huì)催生出怎樣的創(chuàng)新和轉(zhuǎn)型?類腦芯片的研發(fā)又能取得哪些突破?

相信你一定還記得擊敗了李世石和柯潔的谷歌“阿爾法狗”(Alpha Go),那你知道驅(qū)動(dòng)Alpha Go的是什么嗎?

如果你覺得Alpha Go和人相似,只不過是把人腦換成了芯片,那么你就大錯(cuò)特錯(cuò)了。擊敗李世石的Alpha Go裝有48個(gè)谷歌的AI芯片,而這48個(gè)芯片不是安裝在Alpha Go身體里,而是在云端。所以,真正驅(qū)動(dòng)Alpha Go的裝置,看上去是這樣的...

因此李世石和柯潔不是輸給了“機(jī)器人”,而是輸給了裝有AI芯片的云工作站。

然而近幾年,AI技術(shù)的應(yīng)用場(chǎng)景開始向移動(dòng)設(shè)備轉(zhuǎn)移,比如汽車上的自動(dòng)駕駛、手機(jī)上的人臉識(shí)別等。產(chǎn)業(yè)的需求促成了技術(shù)的進(jìn)步,而AI芯片作為產(chǎn)業(yè)的根基,必須達(dá)到更強(qiáng)的性能、更高的效率、更小的體積,才能完成AI技術(shù)從云端到終端的轉(zhuǎn)移。

目前,AI芯片的研發(fā)方向主要分兩種:一是基于傳統(tǒng)馮·諾依曼架構(gòu)的FPGA(現(xiàn)場(chǎng)可編程門陣列)和ASIC(專用集成電路)芯片,二是模仿人腦神經(jīng)元結(jié)構(gòu)設(shè)計(jì)的類腦芯片。其中FPGA和ASIC芯片不管是研發(fā)還是應(yīng)用,都已經(jīng)形成一定規(guī)模;而類腦芯片雖然還處于研發(fā)初期,但具備很大潛力,可能在未來成為行業(yè)內(nèi)的主流。

這兩條發(fā)展路線的主要區(qū)別在于,前者沿用馮·諾依曼架構(gòu),后者采用類腦架構(gòu)。你看到的每一臺(tái)電腦,采用的都是馮·諾依曼架構(gòu)。它的核心思路就是處理器和存儲(chǔ)器要分開,所以才有了CPU(中央處理器)和內(nèi)存。而類腦架構(gòu),顧名思義,模仿人腦神經(jīng)元結(jié)構(gòu),因此CPU、內(nèi)存和通信部件都集成在一起。

接下來將為你分別介紹兩種架構(gòu)的簡(jiǎn)要發(fā)展史、技術(shù)特點(diǎn)和代表性產(chǎn)品。

從GPU到FPGA和ASIC芯片

2007年以前,受限于當(dāng)時(shí)算法和數(shù)據(jù)等因素, AI 對(duì)芯片還沒有特別強(qiáng)烈的需求,通用的 CPU 芯片即可提供足夠的計(jì)算能力。比如現(xiàn)在在讀這篇文章的你,手機(jī)或電腦里就有 CPU 芯片。

之后由于高清視頻和游戲產(chǎn)業(yè)的快速發(fā)展, GPU (圖形處理器)芯片取得迅速的發(fā)展。因?yàn)?GPU 有更多的邏輯運(yùn)算單元用于處理數(shù)據(jù),屬于高并行結(jié)構(gòu),在處理圖形數(shù)據(jù)和復(fù)雜算法方面比 CPU 更有優(yōu)勢(shì),又因?yàn)?AI 深度學(xué)習(xí)的模型參數(shù)多、數(shù)據(jù)規(guī)模大、計(jì)算量大,此后一段時(shí)間內(nèi) GPU 代替了 CPU ,成為當(dāng)時(shí) AI 芯片的主流。

然而 GPU 畢竟只是圖形處理器,不是專門用于 AI 深度學(xué)習(xí)的芯片,自然存在不足,比如在執(zhí)行 AI 應(yīng)用時(shí),其并行結(jié)構(gòu)的性能無法充分發(fā)揮,導(dǎo)致能耗高。

與此同時(shí), AI 技術(shù)的應(yīng)用日益增長(zhǎng),在教育、醫(yī)療、無人駕駛等領(lǐng)域都能看到 AI 的身影。然而 GPU 芯片過高的能耗無法滿足產(chǎn)業(yè)的需求,因此取而代之的是 FPGA 芯片,和 ASIC 芯片。

那么這兩種芯片的技術(shù)特點(diǎn)分別是什么呢?又有什么代表性的產(chǎn)品呢?

“萬能芯片” FPGA

FPGA(FIELD-PROGRAMMABLE GATE ARRAY),即 “現(xiàn)場(chǎng)可編程門陣列”,是在 PAL、GAL、CPLD 等可編程器件的基礎(chǔ)上進(jìn)一步發(fā)展的產(chǎn)物。

FPGA 可以被理解為“萬能芯片”。用戶通過燒入 FPGA 配置文件,來定義這些門電路以及存儲(chǔ)器之間的連線,用硬件描述語(yǔ)言(HDL)對(duì) FPGA 的硬件電路進(jìn)行設(shè)計(jì)。每完成一次燒錄,F(xiàn)PGA內(nèi)部的硬件電路就有了確定的連接方式,具有了一定的功能,輸入的數(shù)據(jù)只需要依次經(jīng)過各個(gè)門電路,就可以得到輸出結(jié)果。

用大白話說,“萬能芯片” 就是你需要它有哪些功能、它就能有哪些功能的芯片。

盡管叫“萬能芯片”,F(xiàn)PGA也不是沒有缺陷。正因?yàn)?FPGA 的結(jié)構(gòu)具有較高靈活性,量產(chǎn)中單塊芯片的成本也比 ASIC 芯片高,并且在性能上,F(xiàn)PGA 芯片的速度和能耗相比 ASIC 芯片也做出了妥協(xié)。

也就是說,“萬能芯片” 雖然是個(gè) “多面手”,但它的性能比不上 ASIC 芯片,價(jià)格也比 ASIC 芯片更高。

但是在芯片需求還未成規(guī)模、深度學(xué)習(xí)算法需要不斷迭代改進(jìn)的情況下,具備可重構(gòu)特性的FPGA芯片適應(yīng)性更強(qiáng)。因此用FPGA來實(shí)現(xiàn)半定制人工智能芯片,毫無疑問是保險(xiǎn)的選擇。

目前,F(xiàn)PGA 芯片市場(chǎng)被美國(guó)廠商 Xilinx 和 Altera 瓜分。據(jù)國(guó)外媒體 Marketwatch 的統(tǒng)計(jì),前者占全球市場(chǎng)份額 50%、后者占 35%左右,兩家廠商霸占了 85% 的市場(chǎng)份額,專利達(dá)到 6000 多項(xiàng),毫無疑問是行業(yè)里的兩座大山。

Xilinx 的 FPGA 芯片從低端到高端,分為四個(gè)系列,分別是 Spartan、Artix、Kintex、Vertex,芯片工藝也從 45 到 16 納米不等。芯片工藝水平越高,芯片越小。其中 Spartan 和 Artix 主要針對(duì)民用市場(chǎng),應(yīng)用包括無人駕駛、智能家居等;Kintex 和 Vertex 主要針對(duì)軍用市場(chǎng),應(yīng)用包括國(guó)防、航空航天等。

我們?cè)僬f說 Xilinx 的老對(duì)手 Altera。Altera 的主流 FPGA 芯片分為兩大類,一種側(cè)重低成本應(yīng)用,容量中等,性能可以滿足一般的應(yīng)用需求,如 Cyclone 和 MAX 系列;還有一種側(cè)重于高性能應(yīng)用,容量大,性能能滿足各類高端應(yīng)用,如Startix和Arria系列。Altera的FPGA芯片主要應(yīng)用在消費(fèi)電子、無線通信、軍事航空等領(lǐng)域。

專用集成電路 ASIC

在 AI 產(chǎn)業(yè)應(yīng)用大規(guī)模興起之前,使用 FPGA 這類適合并行計(jì)算的通用芯片來實(shí)現(xiàn)加速,可以避免研發(fā) ASIC 這種定制芯片的高投入和風(fēng)險(xiǎn)。

但就像我們剛才說到的,由于通用芯片的設(shè)計(jì)初衷并非專門針對(duì)深度學(xué)習(xí),因此 FPGA 難免存在性能、功耗等方面的瓶頸。隨著人工智能應(yīng)用規(guī)模的擴(kuò)大,這類問題將日益突出。換句話說,我們對(duì)人工智能所有的美好設(shè)想,都需要芯片追上人工智能迅速發(fā)展的步伐。如果芯片跟不上,就會(huì)成為人工智能發(fā)展的瓶頸。

所以,隨著近幾年人工智能算法和應(yīng)用領(lǐng)域的快速發(fā)展,以及研發(fā)上的成果和工藝上的逐漸成熟,ASIC 芯片正在成為人工智能計(jì)算芯片發(fā)展的主流。

ASIC芯片是針對(duì)特定需求而定制的專用芯片。雖然犧牲了通用性,但 ASIC 無論是在性能、功耗還是體積上,都比 FPGA 和 GPU 芯片有優(yōu)勢(shì),特別是在需要芯片同時(shí)具備高性能、低功耗、小體積的移動(dòng)端設(shè)備上,比如我們手上的手機(jī)。

但是,因?yàn)槠渫ㄓ眯缘?,ASIC 芯片的高研發(fā)成本也可能會(huì)帶來高風(fēng)險(xiǎn)。然而如果考慮市場(chǎng)因素,ASIC芯片其實(shí)是行業(yè)的發(fā)展大趨勢(shì)。

為什么這么說呢?因?yàn)閺姆?wù)器、計(jì)算機(jī)到無人駕駛汽車、無人機(jī),再到智能家居的各類家電,海量的設(shè)備需要引入人工智能計(jì)算能力和感知交互能力。出于對(duì)實(shí)時(shí)性的要求,以及訓(xùn)練數(shù)據(jù)隱私等考慮,這些能力不可能完全依賴云端,必須要有本地的軟硬件基礎(chǔ)平臺(tái)支撐。而 ASIC 芯片高性能、低功耗、小體積的特點(diǎn)恰好能滿足這些需求。

ASIC 芯片市場(chǎng)百家爭(zhēng)鳴

2016 年,英偉達(dá)發(fā)布了專門用于加速 AI 計(jì)算的 Tesla P100 芯片,并且在 2017 年升級(jí)為 Tesla V100。在訓(xùn)練超大型神經(jīng)網(wǎng)絡(luò)模型時(shí),Tesla V100 可以為深度學(xué)習(xí)相關(guān)的模型訓(xùn)練和推斷應(yīng)用提供高達(dá) 125 萬億次每秒的張量計(jì)算(張量計(jì)算是AI深度學(xué)習(xí)中最經(jīng)常用到的計(jì)算)。然而在最高性能模式下,Tesla V100的功耗達(dá)到了300W,雖然性能強(qiáng)勁,但也毫無疑問是顆“核彈”,因?yàn)樘M(fèi)電了。

同樣在 2016 年,谷歌發(fā)布了加速深度學(xué)習(xí)的 TPU(Tensor Processing Unit)芯片,并且之后升級(jí)為 TPU 2.0 和 TPU 3.0。與英偉達(dá)的芯片不同,谷歌的 TPU 芯片設(shè)置在云端,就像文章在Alpha Go 的例子中說的一樣,并且“只租不賣“,服務(wù)按小時(shí)收費(fèi)。不過谷歌 TPU 的性能也十分強(qiáng)大,算力達(dá)到 180 萬億次每秒,并且功耗只有200w。

關(guān)于各自 AI 芯片的性能,谷歌 CEO Sundar Pichai 和英偉達(dá)CEO 黃仁勛之前還在網(wǎng)上產(chǎn)生過爭(zhēng)論。別看兩位大佬為自家產(chǎn)品撐腰,爭(zhēng)得不可開交,實(shí)際上不少網(wǎng)友指出,這兩款產(chǎn)品沒必要“硬做比較”,因?yàn)橐粋€(gè)是在云端,一個(gè)是在終端。

除了大公司,初創(chuàng)企業(yè)也在激烈競(jìng)爭(zhēng) ASIC 芯片市場(chǎng)。那么初創(chuàng)企業(yè)在行業(yè)中該如何生存呢?對(duì)此,AI 芯片初創(chuàng)企業(yè) Novumind 的中國(guó)區(qū) CEO 周斌告訴小探:創(chuàng)新是初創(chuàng)企業(yè)的核心競(jìng)爭(zhēng)力。

2017 年,NovuMind 推出了第一款自主設(shè)計(jì)的AI芯片:NovuTensor。這款芯片使用原生張量處理器(Native Tensor Processor)作為內(nèi)核構(gòu)架,這種內(nèi)核架構(gòu)由 NovuMind 自主研發(fā),并在短短一年內(nèi)獲得美國(guó)專利。除此之外,NovuTensor 芯片采用不同的異構(gòu)計(jì)算模式來應(yīng)對(duì)不同 AI 應(yīng)用領(lǐng)域的三維張量計(jì)算。2018年下半年,Novumind 剛推出了新一代 NovuTensor 芯片,這款芯片在做到 15 萬億次計(jì)算每秒的同時(shí),全芯片功耗控制在 15W 左右,效率極高。

盡管 NovuTensor 芯片的紙面算力不如英偉達(dá)的芯片,但是其計(jì)算延遲和功耗卻低得多,因此適合邊緣端 AI計(jì)算,也就是服務(wù)于物聯(lián)網(wǎng)。雖然大家都在追求高算力,但實(shí)際上不是所有芯片都需要高算力的。比如用在手機(jī)、智能眼鏡上的芯片,雖然也對(duì)算力有一定要求,但更需要的是低能耗,否則你的手機(jī)、智能眼鏡等產(chǎn)品,用幾下就沒電了,也是很麻煩的一件事情。并且據(jù) EE Times 的報(bào)道,在運(yùn)行 ResNet-18、ResNet-34、ResNet70、VGG16等業(yè)界標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)推理時(shí),NovuTensor 芯片的吞吐量和延遲都要優(yōu)于英偉達(dá)的另一款高端芯片 Xavier。

結(jié)合Novumind現(xiàn)階段的成功,我們不難看出:在云端市場(chǎng)目前被英偉達(dá)、谷歌等巨頭公司霸占,終端應(yīng)用芯片群雄逐鹿的情形下,專注技術(shù)創(chuàng)新,在關(guān)鍵指標(biāo)上大幅領(lǐng)先所有競(jìng)爭(zhēng)對(duì)手,或許是AI芯片初創(chuàng)企業(yè)的生存之道。

類腦芯片

如文章開頭所說,目前所有電腦,包括以上談到的所有芯片,都基于馮·諾依曼架構(gòu)。

然而這種架構(gòu)并非十全十美。將CPU與內(nèi)存分開的設(shè)計(jì),反而會(huì)導(dǎo)致所謂的馮·諾伊曼瓶頸(von Neumann bottleneck):CPU與內(nèi)存之間的資料傳輸率,與內(nèi)存的容量和CPU的工作效率相比都非常小,因此當(dāng)CPU需要在巨大的資料上執(zhí)行一些簡(jiǎn)單指令時(shí),資料傳輸率就成了整體效率非常嚴(yán)重的限制。

既然要研制人工智能芯片,那么有的專家就回歸問題本身,開始模仿人腦的結(jié)構(gòu)。

人腦內(nèi)有上千億個(gè)神經(jīng)元,而且每個(gè)神經(jīng)元都通過成千上萬個(gè)突觸與其他神經(jīng)元相連,形成超級(jí)龐大的神經(jīng)元回路,以分布式和并發(fā)式的方式傳導(dǎo)信號(hào),相當(dāng)于超大規(guī)模的并行計(jì)算,因此算力極強(qiáng)。人腦的另一個(gè)特點(diǎn)是,不是大腦的每個(gè)部分都一直在工作,從而整體能耗很低。

這種類腦芯片跟傳統(tǒng)的馮·諾依曼架構(gòu)不同,它的內(nèi)存、CPU和通信部件是完全集成在一起,把數(shù)字處理器當(dāng)作神經(jīng)元,把內(nèi)存作為突觸。除此之外,在類腦芯片上,信息的處理完全在本地進(jìn)行,而且由于本地處理的數(shù)據(jù)量并不大,傳統(tǒng)計(jì)算機(jī)內(nèi)存與CPU之間的瓶頸不復(fù)存在了。同時(shí),神經(jīng)元只要接收到其他神經(jīng)元發(fā)過來的脈沖,這些神經(jīng)元就會(huì)同時(shí)做動(dòng)作,因此神經(jīng)元之間可以方便快捷地相互溝通。

在類腦芯片的研發(fā)上,IBM 是行業(yè)內(nèi)的先行者。2014 年 IBM 發(fā)布了 TrueNorth 類腦芯片,這款芯片在直徑只有幾厘米的方寸的空間里,集成了 4096 個(gè)內(nèi)核、100 萬個(gè)“神經(jīng)元”和 2.56 億個(gè)“突觸”,能耗只有不到 70 毫瓦,可謂是高集成、低功耗的完美演繹。

那么這款芯片的實(shí)戰(zhàn)表現(xiàn)如何呢?IBM研究小組曾經(jīng)利用做過 DARPA 的NeoVision2 Tower數(shù)據(jù)集做過演示。它能以30幀每秒速度,實(shí)時(shí)識(shí)別出街景視頻中的人、自行車、公交車、卡車等,準(zhǔn)確率達(dá)到了80%。相比之下,一臺(tái)筆記本編程完成同樣的任務(wù)用時(shí)要慢100倍,能耗卻是IBM芯片的1萬倍。

然而目前類腦芯片研制的挑戰(zhàn)之一,是在硬件層面上模仿人腦中的神經(jīng)突觸,換而言之就是設(shè)計(jì)完美的人造突觸。

在現(xiàn)有的類腦芯片中,通常用施加電壓的方式來模擬神經(jīng)元中的信息傳輸。但存在的問題是,由于大多數(shù)由非晶材料制成的人造突觸中,離子通過的路徑有無限種可能,難以預(yù)測(cè)離子究竟走哪一條路,造成不同神經(jīng)元電流輸出的差異。

針對(duì)這個(gè)問題,今年麻省理工的研究團(tuán)隊(duì)制造了一種類腦芯片,其中的人造突觸由硅鍺制成,每個(gè)突觸約 25 納米。對(duì)每個(gè)突觸施加電壓時(shí),所有突觸都表現(xiàn)出幾乎相同的離子流,突觸之間的差異約為 4%。與無定形材料制成的突觸相比,其性能更為一致。

即便如此,類腦芯片距離人腦也還有相當(dāng)大的距離,畢竟人腦里的神經(jīng)元個(gè)數(shù)有上千億個(gè),而現(xiàn)在最先進(jìn)的類腦芯片中的神經(jīng)元也只有幾百萬個(gè),連人腦的萬分之一都不到。因此這類芯片的研究,離成為市場(chǎng)上可以大規(guī)模廣泛使用的成熟技術(shù),還有很長(zhǎng)的路要走,但是長(zhǎng)期來看類腦芯片有可能會(huì)帶來計(jì)算體系的革命。

說了這么多,相信讀者們對(duì) AI 芯片行業(yè)已經(jīng)有了基本的認(rèn)識(shí)。在未來,AI芯片是否會(huì)從云端向終端發(fā)展?行業(yè)中大小公司的激烈的競(jìng)爭(zhēng)會(huì)催生出怎樣的創(chuàng)新和轉(zhuǎn)型?類腦芯片的研發(fā)又能取得哪些突破?

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉