寒武紀,即深度學習處理器,它是給電腦創(chuàng)造出模仿人類大腦多層大規(guī)模人工神經(jīng)網(wǎng)絡的芯片。在深度學習處理器的運行當中,計算系統(tǒng)的運算能力提升是決定深度學習處理效率的關鍵。深度學習是指多層的人工神經(jīng)網(wǎng)絡和訓練它的方法。通俗講就是指計算機通過深度神經(jīng)網(wǎng)絡,模擬人腦的機制來學習、判斷、決策。2017年11月7日,中國科學院在北京發(fā)布了全球新一代人工智能芯片“寒武紀”系列——分別是3款面向智能手機等終端的“寒武紀”處理器IP,兩款面向服務器等云端的“寒武紀”高性能智能處理器,以及1款專門為開發(fā)者打造的人工智能軟件平臺。“寒武紀”是中國科學院計算技術研究所發(fā)布的全球首個能夠“深度學習”的“神經(jīng)網(wǎng)絡”處理器芯片。
最近,寒武紀的水花有點大。先是發(fā)布三季度財報,前三季度營收2.22億元,同比增長41.19%。緊接著,寒武紀馬上發(fā)布了國內(nèi)第一款公開發(fā)布支持LPDDR5內(nèi)存的云端AI芯片思元370,以及基于思元370的兩款加速卡。用此前寒武紀創(chuàng)始人陳天石接受媒體采訪時的話來說,就是,“我能做的只是做該做的事,走該走的路,把精力都放在產(chǎn)品研發(fā)和服務客戶上。苦心孤詣是成功的必由之路?!倍以陉愄焓磥?,寒武紀已經(jīng)經(jīng)過了驗證自己能做,拿出量產(chǎn)芯片,到了拼軟件、造生態(tài)的階段,而這個階段,也正是當下英偉達等巨頭扎堆的領域。
寒武紀此次發(fā)布了推訓一體思元370芯片,再加上此前發(fā)布的云端推理思元270、邊緣推理思元220、云端訓練思元290,寒武紀為用戶提供了覆蓋不同場景、不同算力規(guī)模的全系列產(chǎn)品。思元370 是寒武紀首款采用chiplet(芯粒)技術的AI 芯片?;谂_積電7nm 制程工藝,最大算力達到256TOPS(INT8),這一數(shù)據(jù)是寒武紀第二代產(chǎn)品思元270 算力的2 倍。
縱觀2016年3月成立到2021年11月的五年間里,寒武紀每年至少推出一款智能芯片產(chǎn)品,按發(fā)布時間看,寒武紀1A(2016)、1H(2017)、1M(2018)、思元100(2018)、思元270(2019)、思元220(2019)、思元290(2020)、思元370(2021年)。公司成立僅僅5年,寒武紀科技就已擁有8個智能芯片產(chǎn)品,并實現(xiàn)了四次處理器架構的迭代。
比如最新的第四代智能處理器架構MLUarch03,擁有新一代張量運算單元,內(nèi)置Supercharger模塊大幅提升各類卷積效率;采用全新的多算子硬件融合技術,在軟件融合的基礎上大幅減少算子執(zhí)行時間;片上通訊帶寬是上一代MLUarch02的2倍、片上共享緩存容量最高是MLUarch02的2.75倍。配合最新架構,寒武紀還推出全新MLUv03指令集,更完備,更高效且向前兼容。
在這個愈發(fā)重視AI芯片自主架構、能擁有“殺手級”應用場景、能實現(xiàn)算力突破與能耗雙控的時代,思元370其實具有多項領先優(yōu)勢:
在架構上,思元370屬于寒武紀第四代自研智能芯片架構,第一代架構MLUarch00主打智能加速IP核,第二代MLUarch01主打多核架構,第三代MLUarch02主打多核共享片內(nèi)存儲,第四代MLUarch03更是寒武紀首款采用 chiplet(芯粒)技術的AI芯片,在國內(nèi)應該也屬于行業(yè)首顆chiplet AI芯片。
在應用場景靈活性上,由于思元370在一顆芯片中封裝2顆AI計算芯粒(MLU-Die),每一個MLU-Die都具備獨立的AI計算單元、內(nèi)存、IO以及MLU-Fabric控制和接口,不同MLU-Die可以組合規(guī)格多樣化的產(chǎn)品,為用戶提供適用不同場景的高性價比AI芯片。
在算力上,基于臺積電 7nm 制程工藝、整體集成390億個晶體管的思元370最大算力達到 256TOPS(INT8),相比上一代思元270算力直接翻倍。
不到18個月就實現(xiàn)了算力翻倍,在通用處理器領域已經(jīng)失效的摩爾定律,在AI芯片領域還在延續(xù)。
現(xiàn)實世界對于算力的需求遠沒有到達頂峰。以英偉達為例,自2017年底英偉達發(fā)布Tesla V100之后,訓練最大模型的算力需求增長了3000倍。
舉例來說,僅是分析3000萬路視頻,以常見的英偉達Tesla P4顯卡為例約需100萬塊,總硬件成本200億元以上,一塊顯卡按照75瓦起步功耗計算總功耗也高達7.5萬千瓦。
作為全球智能芯片領域的先行者,寒武紀聚焦端云一體、端云融合的智能新生態(tài),致力打造各類智能云服務器、智能終端以及智能機器人的核心處理器芯片。
寒武紀智能處理器架構MLUarch03,擁有新一代張量運算單元,內(nèi)置Supercharger模塊大幅提升各類卷積效率;采用全新的多算子硬件融合技術,在軟件融合的基礎上大幅減少算子執(zhí)行時間;片上通訊帶寬是上一代MLUarch02的2倍、片上共享緩存容量最高是MLUarch02的2.75倍;推出全新MLUv03指令集,更完備,更高效且向前兼容。
有7nm先進工藝和全新MLUarch03架構的加持,思元370芯片算力最高可達256TOPS(INT8),是上一代產(chǎn)品思元270算力的2倍。相較于峰值算力的提升,思元370在實測性能和能效方面的表現(xiàn)更為優(yōu)秀:以ResNet-50為例,MLU370-S4加速卡(半高半長)實測性能為同尺寸主流GPU的2倍;MLU370-X4加速卡(全高全長)實測性能與同尺寸主流GPU相當,能效則大幅領先。
MagicMind是寒武紀全新打造的推理加速引擎,也是業(yè)界首個基于MLIR圖編譯技術達到商業(yè)化部署能力的推理引擎。MagicMind支持跨框架的模型解析、自動后端代碼生成及優(yōu)化。在MLU、GPU、CPU訓練好的算法模型上,借助MagicMind,用戶僅需投入極少的開發(fā)成本,即可將推理業(yè)務部署到寒武紀全系列產(chǎn)品上,并獲得頗具競爭力的性能。
MagicMind的優(yōu)勢不僅在于可以提供極致的性能、可靠的精度以及簡潔的編程接口,讓用戶能夠?qū)W⒂跇I(yè)務本身,無需理解芯片更多底層細節(jié)就可實現(xiàn)模型的快速高效部署,MagicMind插件化的設計還可以滿足在性能或功能上追求差異化競爭力的客戶需求。
除了“云邊端”之外,寒武紀也開始涉足汽車市場。在今年 7 月舉辦的 2021 世界人工智能大會上,寒武紀首次披露了控股子公司行歌科技的進展,并披露研發(fā)中的車載智能芯片關鍵數(shù)據(jù)——基于 7 納米制程的車規(guī)級芯片,算力大于200TOPS,具備獨立安全島及成熟軟件工具鏈。
寒武紀的“云邊端車”處理器都是用統(tǒng)一的處理器架構和基礎軟件平臺,這意味著開發(fā)者只要在某一端應用寒武紀的產(chǎn)品,其他端很容易就能實現(xiàn)互相兼容,大大減少不同平臺的開發(fā)和應用遷移成本。據(jù)了解,市面上具有“云邊端車”生態(tài)協(xié)同優(yōu)勢的玩家,其實只有兩三家,寒武紀正是其中之一。
進入2020年,寒武紀營收增長幅度大幅減緩,營收4.59億元,同比增長3.38%;歸母凈虧損4.36億元。2021年一季度,雖然營收增幅213%,但歸母凈虧損從去年的1.08億元擴大至2.06億元。由此計算,寒武紀2017年以來歸母凈虧損累計超過22億元。
國金證券研報分析稱,寒武紀2021年一季度短期虧損擴大,市場預期過于樂觀:營收僅占Wind分析師全年預期的4個點,虧損卻超過Wind全年預期的50%,主要歸因于研發(fā)及管理費用(增加股票激勵)同比大幅增加所致。
根據(jù)Wind分析師預期寒武紀2021年營收增長93%達8.88億,虧損為3.85億。國金證券初步認為寒武紀達成今年營收預期及減少虧損有難度。
國金證券表示,寒武紀費用增加短期扭虧不易。隨著寒武紀持續(xù)加大云邊端產(chǎn)品線及軟件開發(fā)平臺的研發(fā)投入,研發(fā)費用較去年有較大幅度的增加,國金證券維持之前對寒武紀的看法,短期扭虧為盈不容易,自由現(xiàn)金流持續(xù)惡化。
此前,寒武紀的技術沉淀讓它搶得了先機,政策利好一度助力公司市值超過千億元。但是在構建生態(tài)方面公司并不具備必然優(yōu)勢。作為最早投身行業(yè)的AI芯片第一股,寒武紀要如何應對巨頭的競爭?還有哪些新的業(yè)務拓展可能性?何時能夠扭虧為盈?這些都是投資者們在審視和衡量這家公司時會思考的重要問題。
在下個階段,擺脫了一級市場光環(huán)的寒武紀,要想提振二級市場投資者們的信心,恐怕需要交出更多的利好答卷。