探境科技:瞄準(zhǔn)智能家居語(yǔ)音芯片實(shí)現(xiàn)百萬(wàn)級(jí)出貨量
探境科技副總裁李同治告訴機(jī)器之心,家電廠商可以直接使用這個(gè)電路板用語(yǔ)音交互來(lái)控制家電,比如代替抽油煙機(jī)原來(lái)需要按按鍵的操作,或者是將板卡與家電廠商的控制模塊,通過(guò)串口協(xié)議直接相連,不做其它改變,即可升級(jí)為一套語(yǔ)音識(shí)別控制的智能家電。由 Marvell 中國(guó)芯片研發(fā)部門前高管魯勇創(chuàng)立的 AI 芯片公司探境科技,想以此切入廣闊的智能家居市場(chǎng),通過(guò)語(yǔ)音芯片打開(kāi)人機(jī)交互的入口。目前為止,搭載語(yǔ)音芯片的探境語(yǔ)音識(shí)別方案已實(shí)現(xiàn)百萬(wàn)級(jí)產(chǎn)品出貨。今年?duì)I收已經(jīng)破千萬(wàn)元。
在擁擠的語(yǔ)音 AI 芯片賽道,他們擁有自研的全棧式技術(shù)能力,先將目標(biāo)瞄準(zhǔn)智能家居市場(chǎng),通過(guò)語(yǔ)音芯片打開(kāi)人機(jī)交互的入口,再鋪向更多的應(yīng)用場(chǎng)景。正在播放電視劇的電視機(jī)旁,放著一個(gè)電路板,即內(nèi)含探境科技的語(yǔ)音芯片——Voitist 音旋風(fēng) 611、外圍電路、麥克風(fēng),這是一個(gè)用于智能家居語(yǔ)音控制的原型系統(tǒng)。當(dāng)人對(duì)著用于智能家居語(yǔ)音操控的原型系統(tǒng)說(shuō)話時(shí),該「系統(tǒng)」就會(huì)進(jìn)行回應(yīng),它可以根據(jù)人的指令做出反饋,比如當(dāng)你說(shuō)出「最大風(fēng)量」時(shí),系統(tǒng)就會(huì)復(fù)述一句,將抽油煙機(jī)調(diào)整為最大風(fēng)量。在夾雜多聲源的語(yǔ)音環(huán)境下,離線不聯(lián)網(wǎng)的語(yǔ)音控制系統(tǒng)仍能接聽(tīng)人發(fā)出的指令,并作出反饋。
實(shí)現(xiàn)百萬(wàn)級(jí)出貨量
2017 年,擔(dān)任 Marvell 中國(guó)芯片研發(fā)部門高管魯勇看到了 AI 芯片熱潮背后,存在著龐大的市場(chǎng)需求和落地場(chǎng)景,便創(chuàng)立了探境科技。兩年時(shí)間,探境科技迅速實(shí)現(xiàn)芯片量產(chǎn)出貨,且快速實(shí)現(xiàn)商業(yè)化落地。
2018 年,探境科技初步完成 SFA 架構(gòu)雛形,實(shí)現(xiàn)語(yǔ)音芯片 Voitist 音旋風(fēng) 611 的流片;2019 年第一季度 611 一次性流片成功,開(kāi)始合作首個(gè) alpha 客戶,;2019 年中實(shí)現(xiàn)量產(chǎn)供貨。2 年時(shí)間,魯勇透露,搭載語(yǔ)音芯片的探境語(yǔ)音識(shí)別方案已實(shí)現(xiàn)百萬(wàn)級(jí)產(chǎn)品出貨。未來(lái)探境還會(huì)將語(yǔ)音產(chǎn)品進(jìn)行二次升級(jí),推出更多在線離線一體化方案。截至目前,探境已經(jīng)合作約 30 家機(jī)構(gòu),合作廠商包括美的、海爾等智能家居制造廠商。探境科技在全球有 6 個(gè)研發(fā)中心,分別是北京、上海、深圳、合肥、杭州、美國(guó)硅谷。公司總員工接近 200 人,其中 150 人是研發(fā)人員,其骨干研發(fā)人員平均工作經(jīng)驗(yàn)約 15 年,其中有 50 人擁有碩士、博士學(xué)歷。
三大「自研降噪」法寶:AI 降噪技術(shù)+HONN 神經(jīng)網(wǎng)絡(luò)+端到端雙麥
在智能家居細(xì)分門類中,智能燈具、抽油煙機(jī)、空氣凈化器、垃圾桶、窗簾等家居設(shè)備,均可以通過(guò)搭載語(yǔ)音芯片的智能家居語(yǔ)音控制系統(tǒng)實(shí)現(xiàn)。據(jù) Strategy Analytics 發(fā)布的研究報(bào)告顯示,擁有語(yǔ)音控制的智能家居設(shè)備 (不包括智能音箱) 的銷量將從 2018 年的 15.4 萬(wàn)臺(tái)躍升至 2025 年的 3230 萬(wàn)臺(tái)。在火熱的智能家居語(yǔ)音市場(chǎng),語(yǔ)音芯片在語(yǔ)音交互中扮演著一個(gè)關(guān)鍵的角色。因其在語(yǔ)音識(shí)別、智能交互等方面的優(yōu)勢(shì),可以為智能家居提供新的控制入口。
但是目前語(yǔ)音控制技術(shù)層面仍面臨諸多挑戰(zhàn)。高噪聲、遠(yuǎn)場(chǎng)識(shí)別環(huán)境造成低信噪比情況。信噪比,是衡量需要識(shí)別的目標(biāo)聲源與其它干擾聲源強(qiáng)度比值的對(duì)數(shù)。一般將信噪比低于 15dB 的稱為噪聲環(huán)境。信噪比越低,識(shí)別難度越大。非穩(wěn)態(tài)噪聲,即干擾人們休息 、學(xué)習(xí)和工作的聲音,也會(huì)對(duì)降噪算法產(chǎn)生影響。另外播放電視劇、音樂(lè)造成的多聲源也會(huì)影響語(yǔ)音識(shí)別。在語(yǔ)音識(shí)別的研發(fā)過(guò)程中,一個(gè)完整的識(shí)別鏈路可以簡(jiǎn)化為麥克風(fēng)輸入、降噪處理、語(yǔ)音識(shí)別、識(shí)別結(jié)果輸入四個(gè)環(huán)節(jié)。
語(yǔ)音識(shí)別研發(fā)流程
為了順利完成語(yǔ)音識(shí)別,探境科技提出,首先在降噪處理方面下功夫,通過(guò)自研的 AI 降噪算法,對(duì)非穩(wěn)態(tài)的突發(fā)性噪聲進(jìn)行過(guò)濾。其次,通過(guò)高計(jì)算強(qiáng)度神經(jīng)網(wǎng)絡(luò)(HONN)進(jìn)行語(yǔ)音識(shí)別。在這一環(huán)節(jié),神經(jīng)網(wǎng)絡(luò)模型所需的算力決定了模型的描述能力,同時(shí)也決定了模型處理能力和識(shí)別率的上限。
在傳統(tǒng)的語(yǔ)音識(shí)別算法里,通常采用 DNN 的方法。DNN 即全連接神經(jīng)網(wǎng)絡(luò),最樸素的神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)參數(shù)最多,計(jì)算量大。高強(qiáng)度神經(jīng)網(wǎng)絡(luò)的參數(shù)量不大,僅為 DNN 的五分之一,用更小的參數(shù)量和存儲(chǔ),即可實(shí)現(xiàn)更好的效果。相比較于全連接操作,卷積操作能夠提供更高的計(jì)算強(qiáng)度,且卷積運(yùn)算與人類大腦負(fù)責(zé)感知模塊的處理方法類似,能夠提取滿足大腦認(rèn)知的本質(zhì)特征。探境將其計(jì)算機(jī)視覺(jué)中的一些經(jīng)驗(yàn)遷移到語(yǔ)音識(shí)別中,在語(yǔ)音識(shí)別算法上加入了更多的卷積操作,重新設(shè)計(jì)了一個(gè)高計(jì)算強(qiáng)度的神經(jīng)網(wǎng)絡(luò),即 HONN。結(jié)果顯示,HONN 在遠(yuǎn)場(chǎng)和高噪聲等環(huán)境下的識(shí)別率明顯優(yōu)于 DNN。基于 AI 降噪技術(shù)與 HONN 神經(jīng)網(wǎng)絡(luò)還不足以解決語(yǔ)音識(shí)別問(wèn)題。為了提升超強(qiáng)噪音場(chǎng)景下的語(yǔ)音識(shí)別率,探境科技開(kāi)發(fā)了基于 FCSP 的端到端 AI 雙麥算法。FCSP(Frequency Complex Subspace Projection)是探境自研的頻域復(fù)數(shù)子空間投影算法的簡(jiǎn)稱。通過(guò)這個(gè)算法直接輸入陣列信號(hào),輸出的是最終的識(shí)別結(jié)果,中間部分全部交給基于深度學(xué)習(xí)的 AI 算法來(lái)處理,不再使用傳統(tǒng)的數(shù)字信號(hào)處理方法。
李同治表示,在模型訓(xùn)練期間,采取「注意力增強(qiáng)」的學(xué)習(xí)方法,能夠靈敏地檢測(cè)到喚醒詞和命令詞?!割愃朴谠谝粋€(gè)嘈雜的環(huán)境里面,如果有人喊自己的名字,一下子就能反應(yīng)過(guò)來(lái)?!顾扔鞯馈?/p>
探境科技的邏輯是,通過(guò) AI 語(yǔ)音算法+HONN 神經(jīng)網(wǎng)絡(luò)模型來(lái)提升識(shí)別率,再通過(guò) FCSP「端到端」的雙麥處理算法簡(jiǎn)化識(shí)別流程,降低最終語(yǔ)音識(shí)別的錯(cuò)誤率。將這三個(gè)「法寶」集結(jié)一體,目的是攻克語(yǔ)音識(shí)別難題。結(jié)合這三大條件,探境科技發(fā)布離在線一體的語(yǔ)音識(shí)別解決方案,即 Voitist 音旋風(fēng) 612。Voitist 音旋風(fēng) 612 的特點(diǎn)是降低傳統(tǒng)語(yǔ)音設(shè)備對(duì)多麥的信號(hào)處理,相應(yīng)節(jié)省硬件成本;在高噪聲環(huán)境下識(shí)別率高;有效算力更高。
自研全棧式「硬底盤」
與其他公司不同,探境科技更強(qiáng)調(diào)自研,在全棧式技術(shù)上,提供芯片、軟件、算法、系統(tǒng)一站式整體方案。存儲(chǔ)優(yōu)先的芯片架構(gòu) SFA(Storage First Architecture) 則成為探境科技搭建「全棧」式服務(wù)的基礎(chǔ)。先用 SFA 解決算力的存儲(chǔ)問(wèn)題,再借助 AI 降噪算法,通過(guò)全棧式的解決方案「殺進(jìn)」市場(chǎng)。
魯勇表示,SFA 是針對(duì) AI 芯片存儲(chǔ)墻問(wèn)題而設(shè)置的芯片架構(gòu)。所謂存儲(chǔ)墻問(wèn)題指的是,與數(shù)據(jù)和存儲(chǔ)相關(guān)的帶寬瓶頸、功耗瓶頸問(wèn)題。同行業(yè)其他 AI 芯片設(shè)計(jì)公司也意識(shí)到,AI 芯片的本質(zhì)不是要解決計(jì)算問(wèn)題,而是要解決數(shù)據(jù)問(wèn)題?!杆羞\(yùn)行的深度學(xué)習(xí)算法和 AI 芯片都面臨一個(gè)問(wèn)題,并不是要做卷積運(yùn)算的乘法或加法,這并不是最難解決的問(wèn)題,難點(diǎn)是在于存儲(chǔ)帶寬要求很大,存儲(chǔ)功耗很高。」他指出,大量數(shù)據(jù)的重復(fù)使用,以及數(shù)據(jù)在存儲(chǔ)器里的位置、相對(duì)關(guān)系、讀取的性能,會(huì)影響到算法運(yùn)行的性能。
目前常見(jiàn)的芯片類型 CPU、GPU、FPGA、ASIC 都可以運(yùn)行深度學(xué)習(xí)算法,都可統(tǒng)稱為 AI 芯片。CPU、GPU 都屬于馮·諾依曼結(jié)構(gòu),指令譯碼執(zhí)行、共享內(nèi)存。用馮·諾依曼結(jié)構(gòu)的處理器處理深度學(xué)習(xí)算法時(shí),提供算力雖簡(jiǎn)單,但當(dāng)運(yùn)算部件達(dá)到一定的能力,存儲(chǔ)器則無(wú)法跟上運(yùn)算部件消耗的數(shù)據(jù)。因此,SFA 架構(gòu)以存儲(chǔ)來(lái)驅(qū)動(dòng)計(jì)算,推翻馮·諾依曼架構(gòu),設(shè)計(jì)不同于之前類 CPU 的計(jì)算架構(gòu)。
2019 年 8 月,探境自主研發(fā)的通用型語(yǔ)音芯片「音旋風(fēng)」611,能夠支持 200 條的命令詞,能夠做到 99% 的喚醒率和極低的誤喚醒率,已切入智能家居領(lǐng)域,涉及智能空調(diào)、空氣凈化器等多個(gè)品類。另外,探境科技搭載的 SFA 架構(gòu)的圖像芯片 Imagist851 已流片成功,圖像芯片的核心指標(biāo) IPS/W 高達(dá) 800,瞄準(zhǔn)工業(yè)視覺(jué)、新零售、安防、輔助駕駛等市場(chǎng)。
魯勇稱,SFA 可實(shí)現(xiàn)真正的通用型 AI 芯片架構(gòu),可支持任意神經(jīng)網(wǎng)絡(luò)。「不僅適配于終端,也適配于云端、推理、訓(xùn)練,可組成不同類型的產(chǎn)品形態(tài)。」據(jù)魯勇透露,探境的云端 AI 芯片也已提上日程,將于 2020 年推出。他向機(jī)器之心表示,現(xiàn)階段會(huì)以智能家居為主基點(diǎn),而后再逐漸加碼至其他場(chǎng)景。
實(shí)測(cè)數(shù)據(jù)表明,在同等條件下,SFA 可帶來(lái)超高的能效比,數(shù)據(jù)訪問(wèn)可降低 10~100 倍,存儲(chǔ)子系統(tǒng)功耗下降 10 倍;28nm 工藝測(cè)試下,系統(tǒng)能效超過(guò) 4T OPS/W,計(jì)算資源利用率超過(guò) 80%,DDR 帶寬占用率降低 5 倍?;?SFA 架構(gòu),探境科技開(kāi)辟語(yǔ)音和圖像兩條產(chǎn)品線。在探境科技的語(yǔ)音芯片產(chǎn)品矩陣中,除了支持 AI 雙麥的 Voitist 音旋風(fēng) 612 之外,還包括在離線一體的 Voitist 音旋風(fēng) 621、以及語(yǔ)音芯片的旗艦產(chǎn)品——可支持本地 NLP 的音旋風(fēng) 7 系列。
目前探境科技選擇做終端 AI 芯片,相對(duì)云端芯片投入成本較低,離手機(jī)、智能音箱這類產(chǎn)品的設(shè)計(jì)和生產(chǎn)較近。在擁擠的語(yǔ)音 AI 芯片賽道,基于自研的全棧式技術(shù)能力,先解決存儲(chǔ)再解決算力,探境走出一條不同尋常的路。談及未來(lái)的發(fā)展規(guī)劃,魯勇表示,探境科技定位于一家語(yǔ)音、圖像相結(jié)合的 AI 芯片公司,基于語(yǔ)音算法、圖像算法,既有面向家具、玩具、智能穿戴等場(chǎng)景的語(yǔ)音系列解決方案,也有面向安防、新零售、輔助駕駛等圖像解決方案。