音頻邊緣處理器如何實(shí)現(xiàn)物聯(lián)網(wǎng)設(shè)備中的語(yǔ)音集成
掃描二維碼
隨時(shí)隨地手機(jī)看文章
從家庭自動(dòng)化、電子商務(wù)到醫(yī)療保健和汽車(chē),越來(lái)越多的行業(yè)正在將物聯(lián)網(wǎng)功能與語(yǔ)音集成結(jié)合起來(lái),以滿(mǎn)足不斷變化的需求,并釋放業(yè)務(wù)優(yōu)勢(shì)。然而,語(yǔ)音仍處于采用的早期階段,并剛剛開(kāi)始向移動(dòng)設(shè)備和揚(yáng)聲器之外擴(kuò)展。語(yǔ)音將成為用戶(hù)和他們的物聯(lián)網(wǎng)設(shè)備之間交互的標(biāo)準(zhǔn)方法。這種向語(yǔ)音優(yōu)先的轉(zhuǎn)變不僅僅是基于它在技術(shù)上提高了消費(fèi)者的舒適度。用于動(dòng)態(tài)語(yǔ)音搜索的語(yǔ)音設(shè)備的全球移動(dòng)性、自然語(yǔ)言處理(NLP)的進(jìn)展以及人工智能和機(jī)器學(xué)習(xí)的進(jìn)步將使新的應(yīng)用程序能夠快速發(fā)展。
愉快和吸引人的聲音互動(dòng)受到一致的噪音和其他干擾物存在的音質(zhì)的限制。你的設(shè)備智能管理聲音的能力決定了你的溝通能力。預(yù)計(jì)永遠(yuǎn)開(kāi)機(jī)的語(yǔ)音用戶(hù)界面(VUI)將在更多的消費(fèi)產(chǎn)品中普及,包括音頻和視頻設(shè)備、白色產(chǎn)品,以及各種電池供電的設(shè)備,如遙控器、可穿戴設(shè)備、藍(lán)牙揚(yáng)聲器、安全設(shè)備和戶(hù)外活動(dòng)攝像頭。雖然有設(shè)計(jì)上的挑戰(zhàn)需要克服,但組件供應(yīng)商和OEMS都有很大的機(jī)會(huì)來(lái)交付滿(mǎn)足這些應(yīng)用程序需求的產(chǎn)品。
為了充分利用語(yǔ)音集成機(jī)會(huì)的成熟,更多的處理技術(shù)正在走向邊緣,遠(yuǎn)離云計(jì)算。結(jié)果是改進(jìn)了用戶(hù)界面,更低的延遲和成本,包括美元和帶寬。為未來(lái)設(shè)計(jì)支持物聯(lián)網(wǎng)的CE解決方案的制造商必須考慮將語(yǔ)音集成作為產(chǎn)品特性的先決條件。能夠在邊緣部署專(zhuān)用語(yǔ)音處理的oem將能夠擴(kuò)展這些應(yīng)用程序并擴(kuò)展他們的投資組合。
本文討論了在物聯(lián)網(wǎng)始終在上/始終收聽(tīng)的設(shè)備中實(shí)現(xiàn)vui時(shí)最常見(jiàn)的挑戰(zhàn)。本文回顧了相關(guān)的需求,以及有效解決這些需求所需的設(shè)計(jì)能力,包括與控制接口的集成、軟件堆棧、算法開(kāi)發(fā)和用戶(hù)空間應(yīng)用程序開(kāi)發(fā)。
將音頻邊緣處理器集成到物聯(lián)網(wǎng)設(shè)備中
專(zhuān)門(mén)關(guān)注音頻保真度和機(jī)器學(xué)習(xí)優(yōu)化核心的專(zhuān)用音頻邊緣處理器是支持高質(zhì)量音頻通信設(shè)備的關(guān)鍵。這些處理器可以提供足夠的計(jì)算能力來(lái)使用傳統(tǒng)算法和ML算法處理音頻,同時(shí)使用通用處理器的一小部分能量。由于處理是在設(shè)備上進(jìn)行的,所以它比將信息發(fā)送回云要快得多。
物聯(lián)網(wǎng)設(shè)備集成了音頻處理器,增加了語(yǔ)音喚醒等豐富的功能。雖然云計(jì)算可能會(huì)提供一些巨大的好處,但邊緣處理允許用戶(hù)在任何時(shí)候利用他們的設(shè)備的全部能力,而不需要高帶寬的互聯(lián)網(wǎng)連接。例如,邊緣音頻處理器通過(guò)對(duì)上下文數(shù)據(jù)進(jìn)行低延遲處理,在虛擬通信中提供優(yōu)越的用戶(hù)體驗(yàn),同時(shí)保持上下文數(shù)據(jù)的本地和安全。
在集成語(yǔ)音方面所面臨的挑戰(zhàn)
語(yǔ)音通話(huà)、控制和交互的應(yīng)用程序機(jī)會(huì)繼續(xù)增加。然而,隨著更多的設(shè)備,更多的碎片化被引入,這使得集成語(yǔ)音變得更加困難。你如何將語(yǔ)音控制集成到每個(gè)應(yīng)用程序中——無(wú)論是藍(lán)牙揚(yáng)聲器、家用電器、耳機(jī)、可穿戴設(shè)備還是電梯——將會(huì)有所不同。添加一個(gè)語(yǔ)音喚醒觸發(fā)器可能很簡(jiǎn)單,但設(shè)計(jì)一個(gè)企業(yè)級(jí)的藍(lán)牙揚(yáng)聲器和耳機(jī)要復(fù)雜得多。如果該揚(yáng)聲器包含了真正的無(wú)線立體聲(TWS)集成,那么復(fù)雜性就會(huì)再次上升。
此外,各種應(yīng)用程序都需要與不同的生態(tài)系統(tǒng)進(jìn)行語(yǔ)音集成。例如,你需要在Linux生態(tài)系統(tǒng)中工作,才能在大多數(shù)智能電視上實(shí)現(xiàn)語(yǔ)音,但要在家用電器上獲得語(yǔ)音,就需要在微控制器(MCU)生態(tài)系統(tǒng)中工作。對(duì)于所有這些集成,都有一種常見(jiàn)的推薦方法,但總是有變化,這增加了復(fù)雜性。
高質(zhì)量、大眾市場(chǎng)的開(kāi)發(fā)解決方案對(duì)于克服這些挑戰(zhàn)并快速將新技術(shù)推向市場(chǎng),以支持我們工作、生活和溝通的快速發(fā)展方式至關(guān)重要。為了應(yīng)對(duì)這些挑戰(zhàn),合適的解決方案需要解決多種設(shè)計(jì)需求。
滿(mǎn)足關(guān)鍵的設(shè)計(jì)要求
電力消耗
為了讓VUI設(shè)備接收命令,它必須始終打開(kāi)/始終偵聽(tīng)命令。無(wú)論這些設(shè)備是否插電,特別是由電池驅(qū)動(dòng)的,對(duì)功耗的限制可能是一個(gè)主要的設(shè)計(jì)挑戰(zhàn)。為了讓VUI設(shè)備接收命令,它必須始終打開(kāi)/始終偵聽(tīng)命令。無(wú)論這些設(shè)備是否插電,特別是由電池驅(qū)動(dòng)的,對(duì)功耗的限制可能是一個(gè)主要的設(shè)計(jì)挑戰(zhàn)。
在語(yǔ)音命令系統(tǒng)中,至少有一個(gè)麥克風(fēng)必須始終是活動(dòng)的,并且負(fù)責(zé)識(shí)別喚醒字的處理器也必須是活動(dòng)的。使用專(zhuān)有架構(gòu)、硬件加速器和特殊指令集設(shè)計(jì)的音頻邊緣處理器可以最優(yōu)地運(yùn)行音頻和ML算法。這些優(yōu)化有助于降低功耗。
潛在因素
對(duì)語(yǔ)音激活設(shè)備的延遲沒(méi)有容忍度。即使有超過(guò)200毫秒的感知延遲,人類(lèi)也會(huì)開(kāi)始在語(yǔ)音通話(huà)中互相交談,或者向語(yǔ)音助手重復(fù)他們的命令。為了開(kāi)發(fā)語(yǔ)音集成設(shè)備,將獲得必要的消費(fèi)者認(rèn)可,工程師和產(chǎn)品設(shè)計(jì)師必須在整個(gè)系統(tǒng)中提供優(yōu)化的音頻鏈,以符合行業(yè)規(guī)范和最佳的用戶(hù)體驗(yàn)。因此,邊緣處理器中的低延遲處理是確保高質(zhì)量語(yǔ)音通信的關(guān)鍵要求。
整合
因?yàn)樵跒椴煌腣UI實(shí)現(xiàn)選擇硬件和軟件時(shí),有很多選擇,所以在集成階段的各個(gè)階段,有些需求可能會(huì)成為一個(gè)挑戰(zhàn)。在此過(guò)程中需要考慮的一些關(guān)鍵設(shè)計(jì)考慮包括下面討論的那些。
硬件集成
根據(jù)設(shè)備的使用情況、應(yīng)用程序和生態(tài)系統(tǒng),有各種硬件架構(gòu)用于實(shí)現(xiàn)VUI系統(tǒng)。每個(gè)VUI設(shè)備將包括麥克風(fēng),單個(gè)麥克風(fēng)或麥克風(fēng)陣列,連接到一個(gè)音頻處理器,用于捕獲和處理音頻。在Khowles最近的一篇嵌入式文章中,我的同事回顧了實(shí)現(xiàn)VUI系統(tǒng)的硬件架構(gòu)考慮事項(xiàng),以及每個(gè)系統(tǒng)的優(yōu)缺點(diǎn)。
主機(jī)軟件集成
如上所述,有不同的操作系統(tǒng)和驅(qū)動(dòng)程序可供選擇。理想情況下,音頻處理器將配備固件和一組配置為與主機(jī)處理器連接的驅(qū)動(dòng)程序。該操作系統(tǒng),如Android或Linux,通常運(yùn)行在主機(jī)處理器上。
在內(nèi)核空間中運(yùn)行的驅(qū)動(dòng)程序軟件組件通過(guò)控制接口與固件進(jìn)行交互,而來(lái)自音頻邊緣處理器的音頻數(shù)據(jù)可以通過(guò)標(biāo)準(zhǔn)的高級(jí)Linux音頻架構(gòu)(ALSA)接口在用戶(hù)空間中讀取。
要將軟件與主機(jī)系統(tǒng)的其他部分集成,將軟件發(fā)布包中提供的音頻處理器驅(qū)動(dòng)程序連接到內(nèi)核映像中可能成為一項(xiàng)復(fù)雜的工作。這包括將驅(qū)動(dòng)程序源代碼復(fù)制到內(nèi)核源樹(shù)中,更新一些內(nèi)核配置文件,并根據(jù)相關(guān)的硬件配置添加設(shè)備樹(shù)條目。
解決這個(gè)問(wèn)題的一種方法是使用具有精確或類(lèi)似配置的預(yù)集成的標(biāo)準(zhǔn)參考設(shè)計(jì)。
在理想的情況下,音頻邊緣處理器將為集成提供簡(jiǎn)化的軟件堆棧,并提供預(yù)集成和驗(yàn)證的算法作為系統(tǒng)級(jí)解決方案,以進(jìn)一步簡(jiǎn)化過(guò)程。
算法集成
當(dāng)我們講在算法集成的主題上時(shí)。通常有多個(gè)算法級(jí)聯(lián),在任何給定的時(shí)間在不同的用例之間切換。即使是對(duì)于語(yǔ)音喚醒,一個(gè)設(shè)計(jì)也需要多麥克風(fēng)波束形成器、一個(gè)邊緣語(yǔ)音喚醒引擎和基于云的驗(yàn)證。這意味著至少有三種算法一起工作來(lái)優(yōu)化性能。對(duì)于任何集成了Alexa或谷歌Home關(guān)鍵字的設(shè)備,必須有多種算法,通常來(lái)自不同的供應(yīng)商,必須在一個(gè)設(shè)備中一起進(jìn)行優(yōu)化。
一種解決方案是選擇一個(gè)音頻邊緣處理器,它預(yù)先集成了經(jīng)過(guò)驗(yàn)證的算法,開(kāi)發(fā)和測(cè)試獨(dú)立于主機(jī)系統(tǒng)。
形式因素集成
今天的設(shè)備可以采取很多形式的因素。每個(gè)設(shè)備都有自己的多個(gè)麥克風(fēng)安裝的配置。麥克風(fēng)和揚(yáng)聲器的距離和位置在表演中起著重要的作用。性能調(diào)整和優(yōu)化必須根據(jù)最終的形式因素和目標(biāo)用例進(jìn)行更改。還有一些影響性能的制造變化,如麥克風(fēng)密封,設(shè)備上的聲學(xué)處理,振動(dòng)抑制等。
隱私
許多音頻處理器檢測(cè)到喚醒字,然后立即將信息發(fā)送到云,在那里它被解釋和采取行動(dòng)。一個(gè)大問(wèn)題是,一旦音頻數(shù)據(jù)出現(xiàn)在云中,用戶(hù)就無(wú)法控制這些數(shù)據(jù),因此就會(huì)暴露在很高的隱私風(fēng)險(xiǎn)中。解決這一挑戰(zhàn)的方案是選擇一個(gè)邊緣AI智能處理器,可以在設(shè)備上“在邊緣”執(zhí)行命令解釋和響應(yīng)邏輯。
這使得敏感的個(gè)人音頻數(shù)據(jù)保持本地,而不會(huì)被發(fā)送到云,在那里它可以違背我們的意愿使用。VUI的實(shí)現(xiàn)現(xiàn)在不僅更加私有,而且可以更快地響應(yīng),使用戶(hù)的交互更加自然。這是一個(gè)很好的例子,說(shuō)明了邊緣人工智能處理器如何推進(jìn)現(xiàn)有的用例,以最大限度地提高我們每天使用和信任的設(shè)備的幫助性。
硬件和軟件接口
VUI實(shí)現(xiàn)的設(shè)計(jì)要求可能很復(fù)雜,并使將具有語(yǔ)音集成的設(shè)備快速推向市場(chǎng)具有挑戰(zhàn)性。oem和系統(tǒng)集成商可以通過(guò)使用標(biāo)準(zhǔn)解決方案開(kāi)發(fā)工具包,如諾爾斯AISonic藍(lán)牙標(biāo)準(zhǔn)解決方案工具包,從而大大降低風(fēng)險(xiǎn)。這些工具包為原型提供了預(yù)先配置的起點(diǎn),允許設(shè)計(jì)師在上面開(kāi)發(fā)他們自己的創(chuàng)新,而不必?fù)?dān)心我們上面討論的設(shè)計(jì)挑戰(zhàn)。設(shè)計(jì)人員應(yīng)該尋找具有預(yù)集成和驗(yàn)證過(guò)的算法的開(kāi)發(fā)工具包、預(yù)配置的麥克風(fēng)和與主機(jī)處理器和操作系統(tǒng)兼容的驅(qū)動(dòng)程序。
打開(kāi)其架構(gòu)和開(kāi)發(fā)環(huán)境的音頻邊緣處理器,通過(guò)為音頻應(yīng)用程序開(kāi)發(fā)人員提供創(chuàng)建新設(shè)備和應(yīng)用程序的工具和支持,從而加速了創(chuàng)新。未來(lái)的音頻設(shè)備將是一種合作的努力。