語(yǔ)音技術(shù)將成為智能家居復(fù)雜性和碎片化的關(guān)鍵接口
掃描二維碼
隨時(shí)隨地手機(jī)看文章
(文章來(lái)源:百知了)
語(yǔ)音可以提供簡(jiǎn)單、引人注目的用戶體驗(yàn),但是將語(yǔ)音控件添加到任何產(chǎn)品、服務(wù)或應(yīng)用程序的路徑都是復(fù)雜的。隨著占主導(dǎo)地位的科技公司繼續(xù)開(kāi)發(fā)支持語(yǔ)音的界面和助手,產(chǎn)品設(shè)計(jì)師、開(kāi)發(fā)人員和制造商將被迫重新考慮用戶體驗(yàn)和用戶界面。
隨著智能音箱應(yīng)用的驚人擴(kuò)展,以及消費(fèi)者將智能家居設(shè)備作為點(diǎn)解決方案而非系統(tǒng)購(gòu)買的趨勢(shì),未來(lái)許多家庭將擁有一個(gè)以語(yǔ)音控制為主要用戶界面的分布式智能平臺(tái)。在2019年初,36%的美國(guó)寬帶家庭擁有至少一個(gè)帶有語(yǔ)音助手的智能揚(yáng)聲器。
語(yǔ)音助手技術(shù)依賴于兩個(gè)主要組件:硬件,一種通信和捕獲命令的方式;還有軟件,一種思考和處理反應(yīng)的方式。雖然硬件和軟件決策很重要,但是考慮其他因素——比如本地處理和云處理,以及功耗——也會(huì)對(duì)語(yǔ)音優(yōu)先應(yīng)用程序或設(shè)備的成功產(chǎn)生重大影響。語(yǔ)音設(shè)計(jì)要求制造商評(píng)估他們的最終產(chǎn)品,并就使用環(huán)境、設(shè)備將被使用的環(huán)境和消費(fèi)者交互模型做出決策。這些決策影響硬件選擇。
在輸入階段,當(dāng)用戶對(duì)設(shè)備說(shuō)話時(shí),麥克風(fēng)將捕捉短語(yǔ)并將其發(fā)送到ADC, ADC將語(yǔ)音輸入轉(zhuǎn)換為數(shù)字音頻數(shù)據(jù)。麥克風(fēng)可以是模擬的,也可以是數(shù)字的。模擬麥克風(fēng)必須與模擬-數(shù)字轉(zhuǎn)換器配對(duì),而數(shù)字麥克風(fēng)有一個(gè)內(nèi)置。麥克風(fēng)陣列的設(shè)計(jì)取決于設(shè)備的環(huán)境。對(duì)于那些需要用戶近距離說(shuō)話的設(shè)備,一到兩個(gè)麥克風(fēng)是理想的。遠(yuǎn)場(chǎng)通信可能需要4到7個(gè)麥克風(fēng)陣列。
輸入階段之后是處理階段。數(shù)字信號(hào)處理器將數(shù)據(jù)輸入網(wǎng)絡(luò)模塊和自然語(yǔ)言處理引擎。在此階段,將對(duì)捕獲的語(yǔ)音數(shù)據(jù)引入算法。波束形成、動(dòng)態(tài)范圍壓縮和自適應(yīng)頻譜降噪等算法有助于提高所捕獲語(yǔ)音數(shù)據(jù)的質(zhì)量。處理完成后,將數(shù)據(jù)發(fā)送到數(shù)模轉(zhuǎn)換器和放大器,輸出給用戶。
為語(yǔ)音優(yōu)先技術(shù)創(chuàng)建軟件基礎(chǔ)設(shè)施的構(gòu)件包括自然語(yǔ)言處理,其中包括自動(dòng)語(yǔ)音識(shí)別(ASR)和自然語(yǔ)言理解(NLU);喚醒詞算法,啟動(dòng)語(yǔ)音響應(yīng)過(guò)程;以及一個(gè)處理數(shù)據(jù)的云平臺(tái)。wake word作為用戶和語(yǔ)音助手之間的網(wǎng)關(guān)。wake word引擎是一種算法,它通過(guò)監(jiān)測(cè)音頻信號(hào)來(lái)檢測(cè)感興趣的特定單詞,從而激活設(shè)備的語(yǔ)音界面。
一旦預(yù)先確定的觸發(fā)詞或短語(yǔ)被檢測(cè)到,語(yǔ)音查詢就被發(fā)送到云上進(jìn)行處理。通常,該技術(shù)在本地設(shè)備上運(yùn)行,以提高語(yǔ)音查詢響應(yīng)的延遲,并保護(hù)隱私。自然語(yǔ)言處理(NLP)是人工智能的一種形式,通過(guò)文本、語(yǔ)音或兩者的自然對(duì)話實(shí)現(xiàn)人機(jī)交互。聊天機(jī)器人通常指基于文本的對(duì)話系統(tǒng),而語(yǔ)音機(jī)器人則指Alexa或谷歌Assistant等語(yǔ)音優(yōu)先助手。
在一個(gè)簡(jiǎn)化的NLP體系結(jié)構(gòu)中,自動(dòng)語(yǔ)音識(shí)別(ASR)識(shí)別說(shuō)話的單詞并將它們轉(zhuǎn)換為文本(語(yǔ)音到文本)。尋求為語(yǔ)音優(yōu)先技術(shù)設(shè)計(jì)的公司必須決定他們的語(yǔ)音助手將如何處理語(yǔ)音查詢——無(wú)論是在云端還是在本地設(shè)備上。考慮響應(yīng)速度、Internet連接和安全性都是決策的考慮因素。語(yǔ)音芯片制造商DSP Group發(fā)現(xiàn),在相當(dāng)?shù)投说奶幚砥骰駾SP芯片上實(shí)現(xiàn)一定數(shù)量的簡(jiǎn)單命令是可行的。它發(fā)現(xiàn),本地簡(jiǎn)單命令數(shù)量的最佳點(diǎn)是5到10個(gè)命令。
這些命令包括諸如打開(kāi)和關(guān)閉設(shè)備、降低和增加音量等任務(wù)。一旦命令數(shù)量超過(guò)10到15個(gè),對(duì)內(nèi)存和處理能力的需求就會(huì)增加,故障檢測(cè)率提高的風(fēng)險(xiǎn)也會(huì)大大增加。這表明向云處理的轉(zhuǎn)變。更復(fù)雜的命令被發(fā)送到云,因?yàn)樾枰嗟墓δ芎挽`活性,而有限的命令子集可以在本地解釋。一直在線監(jiān)聽(tīng)設(shè)備的隱私問(wèn)題是采用語(yǔ)音優(yōu)先設(shè)備的一個(gè)關(guān)鍵障礙。此外,消費(fèi)者對(duì)設(shè)備制造商在訪問(wèn)和管理他們的個(gè)人數(shù)據(jù)方面缺乏信任。
制造商必須考慮運(yùn)行自然語(yǔ)言處理算法的處理器的功耗。缺乏專用電源的設(shè)備可以從低能耗解決方案中獲益。與支持語(yǔ)音的設(shè)備相關(guān)聯(lián)的始終在線監(jiān)聽(tīng)功能的電源感知設(shè)計(jì)是電源優(yōu)化的關(guān)鍵。目前的智能音箱都采用了交流電源,這是由于一直監(jiān)聽(tīng)技術(shù)的能源消耗。公司選擇電池供電而不是交流電的原因有很多,比如設(shè)備的物理位置,以及設(shè)備在房間里擺放的自由。
美觀也可能是移除設(shè)備電源線的一個(gè)因素,特別是對(duì)于那些在實(shí)現(xiàn)語(yǔ)音識(shí)別技術(shù)之前一直使用電池供電的設(shè)備。語(yǔ)音電視遙控器是由電池供電的設(shè)備,要求消費(fèi)者每三到四個(gè)月更換一次電池。康卡斯特(Comcast)等一些公司選擇了“一鍵通”(push-to-talk)功能,而不是免提語(yǔ)音遙控器,以延長(zhǎng)電池壽命。電能消耗可以通過(guò)多種方式來(lái)實(shí)現(xiàn)。減少功耗可以通過(guò)使用獨(dú)特的尾流字技術(shù)、集成語(yǔ)音命令的數(shù)量和在設(shè)備上啟動(dòng)的算法來(lái)實(shí)現(xiàn)。
隨著消費(fèi)電子行業(yè)繼續(xù)探索在小型設(shè)備和形式因素的語(yǔ)音接口,對(duì)超高效和低功耗解決方案的需求將會(huì)增加。隨著智能家居設(shè)備擁有量的增加,用戶往往擁有多個(gè)設(shè)備,語(yǔ)音作為家庭的集中用戶界面將變得越來(lái)越重要。互操作性是一個(gè)驅(qū)動(dòng)因素。語(yǔ)音將成為緩解智能家居復(fù)雜性和碎片化的關(guān)鍵接口。