掌握聲音前處理核心技術(shù),讓語音交互更智能
(文章來源:數(shù)碼猴子)
隨著AloT物聯(lián)網(wǎng)產(chǎn)業(yè)的縱深發(fā)展,智能語音交互技術(shù)也成為應(yīng)用最普遍的交互技術(shù)。除了最常用的智能手機外,智能音箱、智能家居、智能機器人等眾多智能終端設(shè)備的語音應(yīng)用不斷涌現(xiàn),使得智能語音技術(shù)成為智能設(shè)備交互的主要手段。
語音識別作為人工智能發(fā)展最早、且率先商業(yè)化的技術(shù),近幾年來隨著機器深度學(xué)習(xí)技術(shù)的突破,識別準(zhǔn)確率大幅提升、人機交互的距離也在提升。但是,技術(shù)的推進是無止境的,行業(yè)專家表示:想要讓語音識別更加準(zhǔn)確,需要解決兩方面的問題:一方面,在語音增強、麥克風(fēng)陣列以及說話人分離等多項技術(shù)領(lǐng)域持續(xù)投入,并結(jié)合后端語義,促進對上下文的理解,從而提升識別效果;另一方面,需要從產(chǎn)品設(shè)計上進行優(yōu)化,比如通過進一步交互,使語音識別變得更為準(zhǔn)確。對芯片設(shè)計原廠來講,應(yīng)該研發(fā)出更高端的主控芯片,在聲音前處理方面有更加優(yōu)秀的表現(xiàn),讓拾音的距離和效率都能大幅提升。
炬芯科技作為全國領(lǐng)先的聲音前處理技術(shù)芯片原廠,掌握聲音前處理核心技術(shù)。聽到和聽懂的第一步在于準(zhǔn)確的獲取用戶的聲音(即拾音),否則無論云端的虛擬助手多么智能,也是盲人摸象。小編最近走訪炬芯科技得知,拾音其實分為遠(yuǎn)場拾音(3 到 5 米)和近場拾音(1 米內(nèi))。
比如,以Siri為代表的智能手機就是近場拾音,采用的是單麥克風(fēng),可在近距離、低噪聲的情況下拾取符合語音識別需求的聲音。但是一旦將智能手機放在有噪聲的較遠(yuǎn)的距離,Siri的識別率就會直線下降,單麥克風(fēng)的局限就凸顯了出來。不僅如此,由于噪聲、混響等因素的存在,遠(yuǎn)場拾音還要與遠(yuǎn)講語音識別算法相匹配,才能真正做到“聽清和聽懂”。
聲音的前處理技術(shù),是聲音沒有進入傳輸、沒有存儲之前的處理。聲音前處理目的,就是讓聲音的存儲、傳輸效率更高,識別率更好。聲音的“聽到”主要依托的是麥克風(fēng)。主要形式為單個麥克風(fēng)或麥克風(fēng)陣列(多個麥克風(fēng)按照一定規(guī)則排列,在特定空間對聲音進行獲取和處理)。而基于麥克風(fēng)的語音信號處理算法則是讓聲音“聽懂”的關(guān)鍵。麥克風(fēng)陣列是語音交互的第一步,簡單來講,麥克風(fēng)陣列是由2個及以上麥克風(fēng)按一定規(guī)則排列組成,在特定空間對聲音進行獲取和處理的錄音系統(tǒng),在智能音箱落地中有關(guān)鍵作用。麥克風(fēng)+算法,在不同的環(huán)境下排列組合,最終達到“聽到”和“聽懂”。
? ? ? ?