當前位置：首頁 > 消費電子 > 音視頻及家電

語音技術必將成為未來主要的人機互動接口之一

時間：2020-05-26 07:09:01

關鍵字：語音技術接口聲學神經(jīng)網(wǎng)絡

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀] 語音識別自半個世紀前誕生以來，一直處于不溫不火的狀態(tài)，直到 2009 年深度學習技術的長足發(fā)展才使得語音識別的精度大大提高，雖然還無法進行無限制領域、無限制人群的應用，但也在大多數(shù)場景中提供了一

語音識別自半個世紀前誕生以來，一直處于不溫不火的狀態(tài)，直到 2009 年深度學習技術的長足發(fā)展才使得語音識別的精度大大提高，雖然還無法進行無限制領域、無限制人群的應用，但也在大多數(shù)場景中提供了一種便利高效的溝通方式。本篇文章將從技術和產業(yè)兩個角度來回顧一下語音識別發(fā)展的歷程和現(xiàn)狀，并分析一些未來趨勢，希望能幫助更多年輕技術人員了解語音行業(yè)，并能產生興趣投身于這個行業(yè)。

語音識別，通常稱為自動語音識別，英文是Automatic Speech RecogniTIon，縮寫為 ASR，主要是將人類語音中的詞匯內容轉換為計算機可讀的輸入，一般都是可以理解的文本內容，也有可能是二進制編碼或者字符序列。但是，我們一般理解的語音識別其實都是狹義的語音轉文字的過程，簡稱語音轉文本識別（ Speech To Text, STT ）更合適，這樣就能與語音合成(Text To Speech, TTS )對應起來。

深度學習技術自 2009 年興起之后，已經(jīng)取得了長足進步。語音識別的精度和速度取決于實際應用環(huán)境，但在安靜環(huán)境、標準口音、常見詞匯場景下的語音識別率已經(jīng)超過 95%，意味著具備了與人類相仿的語言識別能力，而這也是語音識別技術當前發(fā)展比較火熱的原因。

語音識別的端到端方法主要是代價函數(shù)發(fā)生了變化，但神經(jīng)網(wǎng)絡的模型結構并沒有太大變化?？傮w來說，端到端技術解決了輸入序列的長度遠大于輸出序列長度的問題。端到端技術主要分成兩類：一類是 CTC 方法，另一類是 Sequence-to-Sequence 方法。傳統(tǒng)語音識別 DNN-HMM 架構里的聲學模型，每一幀輸入都對應一個標簽類別，標簽需要反復的迭代來確保對齊更準確。

目前，主流語音識別框架還是由 3 個部分組成：聲學模型、語言模型和解碼器，有些框架也包括前端處理和后處理。隨著各種深度神經(jīng)網(wǎng)絡以及端到端技術的興起，聲學模型是近幾年非常熱門的方向，業(yè)界都紛紛發(fā)布自己新的聲學模型結構，刷新各個數(shù)據(jù)庫的識別記錄。由于中文語音識別的復雜性，國內在聲學模型的研究進展相對更快一些，主流方向是更深更復雜的神經(jīng)網(wǎng)絡技術融合端到端技術。

開源語音識別 Kaldi 是業(yè)界語音識別框架的基石。Kaldi 的作者 Daniel Povey 一直推崇的是 Chain 模型。該模型是一種類似于 CTC 的技術，建模單元相比于傳統(tǒng)的狀態(tài)要更粗顆粒一些，只有兩個狀態(tài)，一個狀態(tài)是 CD Phone，另一個是 CD Phone 的空白，訓練方法采用的是 Lattice-Free MMI 訓練。該模型結構可以采用低幀率的方式進行解碼，解碼幀率為傳統(tǒng)神經(jīng)網(wǎng)絡聲學模型的三分之一，而準確率相比于傳統(tǒng)模型有非常顯著的提升。

語音識別這半個多世紀的產業(yè)歷程中，其中共有三個關鍵節(jié)點，兩個和技術有關，一個和應用有關。第一個關鍵節(jié)點是 1988 年的一篇博士論文，開發(fā)了第一個基于隱馬爾科夫模型（HMM）的語音識別系統(tǒng)—— Sphinx，當時實現(xiàn)這一系統(tǒng)的正是現(xiàn)在的著名投資人李開復。

從 1986 年到 2010 年，雖然混合高斯模型效果得到持續(xù)改善，而被應用到語音識別中，并且確實提升了語音識別的效果，但實際上語音識別已經(jīng)遭遇了技術天花板，識別的準確率很難超過 90%。很多人可能還記得，在 1998 年前后 IBM、微軟都曾經(jīng)推出和語音識別相關的軟件，但最終并未取得成功。

所有語音交互產品都是端到端打通的產品，如果每家廠商都從這些基礎技術來打造產品，那就每家都要建立自己云服務穩(wěn)定，確保響應速度，適配自己所選擇的硬件平臺，逐項整合具體的內容（比如音樂、有聲讀物）。這從產品方或者解決方案商的視角來看是不可接受的。這時候就會催生相應的平臺服務商，它要同時解決技術、內容接入和工程細節(jié)等問題，最終達成試錯成本低、體驗卻足夠好的目標。

類比過去的 Android，語音交互的平臺提供商們其實面臨更大的挑戰(zhàn)，發(fā)展過程可能會更加的曲折。過去經(jīng)常被提到的操作系統(tǒng)的概念在智能語音交互背景下事實上正被賦予新的內涵，它日益被分成兩個不同但必須緊密結合的部分。

這兩邊在操作上，屬性具有巨大差異。解決前者需要參與到傳統(tǒng)的產品生產制造鏈條中去，而解決后者則更像應用商店的開發(fā)者。這里面蘊含著巨大的挑戰(zhàn)和機遇。在過去功能型操作系統(tǒng)的打造過程中，國內的程序員們更多的是使用者的角色，但智能型操作系統(tǒng)雖然也可以參照其他，但這次必須自己來從頭打造完整的系統(tǒng)。（國外巨頭不管在中文相關的技術上還是內容整合上事實上都非常薄弱，不存在侵略國內市場的可能性）

人與數(shù)字世界的接口，在現(xiàn)在越來越統(tǒng)一于具體的產品形態(tài)（比如手機），但隨著智能型系統(tǒng)的出現(xiàn)，這種統(tǒng)一則會越來越統(tǒng)一于系統(tǒng)本身。作為結果這會帶來數(shù)據(jù)化程度的持續(xù)加深，我們越來越接近一個百分百數(shù)據(jù)化的世界。

本站聲明：本文章由作者或相關機構授權發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點，本站亦不保證或承諾內容真實性等。需要轉載請聯(lián)系該專欄作者，如若文章內容侵犯您的權益，請及時聯(lián)系本站刪除。

換一批

阿維塔、賽力斯已入股！華為引望可能成“中國博世”

9月2日消息，不造車的華為或將催生出更大的獨角獸公司，隨著阿維塔和賽力斯的入局，華為引望愈發(fā)顯得引人矚目。

關鍵字：阿維塔塞力斯華為

[美通社全球TMT]

Trianz與AWS達成戰(zhàn)略合作協(xié)議，徹底改變云采用和管理方式

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉型技術解決方案公司Trianz今天宣布，該公司與Amazon Web Services （AWS）簽訂了...

關鍵字： AWS AN BSP 數(shù)字化

[美通社全球TMT]

人工智能驅動工具SODA V將顛覆汽車市場，使汽車開發(fā)時間和成本降低90%

倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產品SODA V，這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具，可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關鍵字：汽車人工智能智能驅動 BSP

[美通社全球TMT]

從容應對未知風險----解密亞馬遜云科技的韌性之道

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行，同時企業(yè)卻面臨越來越多業(yè)務中斷的風險，如企業(yè)系統(tǒng)復雜性的增加，頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性，提升韌性，成...

關鍵字：亞馬遜解密控制平面 BSP

[通信先鋒]

中國游戲市場開始復蘇！騰訊、網(wǎng)易等巨頭縮減在日本投資

8月30日消息，據(jù)媒體報道，騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關鍵字：騰訊編碼器 CPU

[通信先鋒]

獨立自主！華為董事：致力打造不依賴西方的技術

8月28日消息，今天上午，2024中國國際大數(shù)據(jù)產業(yè)博覽會開幕式在貴陽舉行，華為董事、質量流程IT總裁陶景文發(fā)表了演講。

關鍵字：華為 12nm EDA 半導體

[通信先鋒]

華為張平安：數(shù)字世界話語權最終由生態(tài)繁榮決定！

8月28日消息，在2024中國國際大數(shù)據(jù)產業(yè)博覽會上，華為常務董事、華為云CEO張平安發(fā)表演講稱，數(shù)字世界的話語權最終是由生態(tài)的繁榮決定的。

關鍵字：華為 12nm 手機衛(wèi)星通信

[美通社全球TMT]

中國通信服務公布2024年中期業(yè)績

要點：有效應對環(huán)境變化，經(jīng)營業(yè)績穩(wěn)中有升落實提質增效舉措，毛利潤率延續(xù)升勢戰(zhàn)略布局成效顯著，戰(zhàn)新業(yè)務引領增長以科技創(chuàng)新為引領，提升企業(yè)核心競爭力堅持高質量發(fā)展策略，塑強核心競爭優(yōu)勢...

關鍵字：通信 BSP 電信運營商數(shù)字經(jīng)濟

[美通社全球TMT]

NVI技術創(chuàng)新聯(lián)盟成立！自主生態(tài)將帶動產業(yè)鏈高速發(fā)展

北京2024年8月27日 /美通社/ -- 8月21日，由中央廣播電視總臺與中國電影電視技術學會聯(lián)合牽頭組建的NVI技術創(chuàng)新聯(lián)盟在BIRTV2024超高清全產業(yè)鏈發(fā)展研討會上宣布正式成立。活動現(xiàn)場 NVI技術創(chuàng)新聯(lián)...

關鍵字： VI 傳輸協(xié)議音頻 BSP

[美通社全球TMT]