當前位置：首頁 > 消費電子 > 觸控感測

語音識別系統(tǒng)中增加圖像識別技術的設計應用

時間：2020-08-05 08:39:02

關鍵字：圖像識別語音識別

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀] 　　語音識別是機器自動語音識別（automaTIc speech recogniTIon by machine）的簡稱。　　語音識別技術關系到多學科的研究領域，不同領域中的研究成果都對

　　語音識別是機器自動語音識別（automaTIc speech recogniTIon by machine）的簡稱。

　　語音識別技術關系到多學科的研究領域，不同領域中的研究成果都對語音識別的發(fā)展作出了貢獻。讓機器識別語音的困難在某種程度上就像一個外語不好的人聽外圍人講話一樣，它與說話人、說話速度、說話內容、環(huán)境條件有關。語音信號本身的特點造成了語音識別的困難。這些特點包括多變性、動態(tài)性、瞬時性和連續(xù)性等。

　　計算機語音識別的過程與人對語音識別處理過程基本上是一致的。目前主流的語音識別技術是基于統(tǒng)計模式識別的基本理論。一個完整的語音識別系統(tǒng)可大致分為三部分：

　　（1）語音特征提?。浩淠康氖菑恼Z音波形中提取出隨時間變化的語音特征序列。

　?。?）聲學模型與模式匹配（識別算法）：聲學模型通常將獲取的語音特征通過學習算法產生。在識別時將輸入的語音特征與聲學模型（模式）進行匹配、比較，得到最佳的識別結果。

　　（3）語言模型與語言處理：語言模型包括由識別語音命令構成的語法網絡或由統(tǒng)計方法構成的語言模型，語言處理可以進行語法、語義分析。對小詞表語音識別系統(tǒng)，通常不需要語言處理部分。

　　聲學模型是識別系統(tǒng)的底層模型，并且是語音識別系統(tǒng)中最關系的一部分。聲學模型的目的是提供一種有效的方法，計算語音的特征矢量序列和每個發(fā)音模板之間的距離。聲學模型的設計與語言發(fā)音特點密切相關。聲學模型單元大小（字發(fā)音模型、半音字模型或音素模型）對語音訓練數(shù)據量大小、系統(tǒng)識別率以及靈活性有較大的影響。必須根據不同的語言的特點、識別系統(tǒng)詞匯量的大小決定識別單元的大小。由于有了種種困難，語音識別技術通常根據使用中的限制性要求，構建成不同類型的系統(tǒng)，通常包括三類。其一為限制用戶的說話方式，這又可以分為孤立詞語音識別系統(tǒng)（isolate-word speech recogniTIon system）、連接詞語音識別系統(tǒng)（connected-words speech recogniTIon system）、連續(xù)語音識別系統(tǒng)（continue speech recopnition system）和即興口語語音識別系統(tǒng)（spontaneous speech recognition system）。其二為限制用戶的用詞范圍。第三種為限制系統(tǒng)的用戶對象。采用語速作為系統(tǒng)的第二信息渠道，一旦系統(tǒng)跟蹤到了目標的語還，在協(xié)助語音識別的同時還能夠有效地排除與語音信息不同步的外界噪聲，因此系統(tǒng)能夠獲得更好的識別性能。

圖像處理算法設計

　　語言模型對中、大詞匯量的語音識別系統(tǒng)特別重要。當分類發(fā)生錯誤時可以根據語言學模型、語法結構、語義學進行判斷糾正，特別是一些同音字則必須通過上下文結構才能確定詞義。語言學理論包括語義結構、語法規(guī)則、語言的數(shù)學描述模型等有關方面。目前比較成功的語言模型通常是采用統(tǒng)計語法的語言模型與基于規(guī)則語法結構命令的語言模型。語法結構可以限定不同詞之間的相互連接關系，減少了識別系統(tǒng)的搜索空間，這有利于提高系統(tǒng)的識別。

　　語音識別過程實際上是一種認識過程。就像人們聽語音時，并不把語音和語言的語法結構、語義結構分開。因為當語音發(fā)音模糊時人們可以用這些和知識來指導對語言的理解過程，但是對機器來說，識別系統(tǒng)也要利用這些知識，只是如何有效地描述這些語法和語義還有困難：

　　（1）小詞匯量語音識別系統(tǒng)：包括幾十個詞的語音識別系統(tǒng)。

　?。?）中等詞匯量的語音識別系統(tǒng)：通常包括幾百個詞至上千個詞的識別系統(tǒng)。

　?。?）大詞匯量語音識別系統(tǒng)：通常包括幾千至幾萬個詞的語音識別系統(tǒng)。

　　這些不同的限制也確定了語音識別系統(tǒng)的困難度。

本站聲明：本文章由作者或相關機構授權發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點，本站亦不保證或承諾內容真實性等。需要轉載請聯(lián)系該專欄作者，如若文章內容侵犯您的權益，請及時聯(lián)系本站刪除。

換一批

阿維塔、賽力斯已入股！華為引望可能成“中國博世”

9月2日消息，不造車的華為或將催生出更大的獨角獸公司，隨著阿維塔和賽力斯的入局，華為引望愈發(fā)顯得引人矚目。

關鍵字：阿維塔塞力斯華為

[美通社全球TMT]

Trianz與AWS達成戰(zhàn)略合作協(xié)議，徹底改變云采用和管理方式

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉型技術解決方案公司Trianz今天宣布，該公司與Amazon Web Services （AWS）簽訂了...

關鍵字： AWS AN BSP 數(shù)字化

[美通社全球TMT]

人工智能驅動工具SODA V將顛覆汽車市場，使汽車開發(fā)時間和成本降低90%

倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產品SODA V，這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具，可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關鍵字：汽車人工智能智能驅動 BSP

[美通社全球TMT]

從容應對未知風險----解密亞馬遜云科技的韌性之道

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行，同時企業(yè)卻面臨越來越多業(yè)務中斷的風險，如企業(yè)系統(tǒng)復雜性的增加，頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性，提升韌性，成...

關鍵字：亞馬遜解密控制平面 BSP

[通信先鋒]

中國游戲市場開始復蘇！騰訊、網易等巨頭縮減在日本投資

8月30日消息，據媒體報道，騰訊和網易近期正在縮減他們對日本游戲市場的投資。

關鍵字：騰訊編碼器 CPU

[通信先鋒]

獨立自主！華為董事：致力打造不依賴西方的技術

8月28日消息，今天上午，2024中國國際大數(shù)據產業(yè)博覽會開幕式在貴陽舉行，華為董事、質量流程IT總裁陶景文發(fā)表了演講。

關鍵字：華為 12nm EDA 半導體

[通信先鋒]

華為張平安：數(shù)字世界話語權最終由生態(tài)繁榮決定！

8月28日消息，在2024中國國際大數(shù)據產業(yè)博覽會上，華為常務董事、華為云CEO張平安發(fā)表演講稱，數(shù)字世界的話語權最終是由生態(tài)的繁榮決定的。

關鍵字：華為 12nm 手機衛(wèi)星通信

[美通社全球TMT]

中國通信服務公布2024年中期業(yè)績

要點：有效應對環(huán)境變化，經營業(yè)績穩(wěn)中有升落實提質增效舉措，毛利潤率延續(xù)升勢戰(zhàn)略布局成效顯著，戰(zhàn)新業(yè)務引領增長以科技創(chuàng)新為引領，提升企業(yè)核心競爭力堅持高質量發(fā)展策略，塑強核心競爭優(yōu)勢...

關鍵字：通信 BSP 電信運營商數(shù)字經濟

[美通社全球TMT]

NVI技術創(chuàng)新聯(lián)盟成立！自主生態(tài)將帶動產業(yè)鏈高速發(fā)展

北京2024年8月27日 /美通社/ -- 8月21日，由中央廣播電視總臺與中國電影電視技術學會聯(lián)合牽頭組建的NVI技術創(chuàng)新聯(lián)盟在BIRTV2024超高清全產業(yè)鏈發(fā)展研討會上宣布正式成立。活動現(xiàn)場 NVI技術創(chuàng)新聯(lián)...

關鍵字： VI 傳輸協(xié)議音頻 BSP

[美通社全球TMT]