亚洲91少妇精品五月丁香,竹菊在线免费观看,亚洲性爱,开放90后

語音作為一種典型的非平穩(wěn)隨機信號，人類交流信息最方便、最快捷的一種方式，在高度發(fā)達的信息社會中，音頻信號處理技術(shù)有非常廣泛的應(yīng)用。而在自動控制領(lǐng)域，其在雷達、系統(tǒng)控制、通信、航空航天等眾多方面都獲得了極其廣泛的應(yīng)用。

隨著計算機和語音處理技術(shù)以及移動互聯(lián)網(wǎng)的發(fā)展，語音識別在智能手機、平板等便攜設(shè)備中得到了廣泛應(yīng)用，用戶可以通過語音識別應(yīng)用控制便攜設(shè)備的各項功能，大大的提高了效率，完全“說”出了未來。

語音識別技術(shù)，也被稱為自動語音識別(英語：Automatic Speech Recognition, ASR)，其目標是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入，例如按鍵、二進制編碼或者字符序列。與說話人識別及說話人確認不同，后者嘗試識別或確認發(fā)出語音的說話人而非其中所包含的詞匯內(nèi)容。

語音識別技術(shù) 的應(yīng)用包括語音撥號、語音導(dǎo)航、室內(nèi)設(shè)備控制、語音文檔檢索、簡單的聽寫數(shù)據(jù)錄入等。語音識別技術(shù)與其他自然語言處理技術(shù)如機器翻譯及語音合成技術(shù)相結(jié)合，可以構(gòu)建出更加復(fù)雜的應(yīng)用，例如語音到語音的翻譯。

語音識別技術(shù) 所涉及的領(lǐng)域包括：信號處理、模式識別、概率論和信息論、發(fā)聲機理和聽覺機理、人工智能等等。

按識別器的類型：孤立單詞識別和連續(xù)語音識別（詳細)

按識別器對使用者的適應(yīng)情況：特定人語音識別和非特定人語音識別（詳細)

按語音詞匯表的大�。河邢拊~匯識別和無限詞匯識別（詳細)

語音識別系統(tǒng) 是建立在一定的硬件平臺和操作系統(tǒng)之上的一套應(yīng)用軟件系統(tǒng)。語音識別一般分兩個步驟。第一部是系統(tǒng)“學(xué)習(xí)”或“訓(xùn)練”階段。第二步是“識別”或“測試”階段。語音識別技術(shù)加上各種外圍技術(shù)的組合，才能構(gòu)成一個完整的實際應(yīng)用的語音識別系統(tǒng)。

訓(xùn)練(Training)：預(yù)先分析出語音特征參數(shù)，制作語音模板(Template)并存放在語音參數(shù)庫中。

識別(Recognition)：待識語音經(jīng)過與訓(xùn)練時相同的分析，得到語音參數(shù)，將它與庫中的參考模板一一比較，并采用判決的方法找出最接近語音特征的模板，得出識別結(jié)果。

失真測度(Distortion Measures)：在進行比較時要有個標準，這就是計量語音特征參數(shù)矢量之間的“失真測度”。

主要識別框架：基于模式匹配的動態(tài)時間規(guī)整法(DTW:Dynamic Time Warping)和基于統(tǒng)計模型的隱馬爾柯夫模型法(HMM:Hidden Markov Model)。（詳細）

簡單地說，語音識別主要包括3個步驟：
1、對輸入的語音進行特征提取
2、將提取的語音信號與計算機內(nèi)的語音模型進行匹配
3、將匹配結(jié)果進行輸出或轉(zhuǎn)化為特定的指令

模板匹配的方法發(fā)展比較成熟，目前已達到了實用階段。在模板匹配方法中，要經(jīng)過四個步驟：特征提取、模板訓(xùn)練、模板分類、判決。常用的技術(shù)有三種：動態(tài)時間規(guī)整(DTW)、隱馬爾可夫(HMM)理論、矢量量化(VQ)技術(shù)。

1、動態(tài)時間規(guī)整(DTW)

語音信號的端點檢測是進行語音識別中的一個基本步驟，它是特征訓(xùn)練和識別的基礎(chǔ)。所謂端點檢測就是在語音信號中的各種段落(如音素、音節(jié)、詞素)的始點和終點的位置，從語音信號中排除無聲段。在早期，進行端點檢測的主要依據(jù)是能量、振幅和過零率。但效果往往不明顯。60年代日本學(xué)者Itakura提出了動態(tài)時間規(guī)整算法(DTW：DynamicTimeWarping)。算法的思想就是把未知量均勻的升長或縮短,直到與參考模式的長度一致。在這一過程中，未知單詞的時間軸要不均勻地扭曲或彎折，以使其特征與模型特征對正。

2、隱馬爾可夫法(HMM)

隱馬爾可夫法(HMM)是70年代引入語音識別理論的，它的出現(xiàn)使得自然語音識別系統(tǒng)取得了實質(zhì)性的突破。HMM方法現(xiàn)已成為語音識別的主流技術(shù)，目前大多數(shù)大詞匯量、連續(xù)語音的非特定人語音識別系統(tǒng)都是基于HMM模型的。HMM是對語音信號的時間序列結(jié)構(gòu)建立統(tǒng)計模型，將之看作一個數(shù)學(xué)上的雙重隨機過程：一個是用具有有限狀態(tài)數(shù)的Markov鏈來模擬語音信號統(tǒng)計特性變化的隱含的隨機過程，另一個是與Markov鏈的每一個狀態(tài)相關(guān)聯(lián)的觀測序列的隨機過程。前者通過后者表現(xiàn)出來，但前者的具體參數(shù)是不可測的。人的言語過程實際上就是一個雙重隨機過程，語音信號本身是一個可觀測的時變序列，是由大腦根據(jù)語法知識和言語需要(不可觀測的狀態(tài))發(fā)出的音素的參數(shù)流�？梢奌MM合理地模仿了這一過程，很好地描述了語音信號的整體非平穩(wěn)性和局部平穩(wěn)性,是較為理想的一種語音模型。

3、矢量量化(VQ)

矢量量化(VectorQuantization)是一種重要的信號壓縮方法。與HMM相比,矢量量化主要適用于小詞匯量、孤立詞的語音識別中。其過程是：將語音信號波形的k個樣點的每一幀，或有k個參數(shù)的每一參數(shù)幀，構(gòu)成k維空間中的一個矢量，然后對矢量進行量化。量化時，將k維無限空間劃分為M個區(qū)域邊界，然后將輸入矢量與這些邊界進行比較，并被量化為“距離”最小的區(qū)域邊界的中心矢量值。矢量量化器的設(shè)計就是從大量信號樣本中訓(xùn)練出好的碼書，從實際效果出發(fā)尋找到好的失真測度定義公式，設(shè)計出最佳的矢量量化系統(tǒng)，用最少的搜索和計算失真的運算量，實現(xiàn)最大可能的平均信噪比。