語音識別主要可以分為孤立詞識別、連接詞識別、連續(xù)語音識別、特定人語音識別和非特定人語音識別等幾類。以下是詳細介紹:12
孤立詞識別。這種方式是指說話人每次只說一個詞或短語,每個詞或短語在詞匯表中都算作一個詞條,一般用在語音電話撥號系統(tǒng)中。1
連接詞識別。這種方式支持一個小的語法網(wǎng)絡,其內(nèi)部形成一個狀態(tài)機,可以實現(xiàn)簡單的家用電器的控制,而復雜的連接詞語音識別系統(tǒng)可以用于電話語音查詢、航空訂票等系統(tǒng)。
連續(xù)語音識別。這種方式是指對說話人以日常自然的方式發(fā)音,通常特指用于語音錄入的聽寫機。
特定人語音識別。這種方式是指只針對一個用戶的語音識別。
非特定人語音識別。這種方式是指可用于不同的用戶。
此外,還可以從識別對象的類型、識別的詞匯量大小等方面進行分類。
語音識別系統(tǒng)可分為哪幾類?現(xiàn)在的手機基本都有智能語音功能,通過語音可以直接和手機對話,有些軟件還可以將語音轉(zhuǎn)換為文字,這都需要使用語音識別技術。那語音識別系統(tǒng)可分為哪幾類?
語音識別系統(tǒng)可分為哪幾類
答:語音識別系統(tǒng)根據(jù)對輸入語音的限制,可分為特定人語音識別系統(tǒng)、非特定人語音系統(tǒng)和多人的識別系統(tǒng)三類;
根據(jù)說話的方式可分為孤立詞語音識別系統(tǒng)、連接詞語音識別系統(tǒng)和連續(xù)語音識別系統(tǒng);根據(jù)詞匯量大小可分為小詞匯量語音識別系統(tǒng)、中等詞匯量語音識別系統(tǒng)和大詞匯量語音識別系統(tǒng)。
語音識別系統(tǒng)根據(jù)對輸入語音的限制加以分類:
可以將識別系統(tǒng)分為3類:
(1)特定人語音識別系統(tǒng):僅考慮對于專人的話音進行識別;
(2)非特定人語音系統(tǒng):識別的語音與人無關,通常要用大量不同人的語音數(shù)據(jù)庫對識別系統(tǒng)進行學習;
(3)多人的識別系統(tǒng):通常能識別一組人的語音,或者成為特定組語音識別系統(tǒng),該系統(tǒng)僅要求對要識別的那組人的語音進行訓練。
從說話的方式考慮:
也可以將識別系統(tǒng)分為3類:
(1)孤立詞語音識別系統(tǒng):孤立詞識別系統(tǒng)要求輸入每個詞后要停頓;
(2)連接詞語音識別系統(tǒng):連接詞輸入系統(tǒng)要求對每個詞都清楚發(fā)音,一些連音現(xiàn)象開始出現(xiàn);
(3)連續(xù)語音識別系統(tǒng):連續(xù)語音輸入是自然流利的連續(xù)語音輸入,大量連音和變音會出現(xiàn)。
從識別系統(tǒng)的詞匯量大小考慮:
也可以將識別系統(tǒng)分為3類:
(1)小詞匯量語音識別系統(tǒng)。通常包括幾十個詞的語音識別系統(tǒng)。
(2)中等詞匯量的語音識別系統(tǒng)。通常包括幾百個詞到上千個詞的識別系統(tǒng)。
(3)大詞匯量語音識別系統(tǒng)。通常包括幾千到幾萬個詞的語音識別系統(tǒng)。隨著計算機與數(shù)字信號處理器運算能力以及識別系統(tǒng)精度的提高,識別系統(tǒng)根據(jù)詞匯量大小進行分類也不斷進行變化。目前是中等詞匯量的識別系統(tǒng)到將來可能就是小詞匯量的語音識別系統(tǒng)。這些不同的限制也確定了語音識別系統(tǒng)的困難度。
語音識別技術應用 編輯語音識別技術的應用包括語音撥號、語音導航、室內(nèi)設備控制、語音文檔檢索、簡單的聽寫數(shù)據(jù)錄入等。語音識別技術與其他自然語言處理技術如機器翻譯及語音合成技術相結合,可以構建出更加復雜的應用,例如語音到語音的翻譯。
語音識別技術所涉及的領域包括:信號處理、模式識別、概率論和信息論、發(fā)聲機理和聽覺機理、人工智能等等。
歷史發(fā)展 編輯早在計算機發(fā)明之前,自動語音識別的設想就已經(jīng)被提上了議事日程,早期的聲碼器可被視作語音識別及合成的雛形。而19XX產(chǎn)的Radio Rex玩具狗可能是最早的語音識別器,當這只狗的名字被呼喚的時候,它能夠從底座上彈出來。最早的基于電子計算機的語音識別系統(tǒng)是由ATT貝爾實驗室開發(fā)的Audrey語音識別系統(tǒng),它能夠識別10個英文數(shù)字。其識別方法是跟蹤語音中的共振峰。該系統(tǒng)得到了98%的正確率。到1950年代末,倫敦學院(Colledge of London)的Denes已經(jīng)將語法概率加入語音識別中。
1960年代,人工神經(jīng)網(wǎng)絡被引入了語音識別。這一時代的兩大突破是線性預測編碼Linear Predictive Coding (LPC), 及動態(tài)時間規(guī)整Dynamic Time Warp技術。
語音識別技術的最重大突破是隱含馬爾科夫模型Hidden Markov Model的應用。從Baum提出相關數(shù)學推理,經(jīng)過Rabiner等人的研究,卡內(nèi)基梅隆大學的李開復最終實現(xiàn)了X個基于隱馬爾科夫模型的大詞匯量語音識別系統(tǒng)Sphinx[4]。此后嚴格來說語音識別技術并沒有脫離HMM框架。
盡管多年來研究人員一直嘗試將“聽寫機”推廣,語音識別技術在目前還無法支持無限領域,無限說話人的聽寫機應用。
模型 編輯目前,主流的大詞匯量語音識別系統(tǒng)多采用統(tǒng)計模式識別技術。典型的基于統(tǒng)計模式識別方法的語音識別系統(tǒng)由以下幾個基本模塊所構成:
信號處理及特征提取模塊。該模塊的主要任務是從輸入信號中提取特征,供聲學模型處理。同時,它一般也包括了一些信號處理技術,以盡可能降低環(huán)境噪聲、信道、說話人等因素對特征造成的影響。 聲學模型。典型系統(tǒng)多采用基于一階隱馬爾科夫模型進行建模。 發(fā)音詞典。發(fā)音詞典包含系統(tǒng)所能處理的詞匯集及其發(fā)音。發(fā)音詞典實際提供了聲學模型建模單元與語言模型建模單元間的映射。 語言模型。語言模型對系統(tǒng)所針對的語言進行建模。理論上,包括正則語言,上下文無關文法在內(nèi)的各種語言模型都可以作為語言模型,但目前各種系統(tǒng)普遍采用的還是基于統(tǒng)計的N元文法及其變體。 。是語音識別系統(tǒng)的核心之一,其任務是對輸入的信號,根據(jù)聲學、語言模型及詞典,尋找能夠以最大概率輸出該信號的詞串。
系統(tǒng)構成 編輯聲學特征
聲學特征的提取與選擇是語音識別的一個重要環(huán)節(jié)。聲學特征的提取既是一個信息大幅度壓縮的過程,也是一個信號解卷過程,目的是使模式劃分器能更好地劃分。
由于語音信號的時變特性,特征提取必須在一小段語音信號上進行,也即進行短時分析。這一段被認為是平穩(wěn)的分析區(qū)間稱之為幀,幀與幀之間的偏移通常取幀長的1/2或1/3。通常要對信號進行預加重以提升高頻,對信號加窗以避免短時語音段邊緣的影響。
常用的一些聲學特征 線性預測系數(shù)(Linear Predictive Coefficient,LPC):線性預測分析從人的發(fā)聲機理入手,通過對聲道的短管級聯(lián)模型的研究,認為系統(tǒng)的傳遞函數(shù)符合全極點數(shù)字濾波器的形式,從而n時刻的信號可以用前若干時刻的信號的線性組合來估計。通過使實際語音的采樣值和線性預測采樣值之間達到均方差最小LMS,即可得到線性預測系數(shù)LPC。對LPC的計算方法有自相關法(德賓Durbin法)、協(xié)方差法、格型法等等。計算上的快速有效保證了這一聲學特征的廣泛使用。與LPC這種預測參數(shù)模型類似的聲學特征還有線譜對LSP、反射系數(shù)等等。 倒譜系數(shù):利用同態(tài)處理方法,對語音信號求離散傅立葉變換DFT后取對數(shù),再求反變換iDFT就可得到倒譜系數(shù)。對LPC倒譜(LPCCEP),在獲得濾波器的線性預測系數(shù)后,可以用一個遞推公式計算得出。實驗表明,使用倒譜可以提高特征參數(shù)的穩(wěn)定性。 梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCCs)和感知線性預測(Perceptual Linear Predictive,PLP):不同于LPC等通過對人的發(fā)聲機理的研究而得到的聲學特征,Mel倒譜系數(shù)MFCC和感知線性預測PLP是受人的聽覺系統(tǒng)研究成果推動而導出的聲學特征。對人的聽覺機理的研究發(fā)現(xiàn),當兩個頻率相近的音調(diào)同時發(fā)出時,人只能聽到一個音調(diào)。臨界帶寬指的就是這樣一種令人的主觀感覺發(fā)生突變的帶寬邊界,當兩個音調(diào)的頻率差小于臨界帶寬時,人就會把兩個音調(diào)聽成一個,這稱之為屏蔽效應。Mel刻度是對這一臨界帶寬的度量方法之一。
MFCC的計算首先用FFT將時域信號轉(zhuǎn)化成頻域,之后對其對數(shù)能量譜用依照Mel刻度分布的三角濾波器組進行卷積,最后對各個濾波器的輸出構成的向量進行離散余弦變換DCT,取前N個系數(shù)。PLP仍用德賓法去計算LPC參數(shù),但在計算自相關參數(shù)時用的也是對聽覺激勵的對數(shù)能量譜進行DCT的方法。
中文聲學特征
以普通話發(fā)音為例,我們會將一個字的發(fā)音切割成兩個部分,分別是聲母(initials)與韻母(finals)。而在發(fā)音的過程之中,聲母轉(zhuǎn)變至韻母是一個漸進而非瞬間的改變,因此我使用右文相關聲韻母模式(Right-Context-Dependent Initial Final, RCDIF)作為分析方法,可以更X的辨識出正確的音節(jié)(syllable)。
聲學模型
語音識別系統(tǒng)的模型通常由聲學模型和語言模型兩部分組成,分別對應于語音到音節(jié)概率的計算和音節(jié)到字概率的計算。本節(jié)和下一節(jié)分別介紹聲學模型和語言模型方面的技術。
HMM聲學建模:馬爾可夫模型的概念是一個離散時域有限狀態(tài)自動機,隱馬爾可夫模型HMM是指這一馬爾可夫模型的內(nèi)部狀態(tài)外界不可見,外界只能看到各個時刻的輸出值。對語音識別系統(tǒng),輸出值通常就是從各個幀計算而得的聲學特征。用HMM刻畫語音信號需作出兩個假設,一是內(nèi)部狀態(tài)的轉(zhuǎn)移只與上一狀態(tài)有關,另一是輸出值只與當前狀態(tài)(或當前的狀態(tài)轉(zhuǎn)移)有關,這兩個假設大大降低了模型的復雜度。HMM的評估、解碼和訓練相應的算法是前向算法、Viterbi算法和前向后向算法。
語音識別中使用HMM通常是用從左向右單向、帶自環(huán)、帶跨越的拓撲結構來對識別基元建模,一個音素就是一個三至五狀態(tài)的HMM,一個詞就是構成詞的多個音素的HMM串行起來構成的HMM,而連續(xù)語音識別的整個模型就是詞和靜音組合起來的HMM。 上下文相關建模:協(xié)同發(fā)音,指的是一個音受前后相鄰音的影響而發(fā)生變化,從發(fā)聲機理上看就是人的發(fā)聲器官在一個音轉(zhuǎn)向另一個音時其特性只能漸變,從而使得后一個音的頻譜與其他條件下的頻譜產(chǎn)生差異。上下文相關建模方法在建模時考慮了這一影響,從而使模型能更準確地描述語音,只考慮前一音的影響的稱為Bi-Phone,考慮前一音和后一音的影響的稱為Tri-Phone。
英語的上下文相關建模通常以音素為基元,由于有些音素對其后音素的影響是相似的,因而可以通過音素解碼狀態(tài)的聚類進行模型參數(shù)的共享。聚類的結果稱為senone。決策樹用來實現(xiàn)高效的triphone對senone的對應,通過回答一系列前后音所屬類別(元/輔音、清/濁音等等)的問題,最終確定其HMM狀態(tài)應使用哪個senone。分類回歸樹CART模型用以進行詞到音素的發(fā)音標注。