原創(chuàng)

語音識別包含哪幾類

時間：2024-04-01 13:20:01

關(guān)鍵字：語音識別語音 AI

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀]語音識別主要可以分為孤立詞識別、連接詞識別、連續(xù)語音識別、特定人語音識別和非特定人語音識別等幾類。

語音識別主要可以分為孤立詞識別、連接詞識別、連續(xù)語音識別、特定人語音識別和非特定人語音識別等幾類。以下是詳細介紹：12

孤立詞識別。這種方式是指說話人每次只說一個詞或短語，每個詞或短語在詞匯表中都算作一個詞條，一般用在語音電話撥號系統(tǒng)中。1

連接詞識別。這種方式支持一個小的語法網(wǎng)絡(luò)，其內(nèi)部形成一個狀態(tài)機，可以實現(xiàn)簡單的家用電器的控制，而復(fù)雜的連接詞語音識別系統(tǒng)可以用于電話語音查詢、航空訂票等系統(tǒng)。

連續(xù)語音識別。這種方式是指對說話人以日常自然的方式發(fā)音，通常特指用于語音錄入的聽寫機。

特定人語音識別。這種方式是指只針對一個用戶的語音識別。

非特定人語音識別。這種方式是指可用于不同的用戶。

此外，還可以從識別對象的類型、識別的詞匯量大小等方面進行分類。

語音識別系統(tǒng)可分為哪幾類?現(xiàn)在的手機基本都有智能語音功能，通過語音可以直接和手機對話，有些軟件還可以將語音轉(zhuǎn)換為文字，這都需要使用語音識別技術(shù)。那語音識別系統(tǒng)可分為哪幾類?

語音識別系統(tǒng)可分為哪幾類

答：語音識別系統(tǒng)根據(jù)對輸入語音的限制，可分為特定人語音識別系統(tǒng)、非特定人語音系統(tǒng)和多人的識別系統(tǒng)三類;

根據(jù)說話的方式可分為孤立詞語音識別系統(tǒng)、連接詞語音識別系統(tǒng)和連續(xù)語音識別系統(tǒng);根據(jù)詞匯量大小可分為小詞匯量語音識別系統(tǒng)、中等詞匯量語音識別系統(tǒng)和大詞匯量語音識別系統(tǒng)。

語音識別系統(tǒng)根據(jù)對輸入語音的限制加以分類：

可以將識別系統(tǒng)分為3類:

(1)特定人語音識別系統(tǒng):僅考慮對于專人的話音進行識別;

(2)非特定人語音系統(tǒng):識別的語音與人無關(guān)，通常要用大量不同人的語音數(shù)據(jù)庫對識別系統(tǒng)進行學(xué)習(xí);

(3)多人的識別系統(tǒng):通常能識別一組人的語音，或者成為特定組語音識別系統(tǒng)，該系統(tǒng)僅要求對要識別的那組人的語音進行訓(xùn)練。

從說話的方式考慮：

也可以將識別系統(tǒng)分為3類:

(1)孤立詞語音識別系統(tǒng):孤立詞識別系統(tǒng)要求輸入每個詞后要停頓;

(2)連接詞語音識別系統(tǒng):連接詞輸入系統(tǒng)要求對每個詞都清楚發(fā)音，一些連音現(xiàn)象開始出現(xiàn);

(3)連續(xù)語音識別系統(tǒng):連續(xù)語音輸入是自然流利的連續(xù)語音輸入，大量連音和變音會出現(xiàn)。

從識別系統(tǒng)的詞匯量大小考慮：

也可以將識別系統(tǒng)分為3類:

(1)小詞匯量語音識別系統(tǒng)。通常包括幾十個詞的語音識別系統(tǒng)。

(2)中等詞匯量的語音識別系統(tǒng)。通常包括幾百個詞到上千個詞的識別系統(tǒng)。

(3)大詞匯量語音識別系統(tǒng)。通常包括幾千到幾萬個詞的語音識別系統(tǒng)。隨著計算機與數(shù)字信號處理器運算能力以及識別系統(tǒng)精度的提高，識別系統(tǒng)根據(jù)詞匯量大小進行分類也不斷進行變化。目前是中等詞匯量的識別系統(tǒng)到將來可能就是小詞匯量的語音識別系統(tǒng)。這些不同的限制也確定了語音識別系統(tǒng)的困難度。

語音識別技術(shù)應(yīng)用編輯語音識別技術(shù)的應(yīng)用包括語音撥號、語音導(dǎo)航、室內(nèi)設(shè)備控制、語音文檔檢索、簡單的聽寫數(shù)據(jù)錄入等。語音識別技術(shù)與其他自然語言處理技術(shù)如機器翻譯及語音合成技術(shù)相結(jié)合，可以構(gòu)建出更加復(fù)雜的應(yīng)用，例如語音到語音的翻譯。

語音識別技術(shù)所涉及的領(lǐng)域包括：信號處理、模式識別、概率論和信息論、發(fā)聲機理和聽覺機理、人工智能等等。

歷史發(fā)展編輯早在計算機發(fā)明之前，自動語音識別的設(shè)想就已經(jīng)被提上了議事日程，早期的聲碼器可被視作語音識別及合成的雛形。而19XX產(chǎn)的Radio Rex玩具狗可能是最早的語音識別器，當(dāng)這只狗的名字被呼喚的時候，它能夠從底座上彈出來。最早的基于電子計算機的語音識別系統(tǒng)是由ATT貝爾實驗室開發(fā)的Audrey語音識別系統(tǒng)，它能夠識別10個英文數(shù)字。其識別方法是跟蹤語音中的共振峰。該系統(tǒng)得到了98%的正確率。到1950年代末，倫敦學(xué)院(Colledge of London)的Denes已經(jīng)將語法概率加入語音識別中。

1960年代，人工神經(jīng)網(wǎng)絡(luò)被引入了語音識別。這一時代的兩大突破是線性預(yù)測編碼Linear Predictive Coding (LPC)，及動態(tài)時間規(guī)整Dynamic Time Warp技術(shù)。

語音識別技術(shù)的最重大突破是隱含馬爾科夫模型Hidden Markov Model的應(yīng)用。從Baum提出相關(guān)數(shù)學(xué)推理，經(jīng)過Rabiner等人的研究，卡內(nèi)基梅隆大學(xué)的李開復(fù)最終實現(xiàn)了X個基于隱馬爾科夫模型的大詞匯量語音識別系統(tǒng)Sphinx[4]。此后嚴格來說語音識別技術(shù)并沒有脫離HMM框架。

盡管多年來研究人員一直嘗試將“聽寫機”推廣，語音識別技術(shù)在目前還無法支持無限領(lǐng)域，無限說話人的聽寫機應(yīng)用。

模型編輯目前，主流的大詞匯量語音識別系統(tǒng)多采用統(tǒng)計模式識別技術(shù)。典型的基于統(tǒng)計模式識別方法的語音識別系統(tǒng)由以下幾個基本模塊所構(gòu)成：

信號處理及特征提取模塊。該模塊的主要任務(wù)是從輸入信號中提取特征，供聲學(xué)模型處理。同時，它一般也包括了一些信號處理技術(shù)，以盡可能降低環(huán)境噪聲、信道、說話人等因素對特征造成的影響。聲學(xué)模型。典型系統(tǒng)多采用基于一階隱馬爾科夫模型進行建模。發(fā)音詞典。發(fā)音詞典包含系統(tǒng)所能處理的詞匯集及其發(fā)音。發(fā)音詞典實際提供了聲學(xué)模型建模單元與語言模型建模單元間的映射。語言模型。語言模型對系統(tǒng)所針對的語言進行建模。理論上，包括正則語言，上下文無關(guān)文法在內(nèi)的各種語言模型都可以作為語言模型，但目前各種系統(tǒng)普遍采用的還是基于統(tǒng)計的N元文法及其變體。。是語音識別系統(tǒng)的核心之一，其任務(wù)是對輸入的信號，根據(jù)聲學(xué)、語言模型及詞典，尋找能夠以最大概率輸出該信號的詞串。

系統(tǒng)構(gòu)成編輯聲學(xué)特征

聲學(xué)特征的提取與選擇是語音識別的一個重要環(huán)節(jié)。聲學(xué)特征的提取既是一個信息大幅度壓縮的過程，也是一個信號解卷過程，目的是使模式劃分器能更好地劃分。

由于語音信號的時變特性，特征提取必須在一小段語音信號上進行，也即進行短時分析。這一段被認為是平穩(wěn)的分析區(qū)間稱之為幀，幀與幀之間的偏移通常取幀長的1/2或1/3。通常要對信號進行預(yù)加重以提升高頻，對信號加窗以避免短時語音段邊緣的影響。

常用的一些聲學(xué)特征線性預(yù)測系數(shù)(Linear Predictive Coefficient，LPC)：線性預(yù)測分析從人的發(fā)聲機理入手，通過對聲道的短管級聯(lián)模型的研究，認為系統(tǒng)的傳遞函數(shù)符合全極點數(shù)字濾波器的形式，從而n時刻的信號可以用前若干時刻的信號的線性組合來估計。通過使實際語音的采樣值和線性預(yù)測采樣值之間達到均方差最小LMS，即可得到線性預(yù)測系數(shù)LPC。對LPC的計算方法有自相關(guān)法(德賓Durbin法)、協(xié)方差法、格型法等等。計算上的快速有效保證了這一聲學(xué)特征的廣泛使用。與LPC這種預(yù)測參數(shù)模型類似的聲學(xué)特征還有線譜對LSP、反射系數(shù)等等。倒譜系數(shù)：利用同態(tài)處理方法，對語音信號求離散傅立葉變換DFT后取對數(shù)，再求反變換iDFT就可得到倒譜系數(shù)。對LPC倒譜(LPCCEP)，在獲得濾波器的線性預(yù)測系數(shù)后，可以用一個遞推公式計算得出。實驗表明，使用倒譜可以提高特征參數(shù)的穩(wěn)定性。梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients，MFCCs)和感知線性預(yù)測(Perceptual Linear Predictive，PLP)：不同于LPC等通過對人的發(fā)聲機理的研究而得到的聲學(xué)特征，Mel倒譜系數(shù)MFCC和感知線性預(yù)測PLP是受人的聽覺系統(tǒng)研究成果推動而導(dǎo)出的聲學(xué)特征。對人的聽覺機理的研究發(fā)現(xiàn)，當(dāng)兩個頻率相近的音調(diào)同時發(fā)出時，人只能聽到一個音調(diào)。臨界帶寬指的就是這樣一種令人的主觀感覺發(fā)生突變的帶寬邊界，當(dāng)兩個音調(diào)的頻率差小于臨界帶寬時，人就會把兩個音調(diào)聽成一個，這稱之為屏蔽效應(yīng)。Mel刻度是對這一臨界帶寬的度量方法之一。

MFCC的計算首先用FFT將時域信號轉(zhuǎn)化成頻域，之后對其對數(shù)能量譜用依照Mel刻度分布的三角濾波器組進行卷積，最后對各個濾波器的輸出構(gòu)成的向量進行離散余弦變換DCT，取前N個系數(shù)。PLP仍用德賓法去計算LPC參數(shù)，但在計算自相關(guān)參數(shù)時用的也是對聽覺激勵的對數(shù)能量譜進行DCT的方法。

中文聲學(xué)特征

以普通話發(fā)音為例，我們會將一個字的發(fā)音切割成兩個部分，分別是聲母(initials)與韻母(finals)。而在發(fā)音的過程之中，聲母轉(zhuǎn)變至韻母是一個漸進而非瞬間的改變，因此我使用右文相關(guān)聲韻母模式(Right-Context-Dependent Initial Final, RCDIF)作為分析方法，可以更X的辨識出正確的音節(jié)(syllable)。

聲學(xué)模型

語音識別系統(tǒng)的模型通常由聲學(xué)模型和語言模型兩部分組成，分別對應(yīng)于語音到音節(jié)概率的計算和音節(jié)到字概率的計算。本節(jié)和下一節(jié)分別介紹聲學(xué)模型和語言模型方面的技術(shù)。

HMM聲學(xué)建模：馬爾可夫模型的概念是一個離散時域有限狀態(tài)自動機，隱馬爾可夫模型HMM是指這一馬爾可夫模型的內(nèi)部狀態(tài)外界不可見，外界只能看到各個時刻的輸出值。對語音識別系統(tǒng)，輸出值通常就是從各個幀計算而得的聲學(xué)特征。用HMM刻畫語音信號需作出兩個假設(shè)，一是內(nèi)部狀態(tài)的轉(zhuǎn)移只與上一狀態(tài)有關(guān)，另一是輸出值只與當(dāng)前狀態(tài)(或當(dāng)前的狀態(tài)轉(zhuǎn)移)有關(guān)，這兩個假設(shè)大大降低了模型的復(fù)雜度。HMM的評估、解碼和訓(xùn)練相應(yīng)的算法是前向算法、Viterbi算法和前向后向算法。

語音識別中使用HMM通常是用從左向右單向、帶自環(huán)、帶跨越的拓撲結(jié)構(gòu)來對識別基元建模，一個音素就是一個三至五狀態(tài)的HMM，一個詞就是構(gòu)成詞的多個音素的HMM串行起來構(gòu)成的HMM，而連續(xù)語音識別的整個模型就是詞和靜音組合起來的HMM。上下文相關(guān)建模：協(xié)同發(fā)音，指的是一個音受前后相鄰音的影響而發(fā)生變化，從發(fā)聲機理上看就是人的發(fā)聲器官在一個音轉(zhuǎn)向另一個音時其特性只能漸變，從而使得后一個音的頻譜與其他條件下的頻譜產(chǎn)生差異。上下文相關(guān)建模方法在建模時考慮了這一影響，從而使模型能更準確地描述語音，只考慮前一音的影響的稱為Bi-Phone，考慮前一音和后一音的影響的稱為Tri-Phone。

英語的上下文相關(guān)建模通常以音素為基元，由于有些音素對其后音素的影響是相似的，因而可以通過音素解碼狀態(tài)的聚類進行模型參數(shù)的共享。聚類的結(jié)果稱為senone。決策樹用來實現(xiàn)高效的triphone對senone的對應(yīng)，通過回答一系列前后音所屬類別(元/輔音、清/濁音等等)的問題，最終確定其HMM狀態(tài)應(yīng)使用哪個senone。分類回歸樹CART模型用以進行詞到音素的發(fā)音標注。

www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

語音識別包含哪幾類