語音識別是機器自動語音識別(automaTIc speech recogniTIon by machine)的簡稱。
語音識別技術關系到多學科的研究領域,不同領域中的研究成果都對語音識別的發(fā)展作出了貢獻。讓機器識別語音的困難在某種程度上就像一個外語不好的人聽外圍人講話一樣,它與說話人、說話速度、說話內容、環(huán)境條件有關。語音信號本身的特點造成了語音識別的困難。這些特點包括多變性、動態(tài)性、瞬時性和連續(xù)性等。
計算機語音識別的過程與人對語音識別處理過程基本上是一致的。目前主流的語音識別技術是基于統(tǒng)計模式識別的基本理論。一個完整的語音識別系統(tǒng)可大致分為三部分:
(1)語音特征提?。浩淠康氖菑恼Z音波形中提取出隨時間變化的語音特征序列。
?。?)聲學模型與模式匹配(識別算法):聲學模型通常將獲取的語音特征通過學習算法產生。在識別時將輸入的語音特征與聲學模型(模式)進行匹配、比較,得到最佳的識別結果。
(3)語言模型與語言處理:語言模型包括由識別語音命令構成的語法網絡或由統(tǒng)計方法構成的語言模型,語言處理可以進行語法、語義分析。對小詞表語音識別系統(tǒng),通常不需要語言處理部分。
聲學模型是識別系統(tǒng)的底層模型,并且是語音識別系統(tǒng)中最關系的一部分。聲學模型的目的是提供一種有效的方法,計算語音的特征矢量序列和每個發(fā)音模板之間的距離。聲學模型的設計與語言發(fā)音特點密切相關。聲學模型單元大小(字發(fā)音模型、半音字模型或音素模型)對語音訓練數(shù)據量大小、系統(tǒng)識別率以及靈活性有較大的影響。必須根據不同的語言的特點、識別系統(tǒng)詞匯量的大小決定識別單元的大小。 由于有了種種困難,語音識別技術通常根據使用中的限制性要求,構建成不同類型的系統(tǒng),通常包括三類。其一為限制用戶的說話方式,這又可以分為孤立詞語音識別系統(tǒng)(isolate-word speech recogniTIon system)、連接詞語音識別系統(tǒng)(connected-words speech recogniTIon system)、連續(xù)語音識別系統(tǒng)(continue speech recopnition system)和即興口語語音識別系統(tǒng)(spontaneous speech recognition system)。其二為限制用戶的用詞范圍。第三種為限制系統(tǒng)的用戶對象。 采用語速作為系統(tǒng)的第二信息渠道,一旦系統(tǒng)跟蹤到了目標的語還,在協(xié)助語音識別的同時還能夠有效地排除與語音信息不同步的外界噪聲,因此系統(tǒng)能夠獲得更好的識別性能。
圖像處理算法設計語言模型對中、大詞匯量的語音識別系統(tǒng)特別重要。當分類發(fā)生錯誤時可以根據語言學模型、語法結構、語義學進行判斷糾正,特別是一些同音字則必須通過上下文結構才能確定詞義。語言學理論包括語義結構、語法規(guī)則、語言的數(shù)學描述模型等有關方面。目前比較成功的語言模型通常是采用統(tǒng)計語法的語言模型與基于規(guī)則語法結構命令的語言模型。語法結構可以限定不同詞之間的相互連接關系,減少了識別系統(tǒng)的搜索空間,這有利于提高系統(tǒng)的識別。
語音識別過程實際上是一種認識過程。就像人們聽語音時,并不把語音和語言的語法結構、語義結構分開。因為當語音發(fā)音模糊時人們可以用這些和知識來指導對語言的理解過程,但是對機器來說,識別系統(tǒng)也要利用這些知識,只是如何有效地描述這些語法和語義還有困難:
(1)小詞匯量語音識別系統(tǒng):包括幾十個詞的語音識別系統(tǒng)。
?。?)中等詞匯量的語音識別系統(tǒng):通常包括幾百個詞至上千個詞的識別系統(tǒng)。
?。?)大詞匯量語音識別系統(tǒng):通常包括幾千至幾萬個詞的語音識別系統(tǒng)。
這些不同的限制也確定了語音識別系統(tǒng)的困難度。