對語音進行編碼的目的是為了將語音數(shù)字化并利用人的發(fā)聲過程中存在的冗余度和人的聽覺特性來降低編碼率。
1.1編碼的重要性編碼、傳輸、存儲和譯碼是語音數(shù)字傳輸和數(shù)字存儲的必要過程。隨著語音通信技術的發(fā)展,壓縮語音信號的傳輸帶寬,增加信道的傳輸速率,一直是人們追求的目標。語音編碼在實現(xiàn)這一目標的過程中擔當重要的角色。語音編碼就是使表達語音信號的比特數(shù)目最小。
1.2編碼速率用比特/秒(b/s或bps)來度量,用I表示,I=R·fs,R代表每個語音采樣值編碼所需的比特數(shù);fs是采樣頻率。當fs=8kHz,每個采樣值用8比特位來編碼,則編碼速率為64kb/s。
語音編碼就是對模擬的語音信號進行編碼,將模擬信號轉化成數(shù)字信號,從而降低傳輸碼率并進行數(shù)字傳輸,語音編碼的基本方法可分為波形編碼、參量編碼(音源編碼)和混合編碼,波形編碼是將時域的模擬話音的波形信號經(jīng)過取樣、量化、編碼而形成的數(shù)字話音信號,參量編碼是基于人類語言的發(fā)音機理,找出表征語音的特征參量,對特征參量進行編碼,混合編譯碼是結合波形編譯碼和參量編譯碼之間的優(yōu)點。波形編譯碼器雖然可提供高話音的質量,但數(shù)據(jù)率低于16kb/s的情況下,在技術上還沒有解決音質的問題。
2.1波形編碼基本原理是在時間軸上對模擬話音信號按照一定的速率來抽樣,然后將幅度樣本分層量化,并使用代碼來表示。在接收端將收到的數(shù)字序列經(jīng)過解碼恢復到原模擬信號,保持原始語音的波形形狀。話音質量高,編碼速率高。如PCM編碼類(a率或u率PCM、ADPCM、ADM),編碼速率為64-16kb/s,語音質量好。波形編碼的目的在于盡可能精確地再現(xiàn)原來的語音波形,并以波形的保真度即自然度為其質量的主要度量指標,但波形編碼所需的碼速率較高。
2.2參數(shù)編碼根據(jù)語音信號產(chǎn)生的數(shù)學模型,通過對語音信號特征參數(shù)的提取后進行編碼(將特征參數(shù)變換成數(shù)字代碼進行傳輸)。在接收端將特征參數(shù),結合數(shù)學模型,恢復語音,力圖使重建語音保持盡可能高的可懂度,重建語音信號的波形同原始語音信號的波形可能會有相當大的區(qū)別。如線性預測(LPC)編碼類。編碼速率低,2.4-1.2kb/s,自然度低,對環(huán)境噪聲敏感。這種語音編碼的主要質量指標是可懂度,參量編碼可以將語音編碼以后的速率壓得很低。
2.3混合編碼(Hybridcoding)將波形編碼與參數(shù)編碼相結合,在2.4-1.2kb/s速率上能夠得到高質量的合成語音?;旌暇幋a把波形編碼的高質量和參量編碼的高效性融為一體,在參量編碼的基礎上附加一定的波形編碼特征,實現(xiàn)在可懂度的基礎上適當?shù)馗纳谱匀欢鹊哪康?。用于移動通信中的語音編碼一般都是混合編碼。選擇混合編碼時,要使比特率、質量、復雜度和處理時延這4個參量及其關系達到綜合最佳化。
2.4語音編碼的極限速率語音中最基本的元素是音素,大約有128~256個,如果按通常的說話速度,每秒平均發(fā)出10個音素,則信息率為:I=[log2(256)10]bps=80bps把發(fā)音看成是以語音速率來傳送,則語音編碼的極限速率為80bps,從數(shù)字化標準的編碼速率64kbps,到極限速率80bps,之間的距離,對于理論研究和實踐有著極大的吸引力。
語音質量是衡量語音編碼算法優(yōu)劣的關鍵性能之一。語音質量通常分為四類:(1)廣播級:寬帶(0-7000Hz)高質量的語音,感覺不出噪聲存在(2)網(wǎng)絡或電話級:200Hz-3200Hz,信噪比大于30db。(3)通信級:完全可以聽懂,但和長途電話相比,有明顯失真。(4)合成級:80%-90%可懂度,音質較差,聽起來像機器講話,失去了講話者的個人特征。語音質量有主觀和客觀兩種評價方法
3.1主觀評價方法評價指標:清晰度或可懂度、音質。前者是指語音是否容易聽清楚;后者指語音聽起來有多自然。(1)可懂度評價DRT:DiagnosticRhymerTest(2)音質評價:MOS:MeanOpinionScore平均意見得分DAM:DiagnosticAcceptabilityMeasure判斷滿意度得分。MOS得分為五級:優(yōu)、良、可、差和壞。滿分為5分,相當調頻廣播質量;4分以上是長途電話網(wǎng)標準;3.5分為通信標準;3.0分仍有較好的可懂度,保持自然度;2.5分只維持可懂度,是戰(zhàn)術通信標準。