www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當(dāng)前位置:首頁 > 消費電子 > 消費電子
[導(dǎo)讀]相對解碼重建后的語音進行說話人識別,從VoIP的語音流中直接提取語音特征參數(shù)進行說話人識別方法具有便于實現(xiàn)的優(yōu)點,針對G.729編碼域數(shù)據(jù),研究基于DTW算法的快速說話人識別方法。實驗結(jié)果表明,在相關(guān)的說話人識別中, DTW算法相比GMM 在識別正確率和效率上有了很大提高。

說話人識別又被稱為話者識別,是指通過對說話人語音信號的分析處理,自動確認(rèn)說話人是否在所記錄的話者集合中,以及進一步確認(rèn)說話人的身份。說話人識別的基本原理如圖1所示。

   按照語音的內(nèi)容,說話人識別可以分為文本無關(guān)的(Text-Independent)和文本相關(guān)的(Text-Dependent)兩種。文本無關(guān)的識別系統(tǒng)不規(guī)定說話人的發(fā)音內(nèi)容,模型建立相對困難,但用戶使用方便。與文本有關(guān)的說話人識別系統(tǒng)要求用戶按照規(guī)定的內(nèi)容發(fā)音,而識別時也必須按規(guī)定的內(nèi)容發(fā)音,因此可以達到較好的識別效果。
 隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,通過Internet網(wǎng)絡(luò)傳遞語音的網(wǎng)絡(luò)電話VoIP(Voice over IP)技術(shù)發(fā)展迅速,已經(jīng)成為人們?nèi)粘=涣鞯闹匾侄?,越來越多的用戶拋棄傳統(tǒng)的通信方式,通過計算機網(wǎng)絡(luò)等媒介進行語音交流。由于VoIP工作方式的特點,語音在傳輸中經(jīng)過了語音編譯碼處理,VoIP設(shè)備端口同時要處理多路、海量的壓縮話音數(shù)據(jù)。所以VoIP說話人識別技術(shù)主要研究的是如何高速、低復(fù)雜度地針對解碼參數(shù)和壓縮碼流進行說話人識別。
 現(xiàn)有的針對編碼域說話人識別方法的研究主要集中在編碼域語音特征參數(shù)的提取上,香港理工大學(xué)研究從G.729和G.723編碼比特流以及殘差中提取信息,并采用了分?jǐn)?shù)補償?shù)姆椒?。中國科學(xué)技術(shù)大學(xué)主要研究了針對AMR語音編碼的說話人識別。西北工業(yè)大學(xué)在說話人確認(rèn)中針對不同的語音編碼差異進行了補償算法研究,并且研究了直接在G.729編碼的比特流中提取參數(shù)的方法。說話人模型則主要采用在傳統(tǒng)說話人識別中應(yīng)用最廣泛的GMM-UBM(Gaussian Mixture Model-Universal Background Model)。GMM-UBM的應(yīng)用效果和混元數(shù)目密切相關(guān),在保證識別率的基礎(chǔ)上,其處理速度無法滿足VoIP環(huán)境下高速說話人識別的需求。
 本文研究VoIP語音流中G.729編碼域的說話人實時識別,將DTW識別算法成功應(yīng)用在G.729編碼域的文本相關(guān)的說話人實時識別。
1 G.729編碼比特流中的特征提取
1.1  G.729編碼原理

 ITU-T在1996年3月公布G.729編碼,其編碼速率為8 kb/s,采用了對結(jié)構(gòu)代數(shù)碼激勵線性預(yù)測技術(shù)(CS-ACELP),編碼結(jié)果可以在8 kb/s的碼率下得到合成音質(zhì)不低于32 kb/s ADPCM的水平。 G.729的算法延時為15 ms。由于G.729編解碼器具有很高的語音質(zhì)量和很低的延時,被廣泛地應(yīng)用在數(shù)據(jù)通信的各個領(lǐng)域,如VoIP和H.323網(wǎng)上多媒體通信系統(tǒng)等。
    G.729的編碼過程如下:輸入8 kHz采樣的數(shù)字語音信號先經(jīng)過高通濾波預(yù)處理,每10 ms幀作一次線性預(yù)測分析,計算10階線性預(yù)測濾波器系數(shù),然后把這些系數(shù)轉(zhuǎn)換為線譜對(LSP)參數(shù),采用兩級矢量量化技術(shù)進行量化。自適應(yīng)碼本搜索時,以原始語音與合成語音的誤差知覺加權(quán)最小為測度進行搜索。固定碼本采用代數(shù)碼本機構(gòu)。激勵參數(shù)(自適應(yīng)碼本和固定碼本參數(shù))每個子幀(5 ms,40個樣點)確定一次。
1.2 特征參數(shù)提取
    直接從G.729 編碼流中按照量化算法解量化可以得到LSP參數(shù)。由于后段的說話人識別系統(tǒng)還需要激勵參數(shù),而在激勵參數(shù)的計算過程中經(jīng)過了LSP的插值平滑,所以為了使特征矢量中聲道和激勵參數(shù)能準(zhǔn)確地對應(yīng)起來,要對解量化的LSP參數(shù)采用插值平滑。



 本文選擇G.729編碼幀中第一子幀的LSP(1)參數(shù)的反余弦LSF及由其轉(zhuǎn)換得到的LPC、LPCC參數(shù)作為聲道特征參數(shù)。
 參考文獻[1]發(fā)現(xiàn)識別特征加入G.729壓縮幀中的語音增益參數(shù),說話人識別性能發(fā)生了下降。去除G.729壓縮碼流特征中的增益參數(shù)GA1、GB1、GA2、GB2,結(jié)果發(fā)現(xiàn),當(dāng)采用了去除增益參數(shù)的特征矢量方案X=(L0,L1,L2,L3,P1,P0,P2),識別性能得到了提高,所以本文最終采用的G.729壓縮碼流特征為X=(L0,L1,L2,L3,P1,P0,P2),共7維。
2 動態(tài)時間規(guī)整(DTW)識別算法
 動態(tài)時間規(guī)整DTW(Dynamic Time Warping)是把時間規(guī)整和距離測度計算結(jié)合起來的一種非線性規(guī)整技術(shù)。該算法基于動態(tài)規(guī)劃思想,解決了發(fā)音長短不一的模版匹配問題。
 算法原理:假設(shè)測試語音和參考語音分別用R和T表示,為了比較它們之間的相似度,可以計算它們之間的距離D[T,R],距離越小則相似度越高。具體實現(xiàn)中,先對語音進行預(yù)處理,再把R和T按相同時間間隔劃分成幀系列:

   然后采用動態(tài)規(guī)劃進行識別。如圖2所示。

   把測試模版的各個幀號n=1,…,N在一個二維直角坐標(biāo)系的橫軸上標(biāo)出,把參考模版的各幀號m=1,…,M在縱軸上標(biāo)出,通過這些表示幀號的整數(shù)坐標(biāo)畫出的橫縱線即可形成一個網(wǎng)格,網(wǎng)格中的每一個交叉點(n,m)表示測試模版中某一幀與訓(xùn)練模版中某一幀的交叉點。動態(tài)規(guī)劃算法可以歸結(jié)為尋找一條通過此網(wǎng)格中若干格點的路徑,路徑通過的格點即為測試和參考模版中距離計算的幀號。

 整個算法主要歸結(jié)為計算測試幀和參考幀間的相似度及所選路徑的矢量距離累加。
 識別流程如圖3所示。

3  實驗結(jié)果與性能分析及結(jié)論
 為測試上述識別性能,對其進行了固定文本的說話人識別試驗。試驗中,采用電話信道863語料庫30個說話人共300個錄音文件,文件格式為16 bit線性PCM。為了模擬VoIP中語音壓縮幀,使用G.729聲碼器對原始語音文件進行壓縮。使用每個說話人的一個文件訓(xùn)練成為模板。測試語音長度為10 s~60 s以5 s為間隔的共11個測試時間標(biāo)準(zhǔn)。這樣,模板庫中有30個模板,測試語音有270個,使用微機配置是:CPU Pentium 2.0 GHz,內(nèi)存512 MB。
 在實驗中,M和N取64,通過各模版間的匹配,確定了判決門限為0.3時,識別效果最佳。
 為了對比DTW算法的識別性能,采用在傳統(tǒng)說話人識別中廣泛使用的GMM模型作為對比實驗,其中GMM模型使用與DTW算法相同的編碼流特征。
   圖4給出基于DTW識別方法與GMM模型(混元數(shù)64)識別G.729編碼方案863語料庫的文本相關(guān)說話人的誤識率對比圖。橫坐標(biāo)代表的測試語音的時長,縱坐標(biāo)代表識別誤識率。由實驗結(jié)果可知在文本相關(guān)的說話人識別中,基于DTW算法的識別率在絕大多數(shù)情況下高于GMM模型,且隨著測試語音的增長,優(yōu)勢更明顯。

 為比較特征提取的時間性能和總的時間性能,實驗條件如下:
   (1)選擇的50個說話人的語音只進行特征提取,測試語音長度總和在25 min左右;
   (2)對測試語音分別進行解碼識別和編碼流的識別,模板數(shù)為10個;
   (3)微機配置為:CPU Pentium 2.0 GHz,內(nèi)存512 MB。
   表1為特征提取時間比較結(jié)果,表2為說話人識別時間比較結(jié)果。

 由實驗結(jié)果可以看出,在編碼比特流中進行特征提取時間和識別的(上接第121頁)時間都遠(yuǎn)小于解碼重建后的語音特征提取時間和識別時間,滿足實時說話人識別的需要。
    在文本相關(guān)的說話人識別中,對比使用同樣G.729壓縮碼流特征的GMM模型, DTW方法的識別率和處理效率均高于GMM模型,能夠?qū)崟r應(yīng)用于VoIP網(wǎng)絡(luò)監(jiān)管中。
參考文獻
[1]  石如亮.編碼域說話人識別技術(shù)研究[D].鄭州:解放軍信息工程大學(xué),2007.
[2]  PETRACCA M, SERVETTI A, DEMARTIN J C. Performance analysis of compressed-domain automatic speaker recognition as a function of speech coding technique and  bit rate [A]. In: International Conference on Multimedia and Expo (ICME) [C]. Toronto,Canada, 2006:1393-1396.
[3]  石如亮,李弼程,張連海,等. 基于編碼比特流的說話人識別[J].信息工程大學(xué)學(xué)報,2007,8(3): 323-326.
[4]  王炳錫,屈丹,彭煊.實用語音識別基礎(chǔ)[M].北京:國防工業(yè)出版社,2004: 264-286.
[5]  李邵梅,劉力雄,陳鴻昶.實時說話人辨別系統(tǒng)中改進的DTW算法[J].計算機工程,2008,34(4):218-219.
[6]  DUNN R B, QUATIERI T F, REYNOLDS D A. et al.  Speaker recognition from coded speech in matched and mismatched conditions [A]. In: Proc. Speaker Recognition Workshop’01 [C]. Grete, Greece, 2001:115-120.
[7]  AGGARWAL C C, OLSHEFSKI D, SAHA D et al. CSR: Speaker recognition from compressed VoIP packet stream [A]. In: International Conference on Multimedia and Expo (ICME) [C]. Amsterdam, Holand, 2005: 970-973.

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

摘要:如今配電網(wǎng)的電力電子化趨勢日益明顯,因此超高次諧波對配電網(wǎng)各種元件的影響引起了人們的重視,而超高次諧波產(chǎn)生的根源在于諧波源中的電力電子器件采用了脈寬調(diào)制技術(shù)。鑒于此,從拓?fù)浣Y(jié)構(gòu)、調(diào)制方式、控制策略出發(fā),建立了能反映...

關(guān)鍵字: 超高次諧波 模型 配電網(wǎng)

美國紐約州阿蒙克2022年10月20日 /美通社/ -- IBM(NYSE: IBM)發(fā)布 2022 年第三季度業(yè)績報告。 IBM 董事長兼首席執(zhí)行官 Arvind Kri...

關(guān)鍵字: IBM 軟件 BSP 云平臺

成都2022年10月19日 /美通社/ -- 近期,平安養(yǎng)老險積極籌備個人養(yǎng)老金的產(chǎn)品設(shè)計和系統(tǒng)開發(fā)工作,發(fā)展多樣化的養(yǎng)老金融產(chǎn)品,推動商業(yè)養(yǎng)老保險、個人養(yǎng)老金、專屬商業(yè)養(yǎng)老保險等產(chǎn)品供給。 搭養(yǎng)老政策東風(fēng) ...

關(guān)鍵字: 溫度 BSP 東風(fēng) 大眾

廣東佛山2022年10月19日 /美通社/ -- 空間是人居生活的基礎(chǔ)單元,承載著生存與活動的最基本功能。而對于理想空間的解構(gòu)意義卻在物理性容器之外,體現(xiàn)出人們對于空間和生活深層關(guān)系的思考,同時也塑造著人與空間的新型連接...

關(guān)鍵字: 溫度 BSP 智能化 進程

上海2022年10月19日 /美通社/ -- 10月17日晚間,安集科技披露業(yè)績預(yù)告。今年前三季度,公司預(yù)計實現(xiàn)營業(yè)收入7.54億元至8.33億元,同比增長60.24%至77.03%;歸母凈利潤預(yù)計為1.73億...

關(guān)鍵字: 電子 安集科技 BSP EPS

北京2022年10月19日 /美通社/ -- 10月18日,北京市經(jīng)濟和信息化局發(fā)布2022年度第一批北京市市級企業(yè)技術(shù)中心創(chuàng)建名單的通知,諾誠健華正式獲得"北京市企業(yè)技術(shù)中心"認(rèn)定。 北京市企業(yè)技...

關(guān)鍵字: BSP ARMA COM 代碼

北京2022年10月18日 /美通社/ -- 10月14日,國際數(shù)據(jù)公司(IDC)發(fā)布《2022Q2中國軟件定義存儲及超融合市場研究報告》,報告顯示:2022年上半年浪潮超融合銷售額同比增長59.4%,近5倍于...

關(guān)鍵字: IDC BSP 數(shù)字化 數(shù)據(jù)中心

上海2022年10月18日 /美通社/ -- 2022年9月5日,是首都銀行集團成立60周年的紀(jì)念日。趁著首都銀行集團成立60周年與首都銀行(中國)在華深耕經(jīng)營12年的“大日子”,圍繞作為外資金融機構(gòu)對在華戰(zhàn)略的構(gòu)想和業(yè)...

關(guān)鍵字: 數(shù)字化 BSP 供應(yīng)鏈 控制

東京2022年10月18日  /美通社/ -- NIPPON EXPRESS HOLDINGS株式會社(NIPPON EXPRESS HOLDINGS, INC.)旗下集團公司上海通運國際物流有限公司(Nipp...

關(guān)鍵字: 溫控 精密儀器 半導(dǎo)體制造 BSP

廣州2022年10月18日 /美通社/ -- 10月15日,第 132 屆中國進出口商品交易會("廣交會")于"云端"開幕。本屆廣交會上高新技術(shù)企業(yè)云集,展出的智能產(chǎn)品超過140,...

關(guān)鍵字: 中國智造 BSP 手機 CAN

消費電子

95875 篇文章

關(guān)注

發(fā)布文章

編輯精選

技術(shù)子站

關(guān)閉