當(dāng)前位置：首頁 > 嵌入式 > 嵌入式軟件

基于Julius的機器人語音識別系統(tǒng)構(gòu)建

時間：2011-08-17 05:39:04

關(guān)鍵字：機器人語音識別系統(tǒng) 系統(tǒng)構(gòu)建 BSP

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀]基于Julius的機器人語音識別系統(tǒng)構(gòu)建

摘要：隨著機器人技術(shù)不斷發(fā)展，本文提出機器人的語音識別這一智能人機交互方式。在研究了基于HMM語音識別基本原理的情況下，在實驗室的機器人平臺上，利用HTK和Julius開源平臺，構(gòu)建了一個孤立詞的語音識別系統(tǒng)。利用該語音識別系統(tǒng)可以提取語音命令用于機器人的控制。
關(guān)鍵詞：機器人；語音識別；HMM；HTK；Julius

引言
    隨著現(xiàn)代科技和計算機技術(shù)的不斷發(fā)展，人們在與機器的信息交流中，需要一種更加方便、自然的交互方式，實現(xiàn)人機之間的語音交互，讓機器聽懂人話是人們夢寐以求的事情。語音識別技術(shù)的發(fā)展，使得這一理想得以實現(xiàn)，把語音識別技術(shù)與機器人控制技術(shù)相結(jié)合，正成為目前研究的熱點，不但具有較好的理論意義，而且有較大的實用價值。
    語音識別技術(shù)應(yīng)用于機器人系統(tǒng)大多是針對特定的環(huán)境，設(shè)計出語音命令來進行控制的。只需要對幾十個字或詞的命令行進語音識別，便可使得原本需要手工操作的工作由語音輕松完成。本文針對現(xiàn)有機器人平臺，設(shè)計一個非特定人的孤立詞語音識別系統(tǒng)。

1 語音識別原理及JuliUS簡介
1．1 基于HMM的語音識別原理
    語音識別系統(tǒng)是一種模式識別系統(tǒng)，系統(tǒng)首先對語音信號進行分析，得到語音的特征參數(shù)，然后對這些參數(shù)進行處理，形成標(biāo)準(zhǔn)的模板。這個過程稱為訓(xùn)練或?qū)W習(xí)。當(dāng)有測試語音進入系統(tǒng)時，系統(tǒng)將對這些語音信號進行處理，然后進行參考模板的匹配，得出結(jié)果。此時便完成了語音識別的過程。
    目前，HMM作為語音信號的一種統(tǒng)計模型，是語音識別技術(shù)的主流建模方法，正在語音處理各個領(lǐng)域中獲得廣泛的應(yīng)用?，F(xiàn)在許多商用語音軟件，以及各種具有優(yōu)良性能的語音識別系統(tǒng)，都是在此模型上開發(fā)的，已經(jīng)形成了完整的理論框架。
    基于HMM模式匹配算法的語音識別系統(tǒng)表現(xiàn)為：在訓(xùn)練階段，采用HMM訓(xùn)練算法為每一個詞條建立一個HMM模型。詞條經(jīng)過反復(fù)訓(xùn)練后，將得到的對應(yīng)HMM模型加入HMM模型庫中以數(shù)據(jù)的形式保存。在匹配階段，也就是識別階段，采用HMM匹配算法將輸入的未知語音信號與訓(xùn)練階段得到的模型庫中的模型進行匹配，輸出語音識別的結(jié)果。
1．2 JuliUS簡介
    Julius是日本京都大學(xué)和日本IPA(Information-tech-nology Promotion Agency)聯(lián)合開發(fā)的一個實用高效雙通道的大詞匯連續(xù)語音識別引擎。目前已經(jīng)能較好地應(yīng)用于日語和漢語的大詞匯量連續(xù)的語音識別系統(tǒng)。Julius由純C語言開發(fā)，遵循GPL開源協(xié)議，能夠運行在Lin-ux、Windows、Mac：OS X、Solaris以及其他Unix平臺。Julius最新的版本采用模塊化的設(shè)計思想，使得各功能模塊可以通過參數(shù)配置。
    Julius的運行需要一個語言模型和一個聲學(xué)模型。利用Julius，通過結(jié)合語言模型和聲學(xué)模型，可以很方便地建立一個語音識別系統(tǒng)。語言模型包括一個詞的發(fā)音字典和語法約束。Julius支持的語言模型包括：N-gram模型，以規(guī)則為基礎(chǔ)的語法和針對孤立詞識別的簡單單詞列表。聲學(xué)模型必須是以分詞為單位且由HMM定義的。
    應(yīng)用程序可以有兩種方式與Julius交互：一種是基于套接字的服務(wù)器一客戶端通信方式，另一種是基于函數(shù)庫的嵌入方式。在這兩種情況下，要識別過程結(jié)束，識別結(jié)果就被送入應(yīng)用程序中，應(yīng)用程序就能得到Julius引擎的現(xiàn)有狀態(tài)和統(tǒng)計，并可以操作官。Julius概述如圖1所示。

[!--empirenews.page--]
2 系統(tǒng)框架
2．1 硬件結(jié)構(gòu)
在語音識別的機器狗控制系統(tǒng)中Atom Z510為訓(xùn)練學(xué)習(xí)機大腦(1．1 GHz主頻的Intel Atom Z510嵌入式控制平臺)，它主要完成語音識別的功能。PXA270控制器(Intel公司于2003年底推出的性能強勁的PXA27x系列嵌入式處理器，基于ARMv5E的XScale內(nèi)核，最高頻率可達(dá)624MHz)作為機器狗本體上的核心智能控制器，接收Atom Z510識別后的結(jié)果，發(fā)出控制命令。ATmega128控制器(Atmel公司的8位系列單片機中的一種，運行頻率16 MHz)完成基于串行總線的數(shù)字舵機控制，完成對機器狗的前后腿以及尾巴等關(guān)節(jié)控制。機器狗硬件結(jié)構(gòu)平臺如圖2所示。

2．2 軟件結(jié)構(gòu)
整個機器人系統(tǒng)包括3個模塊：Julius語音識別模塊、GUI人機界面、機器人控制模塊。Julius將識別的語音命令提交給GUI模塊，并在GUI上顯示；同時GUI將語音命令轉(zhuǎn)化為動作控制命令并發(fā)給機器人控制模塊；GUI還可以控制Julius的啟動和停止。其中機器人控制模塊主要在PXA270上，而語音識別和GUI是在Atom Z510上。系統(tǒng)軟件模型如圖3所示。

3 語音識別系統(tǒng)構(gòu)建
    一個完整的語音識別系統(tǒng)一般包括3部分：聲學(xué)模型、語言模型和識別器。在本系統(tǒng)中只建立基于控制命令(動詞)的識別語法，其他詞忽略，因此沒有構(gòu)建語言模型；識別器采用Julius開源平臺，此部分只用配置參數(shù)和相關(guān)文件。本文主要工作是聲學(xué)模型訓(xùn)練和語音識別系統(tǒng)構(gòu)建。
3．1 聲學(xué)模型訓(xùn)練
    聲學(xué)模型是識別系統(tǒng)的底層模型，是語音識別系統(tǒng)中最關(guān)鍵的一部分，它是每個聲學(xué)單元的聲學(xué)模型參數(shù)集合。本系統(tǒng)的聲學(xué)模型是使用HTK對采集的語音庫進行多次迭代訓(xùn)練后提取的，基于詞的聲學(xué)特征向量集。HTK(HMM Tools Kit)是由英國劍橋大學(xué)工程系的語音視覺和機器人技術(shù)工作組(Speech Vision and Robotics Group)開發(fā)，專門用于建立和處理HMM的實驗工具包，主要應(yīng)用于語音識別領(lǐng)域，也可用于語音模型的測試和分析。其具體訓(xùn)練步驟如下：
    (1)數(shù)據(jù)準(zhǔn)備
    收集漢語標(biāo)準(zhǔn)普通話的語料庫，并將語料庫中的語音標(biāo)記，創(chuàng)建語音識別單元元素列表文件。
    (2)特征提取
    本系統(tǒng)采用MFCC進行語音的特征參數(shù)提取，訓(xùn)練中將每一個語音文件用工具HCopy轉(zhuǎn)換成MFCC格式。
    (3)HMM定義
    在訓(xùn)練HMM模型時要給出模型的初始框架，本系統(tǒng)中的HMM模型選擇同一個結(jié)構(gòu)，如圖4所示。該模型包含4個活動狀態(tài){S2，S3，S4，S5)，開始和結(jié)束(這里是S1．S6)，是非發(fā)散狀態(tài)。觀察函數(shù)bi是帶對角矩陣的高斯分布，狀態(tài)的可能轉(zhuǎn)換由aij表示。[!--empirenews.page--]

(4)HMM訓(xùn)練
本系統(tǒng)先使用HInit工具對HMM模型進行初始化，再用HCompv工具來對模型進行平坦初始化。HMM模型的每個狀態(tài)給定相同的平均向量和變化向量，在整個訓(xùn)練集上全局計算而得。最后用HRest的多次估計迭代，估計出HMM模型參數(shù)的最佳值，經(jīng)多次迭代，將訓(xùn)練得到的單個HMM模型整合到一個hmmsdef．mmf文件中。聲學(xué)模型HTK訓(xùn)練流程如圖5所示。

3．2 Julius應(yīng)用
3．2．1 Julius部署
    在本系統(tǒng)中語音識別部分是部署在Atom Z510上，而Atom Z510上首先需要移植linux操作系統(tǒng)(本系統(tǒng)采用的是ubuntu8．10)以上步驟在此不詳細(xì)介紹，文獻(xiàn)中有詳細(xì)說明。語音識別的核心部分是Julius識別器，需要將Julius源碼編譯部署到Atom Z510平臺。其步驟如下：
    ①要確保linux系統(tǒng)中有以下支持庫：Zlib、flex、OSS音頻驅(qū)動接口、ESounD和libsndfile。
    ②從Julius官網(wǎng)下載源代碼Julius-4．1．5。
    ③解壓：tar-zxjf julius-4．1．5。
    ④編譯：％．／configure，％make，％make install。
3．2．2 Julius配置
    Julius全部采用C語言代碼實現(xiàn)，采用模塊化設(shè)計方式，而且各功能模塊可配置。在使用前需要將配置參數(shù)寫入jconf文件，此文件作為運行參數(shù)載入系統(tǒng)，系統(tǒng)掃描參數(shù)配置并啟動各功能塊。其中重點介紹以下幾個配置參數(shù)：
    ◆-dfa rtdog．dfa，指定語法文件rtdog．dfa；
    ◆-v rtdog．dict，指定字典文件；
    ◆-h rtdog．binhmm，指定HMM模型文件；
    ◆-lv 8000，設(shè)定音頻的閾值便于濾去噪音；
    ◆-rejectshort 600，設(shè)定最小的語音長度；
    ◆-input mic，設(shè)定語音的輸入方式為microphone。
3．3 語音識別系統(tǒng)軟件設(shè)計
3．3．1 GUI設(shè)計
    本系統(tǒng)為了方便測試，采用QT4的圖形庫來開發(fā)人機界面(GUI)，同時加入了手動控制的按鈕。其總體功能如圖6所示。通信線程是本系統(tǒng)的數(shù)據(jù)傳輸樞紐，十分重要。在QT中通過對線程類QThread繼承來實現(xiàn)新的線程設(shè)計。該類提供了創(chuàng)建一個新線程以及控制線程運行的各種方法。線程是通過QThread：：run()重載函數(shù)開始執(zhí)行的。在本系統(tǒng)中設(shè)計了1個數(shù)據(jù)通信線程，用它來不斷地讀取共享內(nèi)存中的語音命令，然后將其轉(zhuǎn)化為控制命令傳給機器人控制模塊。

[!--empirenews.page--]
3．3．2 模塊間通信
由于系統(tǒng)的3個模塊不在同一個平臺上部署，運行過程中需要進行數(shù)據(jù)通信。GUI和Julius都部署在Atom Z510平臺上，但屬于2個進程，它們之間可以通過共享內(nèi)存來交互數(shù)據(jù)。而GUI和機器人控制模塊就需要通過網(wǎng)絡(luò)通信來實現(xiàn)數(shù)據(jù)交互。這里采用的是基于TCP的socket編程接口來實現(xiàn)模塊間的通信，模塊間通信流程如圖7所示。

4 實驗測試
演示系統(tǒng)界面如圖8所示。本文使用大量的語音樣本來完成HTK的訓(xùn)練和模式構(gòu)建，語音樣本采用16 kHz采樣，16位量化。獨立的語音識別測試中，將訓(xùn)練集以及測試集中語音樣本和識別結(jié)果進行了對比分析。本文語音樣本的內(nèi)容包括訓(xùn)練集(語料庫中的語音成分)和測試集(本實驗中采集的語音)。由于本系統(tǒng)只用提取語音命令，不需要完整句子的識別，所以沒有針對句子做測試。

本文對于訓(xùn)練集基于詞的識別率為71．7％，測試集基于詞的識別率為56．5％，測試結(jié)果如表1所列。

    表中各符號所表示的意義如下所示：
    H，正確；S，替代錯誤；D，刪除錯誤；I，插入錯誤；N，標(biāo)記文件中單元總數(shù)；SENT，句子，WORD：基本單元。


結(jié)語
    本文在給定的實驗室機器人平臺上，設(shè)計了基于語音控制的機器狗系統(tǒng)。其中，語音識別子系統(tǒng)通過HTK和Julius的開源平臺構(gòu)建而成。經(jīng)過測試分析，該系統(tǒng)能夠較好地識別人發(fā)出的語音命令，簡化了機器人的操作，使機器與人的交互更加智能化。

本站聲明：本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點，本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系本站刪除。

換一批

武漢站告捷！慧聰品牌巡展掀起智能生態(tài)新篇

武漢2025年9月9日 /美通社/ -- 7月24日，2025慧聰跨業(yè)品牌巡展——湖北?武漢站在武漢中南花園酒店隆重舉辦！本次巡展由慧聰安防網(wǎng)、慧聰物聯(lián)網(wǎng)、慧聰音響燈光網(wǎng)、慧聰LED屏網(wǎng)、慧聰教育網(wǎng)聯(lián)合主辦，吸引了安防、...

關(guān)鍵字： AI 希捷 BSP 平板

[美通社全球TMT]

自研實力獲權(quán)威認(rèn)可：移遠(yuǎn)自研DynaBlue藍(lán)牙協(xié)議棧斬獲BQB 6.1認(rèn)證

上海2025年9月9日 /美通社/ -- 9月8日，移遠(yuǎn)通信宣布，其自研藍(lán)牙協(xié)議棧DynaBlue率先通過藍(lán)牙技術(shù)聯(lián)盟（SIG）BQB 6.1標(biāo)準(zhǔn)認(rèn)證。作為移遠(yuǎn)深耕短距離通信...

關(guān)鍵字：藍(lán)牙協(xié)議棧移遠(yuǎn)通信 COM BSP

[美通社全球TMT]

上海外服攜AI智能體求職助手"凌佳佳"亮相上海市第二屆人力資源服務(wù)業(yè)創(chuàng)新發(fā)展大會

上海2025年9月9日 /美通社/ -- 為全面落實黨中央、國務(wù)院和上海市委、市政府關(guān)于加快發(fā)展人力資源服務(wù)業(yè)的決策部署，更好發(fā)揮人力資源服務(wù)業(yè)賦能百業(yè)作用，8月29日，以"AI智領(lǐng) HR智鏈靜候你來&quo...

關(guān)鍵字：智能體 AI BSP 人工智能

[美通社全球TMT]

易生支付賦能"旗馭車管" 助力一汽出行構(gòu)建智能化車管平臺

北京2025年9月8日 /美通社/ -- 近日，易生支付與一汽出行達(dá)成合作，為其自主研發(fā)的"旗馭車管"車輛運營管理平臺提供全流程支付通道及技術(shù)支持。此次合作不僅提升了平臺對百余家企業(yè)客戶的運營管理效率...

關(guān)鍵字：一汽智能化 BSP SAAS

[美通社全球TMT]

晶泰科技助力智擎生技新一代"合成致死"新藥獲臨床實驗審批，AI 制藥再迎里程碑

深圳2025年9月8日 /美通社/ -- 晶泰科技（2228.HK）今日宣布，由其助力智擎生技制藥（PharmaEngine, Inc.）發(fā)現(xiàn)的新一代PRMT5抑制劑PEP0...

關(guān)鍵字：泰科 AI MT BSP

[廠商動態(tài)]

制造企業(yè)ESG通關(guān)“三策”：部署協(xié)作機器人的戰(zhàn)略價值

隨著中國綠色發(fā)展不斷深入，ESG(環(huán)境、社會、治理)已成為制造企業(yè)必須面對的議題。尤其在工業(yè)領(lǐng)域推進節(jié)能減碳、綠色轉(zhuǎn)型的背景下，ESG不再只是合規(guī)要求，更是企業(yè)競爭力的關(guān)鍵。2025年初，歐盟供應(yīng)鏈法案落地，中國出海制造...

關(guān)鍵字：機器人 ESG 3C電子

[貿(mào)澤電子]

貿(mào)澤電子與Molex攜手推出全新電子書分享用于先進機器人開發(fā)的專家設(shè)計解決方案

2025年9月4日 – 專注于引入新品的全球電子元器件和工業(yè)自動化產(chǎn)品授權(quán)代理商貿(mào)澤電子 (Mouser Electronics) 宣布與電子元器件制造商、連接器領(lǐng)域創(chuàng)新企業(yè)Molex合作推出全新互動電子書《The El...

關(guān)鍵字：機器人連接器傳感器

[Teledyne Technologies]

通過深度學(xué)習(xí)技術(shù)提升立體深度估計

立體深度估計在機器人技術(shù)、AR/VR和工業(yè)檢測中至關(guān)重要，它為諸如箱體拾取、自動導(dǎo)航和質(zhì)量控制等任務(wù)提供了精確的3D感知。Teledyne IIS的Bumblebee X立體相機既具備高精度，又能夠提供實時性能，能夠在1...

關(guān)鍵字：深度學(xué)習(xí) AR 機器人

[美通社全球TMT]

世界智能產(chǎn)業(yè)博覽會于重慶開幕，人工智能與新能源汽車成焦點

重慶2025年9月6日 /美通社/ -- iChongqing新聞報道：2025世界智能產(chǎn)業(yè)博覽會于9月5日在重慶開幕，550余家企業(yè)參展，展示了從自動駕駛和人工智能(AI)座艙到擴展現(xiàn)實(XR)影視和機器人咖啡廳的30...

關(guān)鍵字：人工智能新能源汽車 AI 機器人

[美通社全球TMT]

未來出行?智領(lǐng)交通----2025中國工博會-智行未來展將于上海舉辦

上海2025年9月5日 /美通社/ -- 由上海市經(jīng)濟和信息化委員會、上海市發(fā)展和改革委員會、上海市商務(wù)委員會、上海市教育委員會、上海市科學(xué)技術(shù)委員會指導(dǎo)，東浩蘭生（集團）有限公司主辦，東浩蘭生會展集團上海工業(yè)商務(wù)展覽有...

關(guān)鍵字：電子 BSP 芯片自動駕駛