醫(yī)療智能語音識別系統(tǒng)的研發(fā)與應(yīng)用
掃描二維碼
隨時(shí)隨地手機(jī)看文章
(文章來源:中國數(shù)字醫(yī)學(xué))
結(jié)合語音識別技術(shù)構(gòu)建醫(yī)療智能語音識別系統(tǒng),達(dá)到減輕醫(yī)護(hù)人員日常工作負(fù)擔(dān),減少重復(fù)性勞動(dòng),提高診療質(zhì)量的目的。基于語音識別的關(guān)鍵技術(shù)和海量的醫(yī)療數(shù)據(jù),開發(fā)電子病歷與檢查報(bào)告智能語音錄入、移動(dòng)護(hù)理智能語音錄入、非接觸式智能語音數(shù)據(jù)交互系統(tǒng)。通過開發(fā)的系統(tǒng),實(shí)現(xiàn)病歷信息快速錄入和輸出,減輕了醫(yī)生的工作強(qiáng)度,將醫(yī)護(hù)人員的時(shí)間集中在治療過程本身,提高工作效率與質(zhì)量。根據(jù)臨床科室、醫(yī)技科室的實(shí)際工作特點(diǎn),提供操作便捷、實(shí)用高效的語音識別應(yīng)用工具,輔助臨床工作,提高醫(yī)療效率,創(chuàng)新醫(yī)療模式。
伴隨全球醫(yī)療信息化技術(shù)的突飛猛進(jìn),如何提高患者病歷信息錄入的效率、降低難度,提高準(zhǔn)確度成為當(dāng)前研究的熱點(diǎn)。同時(shí)利用語音技術(shù)實(shí)現(xiàn)醫(yī)療領(lǐng)域人機(jī)交互,讓機(jī)器聽懂人的語言并給出正確的反饋,也是目前非接觸式智能交互的研究熱點(diǎn)之一。當(dāng)前,國內(nèi)外的相關(guān)機(jī)構(gòu)已認(rèn)識到醫(yī)療和語音識別相關(guān)技術(shù)深度結(jié)合的重要性,伴隨著相關(guān)資本的涌入等多因素驅(qū)動(dòng)下,全世界各地的醫(yī)療智能語音產(chǎn)業(yè)正發(fā)生翻天覆地的變化。
國外醫(yī)療智能語音的發(fā)展現(xiàn)狀世界上第一個(gè)語音體系化規(guī)模化研究起源于20世紀(jì)50年代的貝爾實(shí)驗(yàn)室,該實(shí)驗(yàn)室研發(fā)的Audry系統(tǒng),實(shí)現(xiàn)可識別十個(gè)英文字母,是初步具備語音識別功能的系統(tǒng)。20世紀(jì)90年代前期,許多有技術(shù)實(shí)力的公司都開始對語音識別系統(tǒng)的實(shí)用化應(yīng)用,投入大量的人力物力,到了90年代中后期,整個(gè)語音識別體系的準(zhǔn)確率得到大幅優(yōu)化,例如ViaVoice平臺、Dragon平臺、Naturally Speaking平臺、Nuance Voice Platform語音平臺等。最近幾年,巨頭們開始加速布局語音識別行業(yè),蘋果、Google、Facebook、微軟等相繼收購SayNow、Phonetic Arts、Skype、Cortana等技術(shù)公司,做強(qiáng)語音識別功能與應(yīng)用。
我國醫(yī)療智能語音的發(fā)展現(xiàn)狀我國語音識別研究也是開始于上世紀(jì)50年代,隨著科學(xué)技術(shù)實(shí)力的進(jìn)步,語音識別技術(shù)發(fā)展很快,已逐步走向?qū)嵱玫碾A段。目前,我國語音識別相關(guān)的技術(shù)基本上與國外的技術(shù)處在同一檔次,尤其在漢語識別方面已達(dá)到國際先進(jìn)水平。清華大學(xué)研發(fā)的非特定人漢語數(shù)碼串連續(xù)語音識別系統(tǒng)的識別精度,已達(dá)到95%,中科院自動(dòng)化所于2002年推出的PattekASR產(chǎn)品,結(jié)束了漢語語音識別技術(shù)一直由國外壟斷的現(xiàn)狀,具有劃時(shí)代的意義。除此之外,科大訊飛、云知聲、百度語音、出門問問、思必馳等公司也成為了國內(nèi)智能語音的支柱企業(yè)。
西南醫(yī)院醫(yī)療語音的應(yīng)用,是基于海量的醫(yī)學(xué)文本數(shù)據(jù),結(jié)合已建立的醫(yī)療大數(shù)據(jù)軟、硬件平臺,利用云計(jì)算、大數(shù)據(jù)和機(jī)器學(xué)習(xí)等技術(shù)進(jìn)行大規(guī)模的訓(xùn)練,定制符合醫(yī)療應(yīng)用場景的醫(yī)學(xué)語音識別模型。醫(yī)院智能語音系統(tǒng)采取分布式架構(gòu),可以將一個(gè)大的任務(wù)分解成多個(gè)小任務(wù)并行處理,提高了語音識別的整體性能,精簡了語音服務(wù)流程,給用戶更好的體驗(yàn)及服務(wù),形成可應(yīng)用在診療過程中的智能語音識別系統(tǒng)及工具。
構(gòu)建具有醫(yī)院特色的醫(yī)學(xué)語音資料庫語音數(shù)據(jù)庫的一部分語音資源是收集、整理現(xiàn)有的醫(yī)療語音數(shù)據(jù),包括基礎(chǔ)語音數(shù)據(jù)、醫(yī)學(xué)語音數(shù)據(jù)、相關(guān)醫(yī)學(xué)數(shù)據(jù)庫中的音頻資源及其他醫(yī)療機(jī)構(gòu)的語音數(shù)據(jù);另一部分是收集、整理我院現(xiàn)有的海量醫(yī)療文本,主要包括臨床電子病歷、檢查報(bào)告、各種記錄等,將文本信息標(biāo)注成漢語拼音,并進(jìn)行存儲。
融合語音識別處理技術(shù)運(yùn)用下列技術(shù)先對采集的語音信號進(jìn)行預(yù)處理,這些技術(shù)包括語音信號數(shù)字化及數(shù)字編碼、語音檢測技術(shù)、語音信號特征參數(shù)的提取。其中,語音信號數(shù)字化及數(shù)字編碼是將自然語言模擬信號轉(zhuǎn)變成數(shù)字信號,同時(shí)對語音信號數(shù)據(jù)編碼壓縮,減少數(shù)據(jù)大小,減小反應(yīng)時(shí)間,提高服務(wù)效率。
語音檢測技術(shù)主要實(shí)現(xiàn)從連續(xù)采樣得到的數(shù)字信號中檢測出語音信號段和噪聲段,判斷用戶語音的開始和結(jié)束,從而得到有效的語音信息。語音信號特征參數(shù)的提取,目的是通過特征提取,將語音轉(zhuǎn)化為隨時(shí)間變化的語音特征矢量序列,語音識別引擎對該語音特征矢量分析,從而解決口音識別問題。
建立具有自主學(xué)習(xí)能力的語義庫語義庫構(gòu)建包括如下三個(gè)步驟:醫(yī)療語音模型的建立、語義理解規(guī)則的構(gòu)建、個(gè)性化數(shù)據(jù)優(yōu)化。其中,醫(yī)療語音模型是基于隱馬爾可夫模型對語音資料庫進(jìn)行語音訓(xùn)練,定制化處理我院的醫(yī)療信息,形成覆蓋各應(yīng)用場景的信息語音模型。語義理解規(guī)則是結(jié)合海量通用文本數(shù)據(jù),大量醫(yī)療文本數(shù)據(jù)及歷史醫(yī)療數(shù)據(jù)訓(xùn)練語言模型,并做深度自適應(yīng)優(yōu)化,形成的我院的語義規(guī)則。個(gè)性化數(shù)據(jù)優(yōu)化,是針對我院的數(shù)據(jù),通過深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)技術(shù),對文本資料在現(xiàn)有專業(yè)的語音庫中進(jìn)行深度學(xué)習(xí),以提升個(gè)性化數(shù)據(jù)的準(zhǔn)確率。