目前的語音識別和NLP技術(shù)仍然不夠成熟
(文章來源:中國安防展覽網(wǎng))
智能語音語義包含語音合成、語音識別和自然語言處理(NLP)叁項主要技術(shù)。
語音合成技術(shù)發(fā)展早,應(yīng)用已較為普遍,除了合成音仍偏機(jī)械之外,基本不存在太大技術(shù)問題;語音識別在2012年卷積神經(jīng)網(wǎng)絡(luò)(CNN)應(yīng)用之后,準(zhǔn)確率大幅提升,已經(jīng)在C端、B端得到了廣泛應(yīng)用,但效果和體驗(yàn)還不夠理想;NLP技術(shù)雖然在搜索引擎中早有應(yīng)用,但在人機(jī)交互領(lǐng)域仍屬于淺層處理。
在生物學(xué)中,有個術(shù)語叫做“魯棒性”,是指系統(tǒng)在擾動或不確定的情況下,仍能保持它的特征行為。這一問題在語音識別領(lǐng)域也存在。
語音識別整個過程包含語音信號處理、靜音切除、聲學(xué)特征提取、模式匹配等多個環(huán)節(jié)。由于語音信號的多樣性和復(fù)雜性,系統(tǒng)只能在一定限制條件下才能獲得滿意效果。在真實(shí)使用場景中,考慮到遠(yuǎn)場、方言、噪音、斷句等問題,準(zhǔn)確率會大打折扣。目前業(yè)內(nèi)普遍宣稱的97%識別準(zhǔn)確率,更多的是人工測評結(jié)果,只在安靜室內(nèi)的進(jìn)場識別中才能實(shí)現(xiàn)。
要解決語音識別魯棒性問題,需要在技術(shù)和產(chǎn)品兩方面進(jìn)行優(yōu)化。一方面,在語音增強(qiáng)、麥克風(fēng)陣列以及說話人分離等多項技術(shù)領(lǐng)域持續(xù)投入,并結(jié)合后端語義,促進(jìn)對上下文的理解,從而提升識別效果;另一方面,需要從產(chǎn)品設(shè)計上進(jìn)行優(yōu)化,比如通過進(jìn)一步交互,使語音識別變得更為準(zhǔn)確。
NLP技術(shù)大致包含叁個層面:詞法分析、句法分析、語義分析,叁者之間既遞進(jìn)又相互包含。
詞義消歧是NLP技術(shù)的大瓶頸。機(jī)器在切詞、標(biāo)注詞性、并識別完后,需要對各個詞語進(jìn)行理解。由于語言中往往一詞多義,人在理解時會基于已有知識儲備和上下文環(huán)境,但機(jī)器很難做到。雖然系統(tǒng)會對句子做句法分析,可以在一定程度上幫助機(jī)器理解詞義和語義,但實(shí)際情況并不理想。
目前,機(jī)器對句子的理解還只能做到語義角色標(biāo)注層面,即標(biāo)出句中的句子成分和主被動關(guān)系等,它屬于比較成熟的淺層語義分析技術(shù)。未來要讓機(jī)器更好地理解人類語言,并實(shí)現(xiàn)自然交互,還是需要依賴深度學(xué)習(xí)技術(shù),通過大規(guī)模的數(shù)據(jù)訓(xùn)練,讓機(jī)器不斷學(xué)習(xí)。當(dāng)然,在實(shí)際應(yīng)用領(lǐng)域中,也可以通過產(chǎn)品設(shè)計來減少較為模煳的問答內(nèi)容,以提升用戶體驗(yàn)。
由于人工智能技術(shù)對數(shù)據(jù)依賴性極高,因此,這一領(lǐng)域的技術(shù)進(jìn)步和產(chǎn)業(yè)化推進(jìn)是一種協(xié)同關(guān)系——通過工程化的方法提升技術(shù)效果和體驗(yàn),從而促進(jìn)產(chǎn)業(yè)化應(yīng)用,再根據(jù)實(shí)際應(yīng)用中的數(shù)據(jù)和反饋,反過來推動技術(shù)實(shí)現(xiàn)突破。