未來語音識(shí)別技術(shù)的發(fā)展趨勢(shì)將會(huì)怎樣
掃描二維碼
隨時(shí)隨地手機(jī)看文章
(文章來源:CSDN)
語音識(shí)別主要趨于遠(yuǎn)場化和融合化的方向發(fā)展,但在遠(yuǎn)場可靠性還有很多難點(diǎn)沒有突破,比如多輪交互、多人噪雜等場景還有待突破,還有需求較為迫切的人聲分離等技術(shù)。新的技術(shù)應(yīng)該徹底解決這些問題,讓機(jī)器聽覺遠(yuǎn)超人類的感知能力。這不能僅僅只是算法的進(jìn)步,需要整個(gè)產(chǎn)業(yè)鏈的共同技術(shù)升級(jí),包括更為先進(jìn)的傳感器和算力更強(qiáng)的芯片。
單從遠(yuǎn)場語音識(shí)別技術(shù)來看,仍然存在很多挑戰(zhàn),包括:(1)回聲消除技術(shù)。由于喇叭非線性失真的存在,單純依靠信號(hào)處理手段很難將回聲消除干凈,這也阻礙了語音交互系統(tǒng)的推廣,現(xiàn)有的基于深度學(xué)習(xí)的回聲消除技術(shù)都沒有考慮相位信息,直接求取的是各個(gè)頻帶上的增益,能否利用深度學(xué)習(xí)將非線性失真進(jìn)行擬合,同時(shí)結(jié)合信號(hào)處理手段可能是一個(gè)好的方向。
(2)噪聲下的語音識(shí)別仍有待突破。信號(hào)處理擅長處理線性問題,深度學(xué)習(xí)擅長處理非線性問題,而實(shí)際問題一定是線性和非線性的疊加,因此一定是兩者融合才有可能更好地解決噪聲下的語音識(shí)別問題。(3)上述兩個(gè)問題的共性是目前的深度學(xué)習(xí)僅用到了語音信號(hào)各個(gè)頻帶的能量信息,而忽略了語音信號(hào)的相位信息,尤其是對(duì)于多通道而言,如何讓深度學(xué)習(xí)更好的利用相位信息可能是未來的一個(gè)方向。
(4)另外,在較少數(shù)據(jù)量的情況下,如何通過遷移學(xué)習(xí)得到一個(gè)好的聲學(xué)模型也是研究的熱點(diǎn)方向。例如方言識(shí)別,若有一個(gè)比較好的普通話聲學(xué)模型,如何利用少量的方言數(shù)據(jù)得到一個(gè)好的方言聲學(xué)模型,如果做到這點(diǎn)將極大擴(kuò)展語音識(shí)別的應(yīng)用范疇。這方面已經(jīng)取得了一些進(jìn)展,但更多的是一些訓(xùn)練技巧,距離終極目標(biāo)還有一定差距。
(5)語音識(shí)別的目的是讓機(jī)器可以理解人類,因此轉(zhuǎn)換成文字并不是最終的目的。如何將語音識(shí)別和語義理解結(jié)合起來可能是未來更為重要的一個(gè)方向。語音識(shí)別里的 LSTM 已經(jīng)考慮了語音的歷史時(shí)刻信息,但語義理解需要更多的歷史信息才能有幫助,因此如何將更多上下文會(huì)話信息傳遞給語音識(shí)別引擎是一個(gè)難題。
(6)讓機(jī)器聽懂人類語言,僅靠聲音信息還不夠,“聲光電熱力磁”這些物理傳感手段,下一步必然都要融合在一起,只有這樣機(jī)器才能感知世界的真實(shí)信息,這是機(jī)器能夠?qū)W習(xí)人類知識(shí)的前提條件。而且,機(jī)器必然要超越人類的五官,能夠看到人類看不到的世界,聽到人類聽不到的世界。