一文讀懂深度學習中的語音分離技術(shù)
由于語音分離已經(jīng)變成分類問題,所以語音分離也變得非常重要,已經(jīng)在信號處理領(lǐng)域被研究了幾十年,數(shù)據(jù)驅(qū)動的方法在語音處理領(lǐng)域也得到了廣泛研究。
語音分離的目標是把目標語音從背景干擾中分離出來。在信號處理中,語音分離屬于很基本的任務(wù)類型,應(yīng)用范圍很廣泛,包括聽力假體、移動通信、魯棒的自動語音以及說話人識別。人類聽覺系統(tǒng)能輕易地將一個人的聲音和另一個人的分離開來。即使在雞尾酒會那樣的聲音環(huán)境中,我們似乎也能毫不費力地在其他人的說話聲和環(huán)境噪聲的包圍中聽到一個人的說話內(nèi)容。因此語音分離問題通常也被叫做「雞尾酒會問題」(cocktail party problem),該術(shù)語由 Cherry 在他 1953 年那篇著名論文中提出。
人類最重要的交流方式就是語言,對我們來說,從背景干擾中分離出語音是至關(guān)重要的。感興趣的演講或者目標談話經(jīng)常被其它來源的多余噪聲和表面反射產(chǎn)生的混響所干擾。雖然人類能輕易地分離語音,但事實證明,在這項基本任務(wù)中,構(gòu)建一個能夠媲美人類聽覺系統(tǒng)的自動化系統(tǒng)是很有挑戰(zhàn)性的。在 Cherry 1953 年出版的書 中,他觀察到:「目前為止沒有任何機器能解決『雞尾酒會問題』。」很不幸的是,雖然本文提到的近期研究進展已經(jīng)開始解決這個問題,但在我們這個領(lǐng)域中,他的結(jié)論一直保持了60 多年的正確性。
語音分離非常重要,已經(jīng)在信號處理領(lǐng)域被研究了幾十年。根據(jù)傳感器或麥克風的數(shù)量,分離方法可分為單聲道方法(單個麥克風)和陣列方法(多個麥克風)。單聲道分離的兩個傳統(tǒng)方法是語音增強 和計算聽覺場景分析(CASA)。語音增強方法分析語音和噪聲的全部數(shù)據(jù),然后經(jīng)過帶噪語音的噪聲估計,進而對清晰語音進行估計。最簡單以及應(yīng)用最廣泛的增強方法是頻譜相減法(spectral subtracTIon),其中估計噪聲的功率譜會從帶噪語音中刪去。為了估計背景噪聲,語音增強技術(shù)一般假定背景噪音是穩(wěn)定的,也就是說,其頻譜特性不會隨時間變化,或者至少比語音穩(wěn)定一些。CASA 建立在聽覺場景分析的感知理論基礎(chǔ)上,利用聚類約束(grouping cue)如基音頻率(pitch)和起音(onset)。例如,tandem 算法通過交換 pitch 估計和基于 pitch 的聚類進行語音分離 。
由兩個或更多的麥克風組成的陣列使用不同的語音分離方法。波束成形,或者說空間濾波器,通過恰當?shù)年嚵薪Y(jié)構(gòu)增強從特定的方向到達的信號,進而削減來自其它方向的干擾 。最簡單的波束成形是一種延遲-疊加技術(shù),能將來自目標方向的多個麥克風的信號以相同的相位相加,并根據(jù)相差削減來自其它方向的信號。噪聲的削減量取決于陣列的間隔、尺寸和結(jié)構(gòu),通常隨著麥克風數(shù)量和陣列長度的增加,削減量也會增加。顯然,當目標源和干擾源被共置,或者很靠近的時候,空間濾波器是無法應(yīng)用的。此外,在回聲場景中,波束成形的效用大幅降低,對聲源方向的判定變得模糊不清。
一種最近提出的方法將語音分離當作一個監(jiān)督學習問題。監(jiān)督語音分離的最初形成受 CASA 中時頻掩膜(TIme-frequency (T-F) masking)概念的啟發(fā)。CASA 的主要目標是理想二值掩膜(ideal binary mask,IBM),表示目標信號是否控制混合信號時頻表示中的一個 T-F 單元。聽力研究顯示,理想二值掩膜能夠顯著提高正常聽力者(NH)和聽力受損者(HI)在嘈雜環(huán)境中的語音理解能力。以 IBM 作為計算目標,則語音分離變成了二值分類問題,這正是監(jiān)督學習的一種基本形式。在這種情況下,IBM 被當做訓練中的目標信號或目標函數(shù)。在測試中,學習機器的目的就是估計 IBM,這也是監(jiān)督語音分離的第一訓練目標。
由于語音分離已經(jīng)變成分類問題,因此數(shù)據(jù)驅(qū)動的方法在語音處理領(lǐng)域得到了廣泛研究。在過去的十年內(nèi),通過運用大型訓練數(shù)據(jù)和增加計算資源,監(jiān)督語音分離大幅提高了最先進性能。監(jiān)督分離從深度學習的發(fā)展中受益良多,這也是本文的主題。監(jiān)督語音分離算法可以大體上分為以下幾個部分:學習機器、訓練目標和聲學特征。本文,我們首先回顧這三個部分。然后介紹代表性算法,包括單聲道方法和基于陣列的算法。泛化作為監(jiān)督語音分離的特有議題,也將在本文中進行討論。
為避免混淆,我們需要厘清本文使用的幾個相關(guān)術(shù)語。speech separaTIon 或 speech segregaTIon(語音分離)都指從背景干擾(可能包括非語音噪聲、干擾語音,或者都有,以及室內(nèi)混響)中分離目標語音的任務(wù)。此外,「雞尾酒會問題」(cocktail party problem)也指語音分離(speech separation)。語音增強或去噪(speech enhancement or denoising)指語音和非語音噪聲的分離。如果是多個說話人的語音分離問題,我們使用術(shù)語「多說話人分離」(speaker separation)。
圖 1. 對混合了 -5 dB SNR 工廠噪聲的 TIMIT 音頻數(shù)據(jù)使用不同訓練目標圖示。
圖 2. 使用不同訓練目標的訓練結(jié)果比較。(a)STOI。(b)PESQ。分別用清晰語音混合信噪比為-5dB、0dB、5dB 的工廠噪聲?! ?/p>
圖 3. DNN 進行特征學習的圖示,使用線性 SVM 對學得的特征進行 IBM 值估計 。
圖 4. 用于語音分離的二階 DNN(two-stage DNN)的圖示 。
圖 5. 語音增強中基于 DNN 的頻譜映射方法圖示 。
圖 6. 配置自動編碼器以進行無監(jiān)督調(diào)試的語音增強 DNN 架構(gòu)。AE 堆疊在 DNN 的頂部作為純度檢測器,估計來自 DNN 的清晰語音。
圖 7. 基于 LSTM 的語音分離系統(tǒng)的結(jié)構(gòu)展示 。
圖 8. 前饋 DNN 和基于 LSTM 的 RNN 的 STOI 改進。(a)信噪比為-5dB 的經(jīng)訓練說話人的結(jié)果。(b)信噪比為-5dB 的未訓練說話人的結(jié)果。
圖 9. 基于頻譜映射的語音混響削減 DNN 圖示 [45]。
圖 10. 語音混響削減的混響時間響應(yīng) DNN 結(jié)構(gòu)圖示
圖 11. 基于 DNN 的兩個說話人分離方法圖示。
圖 12. 聽力正常者和聽力受損者傾聽混合干擾語句的目標語句并將目標語句從中分離出來時的平均清晰度得分和標準偏差 。圖中展示了四種不同目標-干擾比率的正確率百分比結(jié)果。
圖 14. 雙聲道分離算法的結(jié)構(gòu)圖示。
圖 15. 單聲道掩膜估計的 MVDR 波束成形器。