亞馬遜Alexa新算法:無需重新訓練模型,讓AI輕松善解人意
導語:Alexa的“隱式調用”功能將有可能通過CoNDA技術直接添加到技能商店,而無需浪費時間重頭訓練模型。
智東西5月5日消息,據(jù)外媒報道,Alexa最近獲得了亞馬遜所謂的“隱式調用”(name-free skill interaction)功能,這使得它能夠解析未明確指出的第三方語音應用的請求意圖。例如,向Alexa發(fā)出指令:“Alexa,給我一輛車”,你不必指定網(wǎng)約車服務的提供商,它可能就會打開Uber、Lyft或其他一些乘車服務。
但正如Alexa AI研究部門的科學家所說,這并不像看上去那么簡單,因為每次將新技能添加到Alexa技能商店時,理想情況下需要從頭開始重新訓練將話語映射成技能(被稱為“SHORTLISTER”)的人工智能系統(tǒng),這需要重新訓練所有的原始訓練數(shù)據(jù),以及與任何新技能相關的數(shù)據(jù)。而Alexa僅在過去一年就增加了數(shù)萬項新技能,如果神經網(wǎng)絡要定期更新,這種做法將非常耗時且不切實際。
幸運的是,在今年新奧爾良舉辦的國際計算語言學協(xié)會(ACL,The AssociaTIon for ComputaTIonal LinguisTIcs)北美分會上,Alexa的研究團隊發(fā)表的一篇新論文(《ConTInuous Learning for Large-scale Personalized Domain Classification》)中,研究人員提出了一種省力的替代方案CoNDA(連續(xù)神經預適應,Continuous Neural Domain Adaptation)技術。它需要“凍結”AI模型的設置,并添加適應新技能的新網(wǎng)絡節(jié)點,然后僅在與新技能相關的數(shù)據(jù)上訓練這些被添加的節(jié)點。
研究人員報告說,在涉及900項技能的訓練數(shù)據(jù)集和100項新技能的再訓練數(shù)據(jù)集的實驗中,表現(xiàn)最佳的SHORTLISTER版本(總共六個版本)在現(xiàn)有技能上達到88%的準確率,僅比從頭開始重新訓練的模型的準確率低3.6%。
一、讓AI理解人類的隱含意思有多難?重頭訓練模型太麻煩
有時候,人們說一句話不會說全,這個時候聽者怎么執(zhí)行就要靠悟性。
人們常說會看眼色行事是高情商的表現(xiàn),那么機器可以說是低情商的典型,往往只能呆板的執(zhí)行明確的指令,“猜”不出人們話語中的引申義。
要讓機器猜透你的所思所想,那可是相當不容易的一件事,它需要建立一個將人的口頭語映射到智能個人數(shù)字助理中(IPDA)的自然語言理解(NLU)領域任務的神經網(wǎng)絡,這個過程叫做域分類(Domain classification)。這是主流IPDA行業(yè)的主要組成部分。
域是智能個人數(shù)字助理中對天氣、日歷或音樂等特定的應用或功能的定義。例如,用戶對Alexa說“我要用優(yōu)步搭車”,相應的域就會調用“Uber”應用程序。除官方域名外,外部開發(fā)人員還會創(chuàng)建數(shù)千個第三方域名來提升IPDA的能力。
每當讓AI掌握一個新的“引申義”(即增加一個新域),就意味著需要更新這個網(wǎng)絡。
傳統(tǒng)上IPDA只支持數(shù)十個分離良好的域名,為了增加域名覆蓋范圍并擴展IPDA的功能,主流IPDA發(fā)布了允許第三方開發(fā)人員構建新域的工具。Amazons Alexa Skills Kit,Googles Actions和Microsofts Cortana Skills Kit就是這樣的例子工具。而且,為了應對新域的涌入,已經提出了像SHORTLISTER這樣的大規(guī)模域分類方法,并取得了良好的效果。
隨著越來越多的新域名迅速發(fā)展,大規(guī)模域名分類的主要挑戰(zhàn)之一是在不會失去已知預測能力的情況下如何快速適應新域,一個直截了當?shù)慕鉀Q方案是,從頭開始訓練網(wǎng)絡,重新訓練所有的原始訓練數(shù)據(jù),以及所有和新技能相關的數(shù)據(jù)。
而Alexa僅在過去一年就增加了數(shù)萬項技能,如果每增加一個新技能都重新訓練一遍網(wǎng)絡,那將費時費力又浪費資源。
為了解決這一問題,提出了一種高效地更新系統(tǒng)使之適應新技能的解決方案連續(xù)神經域適應CoNDA(Continuous Neural Domain Adaptation)。
他們用900個域作為初始訓練數(shù)據(jù)集,用另外100個新域作為測試集,一共測試了6個不同版本的神經網(wǎng)絡。
經過大量的實驗,結果證明CoNDA在新域和現(xiàn)有域的測試精度都非常高,100個新域的平均預測準確率達到95.6%,并且在100個新域之后的所有域上累計準確率達到88.2%。表現(xiàn)遠遠超過baseline。
二、CoNDA技術只針對新技術進行數(shù)據(jù)訓練
研究人員的方法依賴于嵌入(embeddings),嵌入將數(shù)據(jù)表示為固定大小的向量(坐標序列),坐標序列定義了多維空間中的點,在多為空間中具有相似屬性的項目彼此分組。為了提高效率,嵌入層存儲在大型索引表中并在運行時加載。
像Shortlister這樣的機器學習模型包括多個互相聯(lián)接的功能層,每個層由簡單的節(jié)點(或稱為“神經元”組成,節(jié)點之間的連接有關聯(lián)的權重,訓練神經網(wǎng)絡主要就是調整這些權重。
研究人員介紹了CoNDA技術,它是無名域名分類的最新技術Shortlister的變種。Shortlister有三個主要模塊。
第一個模塊用于生成表示Alexa用戶指令的向量,使用嵌入曾來表示用戶已啟用的所有技能(通常在10個左右)。
第二個模塊生成啟用技能的單一摘要向量,其中一些技能在話語向量的基礎上進行額外的強調。
第三個模塊將輸入(用戶話語,結合啟用技能信息)和輸出(技能分配)映射到同一向量空間,并根據(jù)他們應該執(zhí)行客戶請求的可能性來生成技能的候選名單。
第二個網(wǎng)絡被稱之為HypRank(假設排名,hypothesis ranker),它根據(jù)更細粒度的上下文信息來細化該列表。
為了提高效率,研究人員將技能嵌入存儲在一個大型查找表中。當有新技能被添加到Shortlister時,嵌入表會添加相應的一行,而所有其他嵌入保持不變。
類似地,Shortlister的輸出層由單行節(jié)點組成,每個節(jié)點對應于一個技能,每添加一項技能,將在該行擴展一個節(jié)點,每個添加的節(jié)點都連接到其下層中的所有節(jié)點。
接下來,凍結所有網(wǎng)絡連接的權重(除了新技能對應的輸出節(jié)點的權重),然后僅針對與技能相關的數(shù)據(jù)訓練新的嵌入和節(jié)點。
第三個模塊的映射即標準化過程,將矢量長度規(guī)范到統(tǒng)一空間。但當神經網(wǎng)絡在新數(shù)據(jù)上重新訓練時,新的向量往往不會經歷這種標準化過程。重新訓練的網(wǎng)絡可以簡單地通過使其矢量比其他所有數(shù)據(jù)更長,來確保新訓練數(shù)據(jù)的良好性能。
類似地,當神經網(wǎng)絡學習新技能的嵌入時,也可以通過使新技能的向量比其他技能更長來提高性能。為了防止“災難性遺忘”(catastrophic forgetting),在訓練期間,Shortlister評估新技能的嵌入不僅僅考慮整個網(wǎng)絡對新數(shù)據(jù)的分類程度,還考慮其與現(xiàn)有嵌入的一致性。
此外,研究人員們還用另一種技術來防止災難性遺忘,除了加上新技能的數(shù)據(jù)重新訓練網(wǎng)絡外,他們還從每個現(xiàn)有的代表性技能中提取小數(shù)據(jù)樣本,因為它們最能代表各自的數(shù)據(jù)集。
結語:CoNDA技術將有助于語音助手更善解人意
通過CoNDA技術為IPDA添加新技能的時候,無需進行耗時的再培訓,而是通過“凍結”AI模型的設置,添加適應新技能的新組件,并僅用與其相關的數(shù)據(jù)訓練這些新組件。
此項技術如果能不斷成熟并被推廣,語音助手將能更快更好地理解用戶的指令,變得更加善解人意。