達(dá)摩院基于元學(xué)習(xí)的對(duì)話系統(tǒng)

時(shí)間：2021-01-06 16:17:27

關(guān)鍵字：元學(xué)習(xí) 對(duì)話系統(tǒng) 達(dá)摩院

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]隨著科技的不斷進(jìn)步發(fā)展，智能對(duì)話系統(tǒng)因其巨大的潛力和商業(yè)價(jià)值將會(huì)成為下一代人機(jī)交互的風(fēng)口，不少公司都紛紛開(kāi)始研究人機(jī)對(duì)話系統(tǒng)，希望人與機(jī)器之間能夠通過(guò)自然對(duì)話進(jìn)行交互。

作者：戴音培, 黎航宇, 李永彬, 孫健

出品：阿里達(dá)摩院Conversational AI團(tuán)隊(duì)

導(dǎo)讀：隨著科技的不斷進(jìn)步發(fā)展，智能對(duì)話系統(tǒng)因其巨大的潛力和商業(yè)價(jià)值將會(huì)成為下一代人機(jī)交互的風(fēng)口，不少公司都紛紛開(kāi)始研究人機(jī)對(duì)話系統(tǒng)，希望人與機(jī)器之間能夠通過(guò)自然對(duì)話進(jìn)行交互。筆者所在的達(dá)摩院 Conversational AI團(tuán)隊(duì)（即云小蜜團(tuán)隊(duì)），早在三年前就研發(fā)打造了面向開(kāi)發(fā)者的智能對(duì)話開(kāi)發(fā)平臺(tái) Dialog Studio，并將我們的技術(shù)通過(guò)阿里云智能客服的產(chǎn)品矩陣，賦能各行各業(yè)和政府機(jī)構(gòu)進(jìn)行智能服務(wù)的全方位升級(jí)。目前Dialog Studio平臺(tái)已經(jīng)在阿里云智能客服（政務(wù)12345熱線、中移動(dòng)10086、金融、醫(yī)療等）、釘釘（通過(guò)釘釘官方智能工作助理服務(wù)幾百萬(wàn)企業(yè)）、集團(tuán)內(nèi)（淘寶優(yōu)酷等十幾個(gè)BU）、淘寶天貓商家以及Lazada東南亞6國(guó)得到了大規(guī)模應(yīng)用。

背景

1. 任務(wù)型對(duì)話系統(tǒng)

常見(jiàn)的智能對(duì)話系統(tǒng)有：?jiǎn)柎鹦?、聊天型、任?wù)型等。其中任務(wù)型對(duì)話在實(shí)際應(yīng)用中，尤其是在我們的ToB 場(chǎng)景最為普遍。因?yàn)樵撓到y(tǒng)不僅可以回答用戶(hù)問(wèn)題，同時(shí)還能主動(dòng)發(fā)問(wèn)，引導(dǎo)會(huì)話的有效進(jìn)行，通過(guò)多輪對(duì)話完成某個(gè)特定的任務(wù)。例如在一個(gè)浙江省信訪的外呼場(chǎng)景中，一個(gè)典型的對(duì)話如下：

達(dá)摩院基于元學(xué)習(xí)的對(duì)話系統(tǒng)

可以看到，在該對(duì)話中，機(jī)器人需要先表明自己的來(lái)意，根據(jù)用戶(hù)的不同的回答情況進(jìn)行多輪的對(duì)話，收集好自己需要的滿(mǎn)意度信息并結(jié)束對(duì)話。

目前常見(jiàn)的任務(wù)型對(duì)話系統(tǒng)的架構(gòu)有兩種，一種是模塊化的，另一種是端到端式的（如下圖所示）：

達(dá)摩院基于元學(xué)習(xí)的對(duì)話系統(tǒng)

盡管模塊化的對(duì)話系統(tǒng)由于每個(gè)部分獨(dú)立優(yōu)化，具有更強(qiáng)的可控性，但是端到端的對(duì)話系統(tǒng)可以直接利用對(duì)話日志進(jìn)行訓(xùn)練，不需要人工設(shè)計(jì)特定的語(yǔ)義標(biāo)簽，因此更具備可擴(kuò)展性，在一些復(fù)雜度中低的對(duì)話場(chǎng)景中能夠快速訓(xùn)練部署使用。有關(guān)模塊化和端到端對(duì)話模型的詳細(xì)介紹和前沿進(jìn)展可參考《小蜜團(tuán)隊(duì)萬(wàn)字長(zhǎng)文：對(duì)話管理模型最新研究進(jìn)展》一文。

2. 端到端對(duì)話模型及其挑戰(zhàn)

一般來(lái)說(shuō)，端到端對(duì)話模型可分為檢索式和生成式，檢索式模型就是給定對(duì)話歷史從預(yù)定義回復(fù)候選集合中選出最佳回復(fù)作為當(dāng)前系統(tǒng)輸出，生成式模型則是給定對(duì)話歷史直接生成回復(fù)。兩種方式都可以通過(guò)和用戶(hù)多輪交互完成最終的對(duì)話任務(wù)。

由于回復(fù)更加可控，目前我們?cè)?Dialog Studio 上實(shí)現(xiàn)的是檢索式端到端的對(duì)話模型，并且在政務(wù)、疫情等業(yè)務(wù)中都落地應(yīng)用。上述的浙江省信訪的例子就是我們實(shí)現(xiàn)的對(duì)話模型所產(chǎn)生的對(duì)話，因?yàn)闆](méi)有復(fù)雜的知識(shí)推理、語(yǔ)義解析等，此類(lèi)場(chǎng)景是端到端對(duì)話系統(tǒng)特別適用的場(chǎng)景。

然而，盡管端到端對(duì)話模型簡(jiǎn)單易用，但是在實(shí)際應(yīng)用中仍然面臨著兩大常見(jiàn)問(wèn)題：

① 數(shù)據(jù)量少：端到端模型一般需要大量的訓(xùn)練數(shù)據(jù)，且場(chǎng)景越復(fù)雜，需求越大。在 Dialog Studio 中的ToB 的業(yè)務(wù)，不少新場(chǎng)景一開(kāi)始是沒(méi)有可用的高質(zhì)量對(duì)話日志，比如我們?cè)谡?wù)12345 場(chǎng)景和 114 移車(chē)場(chǎng)景上積累了大量的對(duì)話，可當(dāng)我們做省信訪外呼場(chǎng)景時(shí)，一開(kāi)始只有極少的對(duì)話可以使用。因此如何利用已有場(chǎng)景的豐富數(shù)據(jù)訓(xùn)練好一個(gè)端到端模型，使其可以快速遷移到缺少數(shù)據(jù)的新場(chǎng)景上是一個(gè)很大的挑戰(zhàn)。

② 魯棒性差：有限的離線訓(xùn)練數(shù)據(jù)和真實(shí)的在線測(cè)試數(shù)據(jù)之間存在數(shù)據(jù)分布的差異性，會(huì)導(dǎo)致系統(tǒng)在線表現(xiàn)不佳和離線測(cè)試效果不匹配的情況。這種差異性主要來(lái)自于未見(jiàn)的用戶(hù)行為（例如：新槽值、新意圖、復(fù)雜句等），這類(lèi)問(wèn)題統(tǒng)稱(chēng)為 out-of-script 問(wèn)題，可以用來(lái)驗(yàn)證對(duì)話模型的魯棒性。例如下圖中，訓(xùn)練數(shù)據(jù)中從未出現(xiàn)過(guò)“喂，內(nèi)容是什么？我忘了反饋什么了” 類(lèi)似的用戶(hù)語(yǔ)句，一旦真實(shí)上線，模型很容易預(yù)測(cè)出錯(cuò)誤的結(jié)果，從而影響用戶(hù)體驗(yàn)。尤其是當(dāng)數(shù)據(jù)量少的時(shí)候，模型對(duì)于在線數(shù)據(jù)的魯棒預(yù)測(cè)會(huì)進(jìn)一步下降。因此如何解決線上線下數(shù)據(jù)不匹配，提高端到端對(duì)話模型的魯棒性是另一大挑戰(zhàn)。

在阿里云智能客服的諸多業(yè)務(wù)中，不少場(chǎng)景都存在訓(xùn)練數(shù)據(jù)稀少的問(wèn)題，而客戶(hù)又需要我們的對(duì)話系統(tǒng)能夠達(dá)到可直接上線的標(biāo)準(zhǔn)。因此綜合來(lái)看，我們希望提出一種新的端到端對(duì)話系統(tǒng)以及對(duì)應(yīng)的優(yōu)化方法，能夠兼具備面對(duì)新場(chǎng)景的快速適應(yīng)性（fast adaptability）和穩(wěn)健的在線表現(xiàn) （reliable performance），能夠在低訓(xùn)練資源下依舊能夠保證較好的線上效果。

02 技術(shù)方案

通過(guò)前期調(diào)研我們發(fā)現(xiàn)，應(yīng)對(duì)數(shù)據(jù)少的問(wèn)題的常用方法有元學(xué)習(xí)、數(shù)據(jù)增強(qiáng)等，而應(yīng)對(duì)訓(xùn)練和測(cè)試對(duì)話數(shù)據(jù)不一致的問(wèn)題的常用方法有人機(jī)協(xié)同[1]、在線學(xué)習(xí)[2]等。最終我們選擇將元學(xué)習(xí)（meta-learning）方法和人機(jī)協(xié)同（human-machine collaboration）方法結(jié)合，提出了元對(duì)話系統(tǒng)（Meta-Dialog System, MDS）：利用元學(xué)習(xí)，系統(tǒng)能夠在少量訓(xùn)練數(shù)據(jù)上進(jìn)行快速學(xué)習(xí)，解決數(shù)據(jù)少的難題；利用人機(jī)協(xié)作，模型可以在對(duì)話中請(qǐng)求人工客服幫助，以保證系統(tǒng)達(dá)到可接受的線上水平，提高系統(tǒng)的魯棒性。相關(guān)成果已經(jīng)發(fā)表至 ACL2020 [3]。

1. 模型結(jié)構(gòu)

我們采用檢索式端到端對(duì)話模型[4]，該對(duì)話任務(wù)是一個(gè)分類(lèi)任務(wù)，即給定預(yù)定義的回復(fù)候選集，基于對(duì)話歷史選擇正確回復(fù)。如下圖所示，一般該模型一共包含三個(gè)部分：

歷史編碼器（History encoder），對(duì)整個(gè)對(duì)話歷史進(jìn)行編碼提取對(duì)話狀態(tài)向量，常見(jiàn)模型可以使用 MemN2N，Hierarical RNN，BERT 等；
回復(fù)編碼器（Response encoder），對(duì)每個(gè)回復(fù)進(jìn)行編碼提取句向量；
預(yù)測(cè)器，根據(jù)對(duì)話狀態(tài)向量和回復(fù)句向量判斷出正確的回復(fù)，通常就是計(jì)算余弦相似度給出。

達(dá)摩院基于元學(xué)習(xí)的對(duì)話系統(tǒng)

而在人機(jī)協(xié)同的框架下[1]，為了能夠做到智能高效地轉(zhuǎn)人工，端到端對(duì)話模型還會(huì)多出一個(gè)判決器模塊，專(zhuān)門(mén)用于判定當(dāng)前對(duì)話是否轉(zhuǎn)人工，如果轉(zhuǎn)人工則交給人工客服解答，否則模型自己給出答案。如下圖所示：

達(dá)摩院基于元學(xué)習(xí)的對(duì)話系統(tǒng)

2. 優(yōu)化方案

在上述的模型結(jié)構(gòu)基礎(chǔ)上，筆者在優(yōu)化訓(xùn)練上進(jìn)行了創(chuàng)新，利用經(jīng)典的 MAML 算法[5] 來(lái)進(jìn)行優(yōu)化，提出了元學(xué)習(xí)對(duì)話系統(tǒng)（meta-dialog system, MDS）。整個(gè) MDS 的框架如下：

在ACL2020論文中，為了和文獻(xiàn) [1, 4] 一致，對(duì)于歷史編碼器我們?nèi)匀徊捎媒?jīng)典的 MemN2N 模型，對(duì)于回復(fù)編碼器我們使用了一個(gè)簡(jiǎn)單的詞向量相加的句向量。模型預(yù)測(cè)器的部分，我們選擇了能夠?qū)W習(xí)出更有鑒別性的特征的large margin cosine loss [7] 作為損失函數(shù) L_lmc。針對(duì)請(qǐng)求人工的判決器，我們提出通過(guò)計(jì)算判決器預(yù)測(cè)的正負(fù)樣本的 F1 score作為 reward 函數(shù)，使用增強(qiáng)學(xué)習(xí)來(lái)進(jìn)行優(yōu)化 L_rl 。最終，我們利用MAML對(duì) L_lmc+L_rl 進(jìn)行聯(lián)合優(yōu)化。

MAML 是元學(xué)習(xí)中的一類(lèi)方法，它具備模型普適性，通過(guò)在meta tasks上進(jìn)行預(yù)訓(xùn)練，能夠幫助模型找到一組最合適的參數(shù)，使其快速適應(yīng)新任務(wù)。例如下圖[9]給出了一個(gè) MAML 和MLE 訓(xùn)練對(duì)比示意圖，每個(gè)圓圈都是看做一個(gè)場(chǎng)景，實(shí)心的是訓(xùn)練用的源場(chǎng)景，空心的是測(cè)試用的目標(biāo)場(chǎng)景，使用 MLE 預(yù)訓(xùn)練會(huì)導(dǎo)致模型的參數(shù)過(guò)擬合到源場(chǎng)景上，而MAML預(yù)訓(xùn)練則能夠找到更好的參數(shù)初始化，使得快速遷移到新場(chǎng)景上去：

達(dá)摩院基于元學(xué)習(xí)的對(duì)話系統(tǒng)

正是因?yàn)檫@樣的特性，我們選擇 MAML 來(lái)進(jìn)行聯(lián)合優(yōu)化，幫助預(yù)測(cè)器和判決器一起快速適應(yīng)新場(chǎng)景。

在 MAML 訓(xùn)練中，首先需要構(gòu)造元任務(wù) (meta-task)，步驟如下：

采樣 K 個(gè)對(duì)話場(chǎng)景（每個(gè)場(chǎng)景對(duì)應(yīng)一個(gè)對(duì)話任務(wù)）
每個(gè)對(duì)話任務(wù)，采樣 N 個(gè)對(duì)話數(shù)據(jù)作為支撐集（support set），N 個(gè)數(shù)據(jù)作為問(wèn)詢(xún)集（query set）

然后根據(jù)以下算法流程進(jìn)行優(yōu)化：

達(dá)摩院基于元學(xué)習(xí)的對(duì)話系統(tǒng)

03 模型結(jié)果

為了驗(yàn)證模型在新場(chǎng)景的遷移能力，我們需要多場(chǎng)景的端到端對(duì)話數(shù)據(jù)集，在評(píng)價(jià)時(shí)，依次選取一個(gè)場(chǎng)景作為目標(biāo)場(chǎng)景，剩余的作為訓(xùn)練場(chǎng)景。利用 MAML 預(yù)訓(xùn)練模型完畢之后，再在目標(biāo)場(chǎng)景上進(jìn)行小樣本的遷移實(shí)驗(yàn)。最終結(jié)果是每個(gè)場(chǎng)景取平均得到。我們既需要在學(xué)術(shù)數(shù)據(jù)集上實(shí)驗(yàn)，也需要在實(shí)際業(yè)務(wù)中落地，以此驗(yàn)證算法的可行性。

1. Extended-bAbI數(shù)據(jù)集結(jié)果

學(xué)術(shù)數(shù)據(jù)集我們選擇了extended-bAbI，它是 bAbI 數(shù)據(jù)集的擴(kuò)展版，包含了場(chǎng)景有餐館、機(jī)票、酒店、電影、音樂(lè)、旅游、天氣等 7 個(gè)場(chǎng)景，每個(gè)場(chǎng)景的訓(xùn)練集/開(kāi)發(fā)集/測(cè)試集為 1500/500/1000 個(gè)完整對(duì)話，評(píng)價(jià)指標(biāo)是回復(fù)選擇的準(zhǔn)確率。我們將 MDS、MDSmle（將MAML優(yōu)化改成 MLE 優(yōu)化）、Mem+C [1] 這三個(gè)模型進(jìn)行對(duì)比如下：

達(dá)摩院基于元學(xué)習(xí)的對(duì)話系統(tǒng)

平均在新場(chǎng)景中，使用 0, 1, 5, 10 組完整對(duì)話 session 數(shù)據(jù)上，MDS 模型的表現(xiàn)都是最好的。證明了我們小樣本下端到端模型的效果。同時(shí)我們也做了一下 ablation study，發(fā)現(xiàn)去掉判決器 (MDS-switch) 和隨機(jī)轉(zhuǎn)人工 (MDSrand) 的模型都很差，證明了我們的轉(zhuǎn)人工判決器真的能夠在聯(lián)合優(yōu)化中學(xué)出識(shí)別 out-of-script 的對(duì)話數(shù)據(jù)的能力，提升模型的魯棒性。

達(dá)摩院基于元學(xué)習(xí)的對(duì)話系統(tǒng)

2. 業(yè)務(wù)落地

我們的端到端對(duì)話模型 MDS 目前已經(jīng)在Dialog Studio平臺(tái)上政務(wù)12345的多個(gè)場(chǎng)景中落地，對(duì)話的完成率平均能有5-10% 的提升。通常我們遇到的實(shí)際業(yè)務(wù)的流程schema是一個(gè)較為復(fù)雜的圖狀結(jié)構(gòu)，下圖是一個(gè)簡(jiǎn)化的示意圖：

達(dá)摩院基于元學(xué)習(xí)的對(duì)話系統(tǒng)

這種圖結(jié)構(gòu)流程（我們稱(chēng)為 TaskFLow）在 Dialog Studio 里能夠通過(guò)圖形化拖拽的方式非常方便地進(jìn)行配置使用。詳見(jiàn)《一個(gè)中心+三大原則 -- 小蜜這樣做智能對(duì)話開(kāi)發(fā)平臺(tái)》。

實(shí)際場(chǎng)景往往一開(kāi)始時(shí)是零對(duì)話數(shù)據(jù)，盡管 MDS 模型能夠進(jìn)行冷啟動(dòng)，有比一般模型更好的效果，但是并不一定能夠百分百達(dá)到上線準(zhǔn)入要求。為了更好地利用我們模型的遷移能力，我們通過(guò)以下兩步來(lái)預(yù)訓(xùn)練對(duì)話模型：

我們?cè)O(shè)計(jì)了一個(gè)基于TaskFLow 的對(duì)話模擬器，能夠低成本快速地模擬出大量模擬對(duì)話數(shù)據(jù)。該對(duì)話模擬器利用生成模型生成對(duì)話數(shù)據(jù)，并能夠通過(guò)線上回流的無(wú)標(biāo)日志進(jìn)行模擬器的自增強(qiáng)優(yōu)化。
當(dāng)一個(gè)新場(chǎng)景的模擬數(shù)據(jù)模擬完畢后，我們把新場(chǎng)景的模擬數(shù)據(jù)和各個(gè)已有相似場(chǎng)景的真實(shí)數(shù)據(jù)一起作為源場(chǎng)景進(jìn)行 MAML 優(yōu)化，然后遷移到新場(chǎng)景的真實(shí)數(shù)據(jù)中去。

達(dá)摩院基于元學(xué)習(xí)的對(duì)話系統(tǒng)

下圖是我們模型在某地市12345熱線場(chǎng)景的一個(gè)實(shí)驗(yàn)結(jié)果：

達(dá)摩院基于元學(xué)習(xí)的對(duì)話系統(tǒng)

橫軸是adaptation時(shí)使用的標(biāo)注對(duì)話數(shù)據(jù)量，縱軸是回復(fù)準(zhǔn)確率?？梢钥吹?，如果直接使用 TaskFlow，整個(gè)對(duì)話系統(tǒng)的準(zhǔn)確率僅在 79% 左右。但是用上MDS 模型進(jìn)行數(shù)據(jù)遷移和MAML 優(yōu)化之后，我們可以得到最上面那條曲線，冷啟動(dòng)效果從 79% 提升至88% 左右，并在不同 adaptation對(duì)話數(shù)據(jù)下都能有著持續(xù)最好的表現(xiàn)。

04 總結(jié)展望

本文主要介紹了如何結(jié)合元學(xué)習(xí)方法提高對(duì)話模型在新場(chǎng)景上的快速適應(yīng)能力和預(yù)測(cè)效果，解決小樣本下的端到端對(duì)話模型訓(xùn)練問(wèn)題。我們的元學(xué)習(xí)對(duì)話系統(tǒng)（Meta-Dialog system，MDS），不僅在學(xué)術(shù)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，還在阿里云智能客服的多個(gè)真實(shí)場(chǎng)景中落地。結(jié)果表明，利用 MAML 可以很好地幫助模型的判決器和預(yù)測(cè)器一起找到合適的初始化參數(shù)，以更快地遷移到新場(chǎng)景中。

最后感謝所有耐心看完這篇文章的讀者。智能對(duì)話系統(tǒng)是個(gè)極具前景和挑戰(zhàn)性的方法。達(dá)摩院 Conversational AI團(tuán)隊(duì)將不斷地探索推進(jìn)在這個(gè)領(lǐng)域的技術(shù)進(jìn)步和落地，敬請(qǐng)期待我們后續(xù)的工作！

05 參考文獻(xiàn)

[1] Rajendran J, Ganhotra J, Polymenakos L C. Learning End-to-End Goal-Oriented Dialog with Maximal User Task Success and Minimal Human Agent Use. ACL, 2019.

[2] Liu B, Tur G, Hakkani-Tur D, et al. Dialogue learning with human teaching and feedback in end-to-end trainable task-oriented dialogue systems. NAACL, 2018.

[3] Dai Y, Li H, et al. Learning Low-Resource End-To-End Goal-Oriented Dialog for Fast and Reliable System Deployment. ACL, 2020. (to be appeared)

[4] Bordes A, Boureau Y L, Weston J. Learning end-to-end goal-oriented dialog. ICLR, 2016.

[5] Finn C, Abbeel P, Levine S. Model-agnostic meta-learning for fast adaptation of deep networks. ICML, 2017.

[6] Eric M, Goel R, Paul S, et al. Multiwoz 2.1: Multi-domain dialogue state corrections and state tracking baselines[J]. arXiv preprint arXiv:1907.01669, 2019.

[7] Lin T E, Xu H. Deep unknown intent detection with margin loss[J]. ACL, 2019.

[8] Wang W, Zhang J, Li Q, et al. Incremental learning from scratch for task-oriented dialogue systems. ACL, 2019.

[9] Lin Z, Madotto A, Wu C S, et al. Personalizing dialogue agents via meta-learning[J]. ACL 2019.

[10] Wang W, Bi B, Yan M, et al. Structbert: Incorporating language structures into pre-training for deep language understanding[J]. ICLR 2020.

免責(zé)聲明：本文內(nèi)容由21ic獲得授權(quán)后發(fā)布，版權(quán)歸原作者所有，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。文章僅代表作者個(gè)人觀點(diǎn)，不代表本平臺(tái)立場(chǎng)，如有問(wèn)題，請(qǐng)聯(lián)系我們，謝謝！