百度提出交互式學(xué)習(xí)方法:讓機(jī)器在對(duì)話中學(xué)會(huì)自然語言
自然語言處理一直是人工智能發(fā)展道路上面臨的巨大挑戰(zhàn)。此前,大多數(shù)研究都是讓機(jī)器學(xué)習(xí)模型在大量已標(biāo)記數(shù)據(jù)集上進(jìn)行訓(xùn)練的。最近,百度研究院人員提出了一種全新的方法,研究人員讓人工智能系統(tǒng)通過與「教師」的口語對(duì)話來學(xué)習(xí)自然語言和知識(shí)。這種類似嬰兒學(xué)習(xí)語言過程的方法展現(xiàn)出了很大的潛力。機(jī)器之心對(duì)該文及其研究論文摘要進(jìn)行了編譯,原文鏈接見文末。
四月上旬,百度研究團(tuán)隊(duì)通過由虛擬教師(a virtual teacher)發(fā)出自然語言指令,成功地教會(huì)了人工智能代理(agent)在迷宮中導(dǎo)航(參閱:用自然語言教育人工智能:百度新算法發(fā)展出 zero-shot 學(xué)習(xí)能力)。今天,百度研究團(tuán)隊(duì)又很高興地宣布,通過與虛擬老師之間的交互,其人工智能代理成功地學(xué)會(huì)了說話。
說話,以及其他人類基本能力,在創(chuàng)建通用人工智能的道路上不可或缺。盡管今天與機(jī)器進(jìn)行簡單的交談很常見,但是百度研究團(tuán)隊(duì)教機(jī)器說話的方法與傳統(tǒng)方法大不相同。
百度的人工智能代理以一種類似于嬰兒互動(dòng)的方式學(xué)習(xí)說話。相反,傳統(tǒng)方法依賴于有監(jiān)督訓(xùn)練,使用包含大量預(yù)搜集訓(xùn)練集的靜態(tài)語料庫,難以捕捉到語言學(xué)習(xí)過程中的動(dòng)態(tài)交互屬性。結(jié)果,通過傳統(tǒng)方法訓(xùn)練的系統(tǒng)主要反映了數(shù)據(jù)集中的行為,適應(yīng)性和泛化能力有限。百度的人工智能代理通過交互學(xué)習(xí)說話,旨在獲取語言學(xué)習(xí)與理解能力而不僅僅是捕捉到數(shù)據(jù)之中的統(tǒng)計(jì)模式。
當(dāng)一個(gè)嬰兒學(xué)習(xí)說話時(shí),他與人產(chǎn)生交互,并通過模仿和反饋進(jìn)行學(xué)習(xí)。嬰兒最初通過模仿其會(huì)話者來產(chǎn)生言語行為,掌握字句生成的技巧。嬰兒也會(huì)向其父母發(fā)出聲音,并根據(jù)父母的糾正和鼓勵(lì)調(diào)節(jié)其言語行為。
研究概述百度研究人員提出了一種基于自然語言學(xué)習(xí)的交互式方法,其中人工智能代理通過與虛擬教師(教授者)交互、獲得反饋來學(xué)習(xí)自然語言,從而學(xué)習(xí)和提高自然語言技能以達(dá)到參與對(duì)話的程度。在這里,沒有帶標(biāo)簽數(shù)據(jù)形式的監(jiān)督學(xué)習(xí)來引導(dǎo)學(xué)習(xí)者;取而代之的是,系統(tǒng)必須通過不斷嘗試說來學(xué)習(xí)說話,而教授者會(huì)提供口頭反饋(如是/否)和非口頭反饋(如點(diǎn)頭/微笑)。
下圖顯示了訓(xùn)練中幾種不同形式的對(duì)話。在一開始,代理只能生成無意義的句子,它只能在純粹對(duì)話中提升自己的技能。而到了最后,代理可以正確運(yùn)用自然語言回答教授者提出的問題。
另一方面的實(shí)驗(yàn)進(jìn)一步證明了新方法具備學(xué)習(xí)自然語言的能力。研究人員證明訓(xùn)練后的人工智能代理可以回答由已知知識(shí)或問題中的概念組成,但經(jīng)過重組后形成的全新問題。例如,在訓(xùn)練中,「avocado,east」組合從未出現(xiàn)在問答中;而 orange 僅被描述過,從未被教授者問到過。而在測試中,代理可以回答有關(guān)在「east」的「avocado」的問題,或有關(guān)「orange」的問題,如上圖所示。
百度的研究人員表示,他們會(huì)在未來進(jìn)一步增加語言學(xué)習(xí)環(huán)境的復(fù)雜性,以訓(xùn)練出更為復(fù)雜的語言行為。另外,他們還計(jì)劃探索機(jī)器學(xué)習(xí)系統(tǒng)的知識(shí)建模與快速學(xué)習(xí),讓人工智能代理能夠與人類進(jìn)行自然交互,并讓它可以從物理世界中進(jìn)行有效的學(xué)習(xí)。
論文:Listen, Interact and Talk: Learning to Speak via InteracTIon
論文鏈接:https://arxiv.org/abs/1705.09906
摘要:人工智能的一個(gè)長期目標(biāo)是構(gòu)建一種可與人類進(jìn)行自然語言交互的代理。然而,目前的大部分自然語言學(xué)習(xí)的研究都依賴大量帶注釋標(biāo)簽的數(shù)據(jù)集以進(jìn)行訓(xùn)練,這導(dǎo)致人工智能代理的任務(wù)變成了外部數(shù)據(jù)集的統(tǒng)計(jì)學(xué)抓取。由于訓(xùn)練數(shù)據(jù)本質(zhì)上是由標(biāo)注者對(duì)知識(shí)進(jìn)行的靜態(tài)表述,人工智能代理經(jīng)過學(xué)習(xí)后的適應(yīng)性和拓展性受到了限制。此外,這種訓(xùn)練方法與人類學(xué)習(xí)自然語言的過程非常不同,后者是一個(gè)交流的過程,通過說話和獲得反饋來進(jìn)行。
在本論文中,我們提出了一種交互形式的自然語言學(xué)習(xí)方法。其中,人工智能代理通過與教授者(teacher)用自然語言互相交流,從而在談話中學(xué)習(xí)和提高語言技能。為了達(dá)成這個(gè)目標(biāo),我們構(gòu)建了一個(gè)包含模仿和強(qiáng)化學(xué)習(xí)方法的模型,用以比較句子和教授者的反饋。我們進(jìn)行了實(shí)驗(yàn),證明了這種方法的有效性。