如何利用人工智能和大數(shù)據(jù)來處理自然語言
突破自然語言處理瓶頸 需大數(shù)據(jù)與富知識雙輪驅(qū)動
冷眼觀
“今年美國國家科技理事會發(fā)布的國家人工智能八大戰(zhàn)略中,有三項與自然語言處理有關(guān)?!苯?,北京智源人工智能研究院首席科學家孫茂松表示,“自然語言處理是全球人工智能戰(zhàn)略之關(guān)鍵。”然而,當前與自然語言處理的相關(guān)技術(shù)遠未成熟,許多問題亟待突破。那么,目前有哪些解決途徑?
“學術(shù)領域叫自然語言,其實指的就是人類語言。自然語言處理可以說是從人工智能這個詞尚未出現(xiàn)前,就是一個重要研究對象?!睂O茂松表示。
“語言,是人獨立于動物的重要特征之一。但是大家不要把自己看得太高明,更不要認為人的語言就是模板,動物的語言也很強大,其中不乏超過我們的?!?孫茂松指出,比如鯨魚的神經(jīng)細胞有370億個,人有200多億,本身它的神經(jīng)系統(tǒng)就比我們發(fā)達,語言也極其豐富。而魚在海洋光線不好的情況下,能夠做很強的交流,到現(xiàn)在人類也對其語言的理解十分有限。盡管動物的語言和人的語言有很大不同,但共性即是語言是兩個個體之間交流的橋梁,橋梁作用就是研究的關(guān)鍵。
上世紀60年代,機器翻譯系統(tǒng)已經(jīng)出現(xiàn)。相關(guān)部門用《圣經(jīng)》中的句子進行了測試,句子直譯的意思是“精神是愿意的,但是肉體是虛弱的”,但用當時的機器翻譯成俄文,再用俄文系統(tǒng)翻譯成英文時,就變成“伏特加是好的,但肉卻腐爛,酒喝不成了”。如今把這個英語句子用谷歌翻譯系統(tǒng)翻譯成中文,基本上可以保持語義保持完好,這就是顯著的進步。
但現(xiàn)在大數(shù)據(jù)驅(qū)動下的自然語言處理遇到的瓶頸,是一位著名機器翻譯專家提出機器翻譯中“pen”的問題。即“pen”有兩個意思:鋼筆和圍欄,而無論是谷歌還是微軟的機器翻譯,都還不能很好地根據(jù)不同語境將其譯成合適的意思?!叭绻娺^這句話的情況機器可能會翻譯準確,而沒見過就需要知識的積累。大數(shù)據(jù)驅(qū)動下的自然語言處理有很大局限性,即運用知識處理問題的能力幾乎沒有。”孫茂松指出。
近些年,自然語言處理在全球范圍受到學術(shù)界的高度重視,美國國防高級研究計劃局(DARPA)對基于知識的語言智能投入相當大,涉及到數(shù)據(jù)知識與行為、低資源語言處理、知識指導模式推理、自動知識獲取等。
據(jù)介紹,目前我國基于大數(shù)據(jù)驅(qū)動的深度學習已經(jīng)取得顯著進步,這些年來很多重要進展都是基于這個層面。有專家指出,今后自然語言處理需要通過知識驅(qū)動實現(xiàn)突破。孫茂松認為,“大數(shù)據(jù)與富知識雙輪驅(qū)動”或成為解決問題的關(guān)鍵,即在大數(shù)據(jù)驅(qū)動的基礎上加入富知識驅(qū)動,兩者結(jié)合,缺一不可。他強調(diào),這個知識是系統(tǒng)性的,而不是用破碎的知識。
為此,北京智源人工智能研究院“自然語言處理”課題團隊,將致力于解決多類型知識資源構(gòu)建、自然語言深度理解、可控自然語言生成、融合知識的機器翻譯、智能語言學習、對話系統(tǒng)等問題。