人工智能可以識(shí)別的出假新聞嗎

時(shí)間：2020-05-28 07:18:01

關(guān)鍵字：人工智能

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] 人工智能現(xiàn)在的寫作能力雖然還不至于寫出世界名著，但足以掩藏住機(jī)器的痕跡，混淆普通人的視線。最重要的是，AI可以批量生產(chǎn)文本，炮制假新聞、快速刷評(píng)論。該如何揪出冒充人類的AI呢？哈佛大學(xué)和麻省理工

人工智能現(xiàn)在的寫作能力雖然還不至于寫出世界名著，但足以掩藏住機(jī)器的痕跡，混淆普通人的視線。最重要的是，AI可以批量生產(chǎn)文本，炮制假新聞、快速刷評(píng)論。該如何揪出冒充人類的AI呢？哈佛大學(xué)和麻省理工學(xué)院- IBM沃森人工智能實(shí)驗(yàn)室（MIT-IBM Watson AI Lab）的研究人員想到了用AI識(shí)別AI。

他們開發(fā)了一種叫做“巨型語言模型測試器”（GLTR）的新工具，用于識(shí)別人工智能生成的文本。其辨別原理基于：人工智能是利用文本中的統(tǒng)計(jì)模式來自動(dòng)生成文本的，而不考慮單詞和句子的實(shí)際含義。也就是說，如果一篇文章中的用詞都是可預(yù)測的，該文章就極可能是由人工智能寫的，而GLTR可以標(biāo)注出文章用詞是否可預(yù)測。

開發(fā)最厚的盾，就要用最強(qiáng)的矛來測試。前一陣子，埃隆·馬斯克參與創(chuàng)立的AI研究機(jī)構(gòu)OpenAI推出了一種算法，可以自動(dòng)生成真實(shí)度極高的段落。只要在該算法的“學(xué)習(xí)模式”中輸入海量數(shù)據(jù)，該算法就可以統(tǒng)計(jì)詞頻，組合高頻詞，生成新的段落。而哈佛大學(xué)的團(tuán)隊(duì)正是用Open AI公開發(fā)布的代碼為基礎(chǔ)，發(fā)明了GLTR。

GLTR可以根據(jù)詞頻，標(biāo)明最可能出現(xiàn)的單詞搭配。最易預(yù)測的單詞是綠色的，較難預(yù)測的是黃色和紅色的，最難預(yù)測的是紫色的。當(dāng)對(duì)Open AI編寫的算法所生成的文字進(jìn)行測試后，發(fā)現(xiàn)大部分單詞都可預(yù)測；而人類寫出的新聞和科學(xué)摘要文字搭配更多樣。

那么，什么樣的用詞才是AI無法模仿的“人來之筆”呢？澎湃新聞?dòng)浾邔ⅰ豆防滋亍分心捴巳丝诘亩温浞胚M(jìn)該工具中檢索。

《哈姆雷特》選段，右為中文譯文

可以看到，莎翁的手筆確實(shí)不是AI能輕易揣摩的，短短的片段中就出現(xiàn)了20多處標(biāo)紫。第一處標(biāo)紫的“暴虐”雖非多么生僻的詞匯，但用來修飾“命運(yùn)”卻并不常見。在AI眼中，這種搭配猶能體現(xiàn)出“人性之光”。

GLTR的研究人員讓哈佛的學(xué)生分別在不使用GLTR、和使用GLTR的時(shí)候，判斷文本是否是人工智能生成的。實(shí)驗(yàn)結(jié)果表明，在不使用GLTR時(shí)，學(xué)生們只能識(shí)別出一半的虛假文本；而看到GLTR所做的標(biāo)注后，他們可以識(shí)別出72%的虛假文本。Sebastian Gehrmanns是一位參與GLTR發(fā)明的博士生，他表明：“我們的目標(biāo)是建立一個(gè)人類和人工智能協(xié)作的體系。”

《麻省理工科技評(píng)論》對(duì)此評(píng)價(jià)道，現(xiàn)在自動(dòng)生成的假消息越來越多，這種AI工具或許能有效打擊機(jī)器制造的假新聞、假視頻和灌水評(píng)論。