人工智能可以識(shí)別的出假新聞嗎
人工智能現(xiàn)在的寫作能力雖然還不至于寫出世界名著,但足以掩藏住機(jī)器的痕跡,混淆普通人的視線。最重要的是,AI可以批量生產(chǎn)文本,炮制假新聞、快速刷評(píng)論。該如何揪出冒充人類的AI呢?哈佛大學(xué)和麻省理工學(xué)院- IBM沃森人工智能實(shí)驗(yàn)室(MIT-IBM Watson AI Lab)的研究人員想到了用AI識(shí)別AI。
他們開發(fā)了一種叫做“巨型語言模型測試器”(GLTR)的新工具,用于識(shí)別人工智能生成的文本。其辨別原理基于:人工智能是利用文本中的統(tǒng)計(jì)模式來自動(dòng)生成文本的,而不考慮單詞和句子的實(shí)際含義。也就是說,如果一篇文章中的用詞都是可預(yù)測的,該文章就極可能是由人工智能寫的,而GLTR可以標(biāo)注出文章用詞是否可預(yù)測。
開發(fā)最厚的盾,就要用最強(qiáng)的矛來測試。前一陣子,埃隆·馬斯克參與創(chuàng)立的AI研究機(jī)構(gòu)OpenAI推出了一種算法,可以自動(dòng)生成真實(shí)度極高的段落。只要在該算法的“學(xué)習(xí)模式”中輸入海量數(shù)據(jù),該算法就可以統(tǒng)計(jì)詞頻,組合高頻詞,生成新的段落。而哈佛大學(xué)的團(tuán)隊(duì)正是用Open AI公開發(fā)布的代碼為基礎(chǔ),發(fā)明了GLTR。
GLTR可以根據(jù)詞頻,標(biāo)明最可能出現(xiàn)的單詞搭配。最易預(yù)測的單詞是綠色的,較難預(yù)測的是黃色和紅色的,最難預(yù)測的是紫色的。當(dāng)對(duì)Open AI編寫的算法所生成的文字進(jìn)行測試后,發(fā)現(xiàn)大部分單詞都可預(yù)測;而人類寫出的新聞和科學(xué)摘要文字搭配更多樣。
那么,什么樣的用詞才是AI無法模仿的“人來之筆”呢?澎湃新聞?dòng)浾邔ⅰ豆防滋亍分心捴巳丝诘亩温浞胚M(jìn)該工具中檢索。
《哈姆雷特》選段,右為中文譯文
可以看到,莎翁的手筆確實(shí)不是AI能輕易揣摩的,短短的片段中就出現(xiàn)了20多處標(biāo)紫。第一處標(biāo)紫的“暴虐”雖非多么生僻的詞匯,但用來修飾“命運(yùn)”卻并不常見。在AI眼中,這種搭配猶能體現(xiàn)出“人性之光”。
GLTR的研究人員讓哈佛的學(xué)生分別在不使用GLTR、和使用GLTR的時(shí)候,判斷文本是否是人工智能生成的。實(shí)驗(yàn)結(jié)果表明,在不使用GLTR時(shí),學(xué)生們只能識(shí)別出一半的虛假文本;而看到GLTR所做的標(biāo)注后,他們可以識(shí)別出72%的虛假文本。Sebastian Gehrmanns是一位參與GLTR發(fā)明的博士生,他表明:“我們的目標(biāo)是建立一個(gè)人類和人工智能協(xié)作的體系。”
《麻省理工科技評(píng)論》對(duì)此評(píng)價(jià)道,現(xiàn)在自動(dòng)生成的假消息越來越多,這種AI工具或許能有效打擊機(jī)器制造的假新聞、假視頻和灌水評(píng)論。