圖源:Brian/Stock.adobe.com
作者:Becks Simpson,貿(mào)澤電子專稿
發(fā)布日期:2023年3月30日
生成式預訓練轉(zhuǎn)換器 (GPT) 等自然語言處理 (NLP) 模型以制作類人文本、回答復雜問題和巧妙辯論各種主題的能力震驚世界,而其被濫用的可能性引發(fā)的擔憂也在日益加劇。雖然這些模型可以用于很多寫作應用,但如果用來完成作業(yè)將對學生的學習產(chǎn)生負面影響。因此,教育工作者也在尋求一些方法,以通過手動(如查看內(nèi)容本身的標志)或自動(如使用人工智能 (AI) 構(gòu)建的文本分類器)的方式,來判斷文本是否由AI生成。此外,還有一些人在嘗試重新設計課程,以讓學生無法用AI完成作業(yè),或者鼓勵學生自己完成作業(yè)。在所有方法中,重新設計課程似乎取得了較大的成效。
適當借助工具進行創(chuàng)作
新的NLP AI模型,特別是GPT變體(ChatGPT、GPT-3等),將徹底改變?nèi)祟悓懽鞣绞?。擁有如此強大的技術(shù)意味著,用戶可以更快地把一個想法或一系列要點變成一篇文章。 他們可以通過一些有用的提示和新的思路來激發(fā)寫作靈感,擺脫困擾。無論是否有經(jīng)驗,都可以借助新一代NLP模型來進行創(chuàng)作,而沒有經(jīng)驗的人更容易將自己的想法轉(zhuǎn)化為精彩的文章和故事。
然而,使用這些AI模型作為寫作輔助工具也有缺點。比如對于中高等教育等來說,寫作練習的目標是學習如何寫好文章,以及如何提出和表達有說服力的想法和論點。寫作也是學習如何研究論據(jù)以支持文章中提出的觀點以及磨練批判性思維技能的工具。完全依靠AI模型來完成這項工作會跳過這一過程,讓學生們無法學到這一重要技能。因此,了解如何確定某些東西是否是由AI編寫的成為了當下努力的方向。
發(fā)掘跡象:如何識別AI創(chuàng)作
隨著AI智能寫作的逐漸普及,我們看到AI創(chuàng)作的機會也越來越多,這也為我們提供了一個了解AI創(chuàng)作類型的窗口, 幫助我們識別內(nèi)容特征,以確定作者是人類還是機器。有趣的是,雖然準確性是一個較為具體的指標,但這些特征大多與散文的整體流暢度而非語法和拼寫細節(jié)有關(guān)。然而,對于通常引用明確答案或同一事實的高度熱門話題來說,即使是人類編寫的內(nèi)容也很可能看起來與AI生成內(nèi)容相似并重復。對于較短的文本來說更是如此,無論是看起來還是聽起來都難以辨別。因此,只有在文本足夠長的情況下,才有可能有效地識別出是否出自AI。
所以,AI文章往往會重復一些內(nèi)容,尤其是在編寫長篇文章時。ChatGPT這類模型會以先前所有的預測令牌為基礎(chǔ)預測下一個令牌;因此,在一系列的預測文本中,某些單詞出現(xiàn)得越早,它們重新出現(xiàn)的可能性就越大。AI寫作的另一個跡象是沒有感情,內(nèi)容平淡,沒有任何特別強烈的情感或觀點。對于師生這種讀者熟悉作者個性的情況,就很容易識別出來。如果還有同一作者的其他文本作為參考,就更加容易識別出AI文本,尤其是那些在考試等監(jiān)督條件下寫出來的文本可能沒有那么精致,更能表達作者的真實聲音。如果兩篇文章的常用表達方式和語言有很大差異,那么就很可能不是出自同一人之手。
另一個跡象是,是否正確陳述事實,以及引用是否正確。眾所周知,像GPT-3和ChatGPT等生成模型很難產(chǎn)生正確的答案(它們可能會自信地斷言并非如此),因為即使它們使用大量互聯(lián)網(wǎng)文本信息進行訓練,但實際上也無法記住所有內(nèi)容。因此,這些模型是在對事物有了大致了解的基礎(chǔ)上,將所學知識以類似人類的語言展現(xiàn)出來,而不是原樣照搬一些細枝末節(jié)。對于很多沒有關(guān)聯(lián)元素用以檢驗真實性的模型來說,由做了足夠研究的人發(fā)現(xiàn)作業(yè)中存在的錯誤,也能很好地證明這篇文章是由AI生成的, 尤其是在內(nèi)容與時事、人物或地點有關(guān)時,這是因為最新版本的公開模型只在某個日期(通常是2021年或2022年)的數(shù)據(jù)上進行了訓練。然而,在評估這一特定跡象時,需要檢查這一模型是否發(fā)布了更新的知識。
用魔法打敗魔法
隨著AI復雜度的不斷提升,其中一些跡象將消失或變得很微妙,以至于人類很難檢測到。一些新興的AI工具可用來檢測書面內(nèi)容是否來自AI;例如,一些較新的大型語言模型 (LLM) 正在接受訓練,以便知道何時向外部來源發(fā)出某些請求,進而檢索事實信息或運行數(shù)學計算。 為了消除難以確定作業(yè)是否由AI編寫的可能性,各大公司甚至推出了大量可以確定內(nèi)容出處的AI模型。就連ChatGPT的制作方OpenAI也發(fā)布了一款工具,便于教育工作者區(qū)分某篇文章是否由LLM編寫。經(jīng)過一系列測試,發(fā)現(xiàn)它能夠識別26%的AI書寫文本,但有9%的誤報率,會將人類書寫的文本錯誤標記為AI文本。盡管還存在準確性問題,但OpenAI仍希望這些不完美的工具能夠幫助打擊使用AI的學術(shù)不端行為。
組合分類器是另一種可以通過使用AI來提高檢測AI文本成功率的方法。GPTSZeroX和DetectGPT等其他文檔分類器可以檢測文本的突發(fā)性和困惑度。這兩個指標分別用于衡量機器人預測下一個文本的可能性,前提是人類創(chuàng)作具有更高的隨機性;以及困惑度在句子中的變化,以AI更傾向于保持困惑度不變?yōu)榍疤?。這些分類器都存在一定的局限性,例如,DetectGPT僅適用于某些GPT模型,因此將其中幾個分類器的結(jié)果組合起來可能會更好地識別出AI文本。
如何徹底解決問題
某種程度上來說,這看起來像是試圖用AI打敗AI的一種循環(huán)! 在檢查AI技術(shù)進步的同時,寫作AI也在不斷地學習,并將學會繞過這種檢查。這個循環(huán)將一直持續(xù)下去,直到某個時刻,幾乎不可能僅僅通過檢查內(nèi)容來確定一篇文章是否出自AI。這就會引導教育工作者嘗試對作業(yè)結(jié)構(gòu)和任務進行測試,例如,布置一些小眾主題(例如,當?shù)厣鐓^(qū)或鮮為人知的歷史人物)的作業(yè),讓學生寫一些個人的東西,或更多地關(guān)注基于項目的學習,進而讓他們發(fā)現(xiàn)AI難以勝任。
選擇小眾主題是因為通常AI對它們了解較少,學生們必須自己經(jīng)過研究才能找到正確的答案。他們可能仍然會使用這些模型來創(chuàng)作書面內(nèi)容,但至少學會了研究和評估信息相關(guān)性。要求學生寫個人話題更多的是源自心理學,因為當自己成為焦點時,人們更傾向于親歷親為。老師們發(fā)現(xiàn),相較于處理外部話題,學生在處理個人話題時更開放、更興奮。基于項目的學習也非常好,因為它包含了多個不同復雜程度的任務,通常存在一些AI無法完成的實際問題。例如,一個跨學區(qū)的項目涉及到研究當?shù)卣邔λ|(zhì)的影響,這意味著學生不僅需要研究政策,還需要實地測量水質(zhì)。他們還需要以圖形、圖表和圍繞數(shù)據(jù)的故事形式展示他們的發(fā)現(xiàn),這是ChatGPT難以做到的。
結(jié)語
雖然GPT模型家族在某些領(lǐng)域可能非常有用,但對于中高等教育等領(lǐng)域,還是應該謹慎使用這些模型,以避免過度依賴和忽視學習成效。因此,有些教育工作者正在尋求一些方法,以通過檢查文本是否存在事實記憶差、寫作無創(chuàng)意或缺乏創(chuàng)意以及過度重復等跡象,來確定某項作業(yè)是否是AI生成的。也有些人則在尋求AI檢測工具的幫助。然而,由于這兩種方法可能都不夠完美,或者會產(chǎn)生錯誤的結(jié)果,所以我們還需要找到更好的作業(yè)布置方法,以求超出AI能力范疇或者打消學生使用AI的想法。后者可能效果更好,因為它從一開始就在很大程度上規(guī)避了使用AI的欲望,從長遠來看也可以讓學生更加投入。
作者簡介