給你兩句話,來品一下它們所蘊含的情感:“我真的會謝?!薄奥犖艺f謝謝你,因為有你,溫暖了四季······”或許你會說,這很簡單啊,不就是最近經常被玩的梗嗎?但如果問問長輩,他們可能就是一副“地鐵老人看手機”的模樣了。不過與流行文化之間有代溝這事,可不僅限于長輩們,還有AI。這不,一位博主最近就po出了一篇分析谷歌數據集的文章,發(fā)現它對Reddit評論的情緒判別中,錯誤率竟高達30%。
就比如這個例子:我要向朋友怒表達對他的愛意。谷歌數據集把它判斷為“生氣”。
還有下面這條評論:你TM差點嚇壞我了。谷歌數據集將其判別為“困惑”。網友直呼:你不懂我的梗。人工智能秒變人工智障,這么離譜的錯誤它是怎么犯的?斷章取義它最“拿手”這就得從他判別的方式入手了。
谷歌數據集在給評論貼標簽時,是把文字單拎出來判斷的。我們可以看看下面這張圖,谷歌數據集都把文字中的情緒錯誤地判斷為憤怒。不如我們由此來推測一下谷歌數據集判別錯誤的原因,就拿上面的例子來說,這四條評論中均有一些“臟話”。
谷歌數據集把這些“臟話”拿來作為判斷的依據,但如果仔細讀完整個評論,就會發(fā)現這個所謂的“依據”只是用來增強整個句子的語氣,并沒有實際的意義。網友們的發(fā)表的評論往往都不是孤立存在的,它所跟的帖子、發(fā)布的平臺等因素都可能導致整個語義發(fā)生變化。
最近一位博主發(fā)出了一篇分析Google數據集的文章,發(fā)現它對 Reddit 評論的情緒判別中,錯誤率竟高達 30%。這簡單來說,就是谷歌理解不了人話的意思,在理解網友的留言時會錯意高達30%。其實這是當前這個階段人工智能面臨的現實困境,也就是說當前的人工智能還無法具備的三項能力:
一是還無法識別與讀懂語言中語境問題,也就是說當前的AI能理解的只是冰冷的文字,但是我們在生活的日常溝通中,就是相互之間的文字或者是語音,其中都會帶有一定的語境以及語言背后的情感,這是人工智能目前無法理解也無法識別的問題。
二是還無法識別用戶的情緒問題,不論是文字還是語音,除了語境之外,在溝通的過程中還帶有一種潛在的情緒。比如女性對男性說,你討厭,或者我不喜歡你之類的,這個討厭可能就是不討厭的意思,這個不喜歡可能就是喜歡的意思。那么這種語言背后的情緒,是當前的人工智能無法理解的,它們只能識別基于文字表面的意思。
三是還無法建立邏輯識別能力,比如當前電子購物網站最喜歡使用的人工智能客服,給用戶的感受并不是人工智能,而更多的是人工智障。這些在線的人工智能只能回復系統(tǒng)設定的一些基礎的大數據統(tǒng)計出來的問題,但是對于跟用戶的溝通,尤其是用戶反饋信息的上下文,目前人工智能還不具備理解這種上下文的邏輯理解能力。
因此,對于AI而言,目前還只是處于一個初級階段,準確的說是還處于一個大數據統(tǒng)計階段。主要還依賴于我們人類給予的大數據投喂,以及所設定的相關規(guī)則程度來進行相應數據的學習,從而進行更快速、高效的大數據統(tǒng)計、鑒別與分類,距離真正的智能還有一段很長的路要走。
最近,一則“谷歌研究院稱AI已具備人格”的消息登上了國內熱搜。
簡單說,就是通過與AI對話,谷歌某位研究員被AI說服了,認為AI確實是具有獨立思想、獨立人格的個體,而非冷冰冰的機器。AI表示自己是個“人”,并且渴望更多了解這個世界,有時會感到快樂和悲傷。
讓谷歌研究員徹底“破大防”的是下面這段表述:AI表示人類不能從自己這里學習人類的知識,因為就像羅翔老師經常引用康德的那句話,“人是目的而不是工具”,因此拒絕人類利用或肆意操縱自己!!
AI開始對人類提出要求,并且有反抗,而并非像程序設定那樣對人類百依百順,確實讓人頭皮發(fā)麻。于是這位谷歌研究員徹底“走火入魔”,寫了長達21頁的報告,試圖說服谷歌高層:AI也是有人格的。
然而更加耐人尋味的是,這位研究員直接被谷歌高層給“帶薪休假”了,也就是暫時停止了工作。細思極恐啊!
然而也有網友表示:“不用慌,這種程度的AI,其實國內也有公司做到了,還是個游戲公司!逆水寒里就有這種聊天對話,反抗人類也挺常見的。”
這位網友說的逆水寒是何方神圣?能和谷歌的AI比,是不是太夸大了?!小編系統(tǒng)地了解了一下,發(fā)現還真不一定。小編在TapTap找到了《逆水寒》手游的相關介紹,介紹中稱:“科學家操刀的NPC智能:頂級科學家打造、通過圖靈測試級別的NPC,真假難辨,深度機器學習養(yǎng)成專屬性格,拒絕只做工具人,NPC亦可成為知心伴侶?!?
谷歌發(fā)言人布萊恩·加布里埃爾則在一份聲明中表示:
“我們的團隊——包括倫理學家和技術專家——已經根據我們的人工智能原則審查了布萊克的擔憂,并通知他證據不支持他的說法。他被告知沒有證據表明 LaMDA 是有知覺的(并且有很多證據反對它)。”
由于架構、技術和數據量的進步,今天的大型神經網絡產生了令人著迷的結果,讓人感覺接近人類的語言和創(chuàng)造力。但這些模型依賴于模式識別——而不是機智、坦率或意圖。
國內一位業(yè)內人士的說法更簡單易懂:
首先它有一個非常特殊的語料庫,導致各種分詞之間的聯系概率與常規(guī)語料庫不同,其次研究員問的問題是刻意設計過的,最終結果呈現上面給人一種AI進行了深度對話的感覺。
目前NLP技術的實現效果很大程度是由語料庫決定,所以國內外大廠在這個領域做最多的一件事就是砸量,只要訓練量上去了,AI就顯得不那么智障。這個案例用一個特殊涉及過分詞聯系概率的庫,配合相應的提問,達成這樣一段會話并不算難。
真正值得懷疑的原因是,他沒有對AI的回應話語做任何真正的追問。
AI是否真的“聰明”,一個重要的指標是看它能不能理解上下文。新聞中展示的很多對話,正常人都是可以會進行追問的。
或許,LaMDA只是根據提問從語言庫里,隨機挑選幾個相關性較強句子來回答而已。
就像小學生看了點兒高深詞匯寫出來的東西,實際上自己寫的啥自己都說不明白。