當(dāng)前位置：首頁(yè) > 芯聞號(hào) > 極客網(wǎng)

原創(chuàng)

模型越新幻覺(jué)越重！AI幻覺(jué)扣住產(chǎn)業(yè)發(fā)展命脈

時(shí)間：2025-05-07 14:23:09

關(guān)鍵字：人工智能大模型 AI

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]自誕生以來(lái)，人工智能大模型始終被“幻覺(jué)”問(wèn)題困擾。這里的“幻覺(jué)”，指的是大語(yǔ)言模型會(huì)將虛構(gòu)信息當(dāng)作真實(shí)事實(shí)輸出。

自誕生以來(lái)，人工智能大模型始終被“幻覺(jué)”問(wèn)題困擾。這里的“幻覺(jué)”，指的是大語(yǔ)言模型會(huì)將虛構(gòu)信息當(dāng)作真實(shí)事實(shí)輸出。實(shí)際上，“幻覺(jué)”這一表述相當(dāng)委婉，它實(shí)則暴露出AI的核心缺陷——當(dāng)前的大語(yǔ)言模型尚未達(dá)到真正意義上的智能水平。

就在上個(gè)月，編程工具Cursor引發(fā)一場(chǎng)風(fēng)波。用戶(hù)收到消息稱(chēng)，其使用政策將進(jìn)行調(diào)整，未來(lái)僅支持在單臺(tái)電腦上使用。然而，這條消息很快被證實(shí)為假。Cursor首席執(zhí)行官兼聯(lián)合創(chuàng)始人Michael Truell迅速出面澄清：“我們并未制定類(lèi)似政策，用戶(hù)完全可以在多臺(tái)設(shè)備上使用Cursor。這一錯(cuò)誤信息源于一線(xiàn)AI機(jī)器人的錯(cuò)誤回復(fù)?！?

此次事件不僅讓用戶(hù)虛驚一場(chǎng)，更直觀(guān)展現(xiàn)了人工智能系統(tǒng)的不穩(wěn)定。

幻覺(jué)成為AI進(jìn)化的攔路虎

經(jīng)過(guò)數(shù)年發(fā)展，盡管AI技術(shù)在諸多領(lǐng)域取得突破，但在判斷信息真假時(shí)仍不盡如人意。即使是OpenAI、谷歌、DeepSeek等行業(yè)頭部機(jī)構(gòu)研發(fā)的模型也存在許多錯(cuò)誤輸出。

值得警惕的是，這些錯(cuò)誤并未隨著時(shí)間推移而減少，反而呈現(xiàn)增多趨勢(shì)。誠(chéng)然，AI在數(shù)學(xué)運(yùn)算、編程領(lǐng)域有所提升，但在處理復(fù)雜事實(shí)性信息時(shí)依然存在明顯短板，難以滿(mǎn)足用戶(hù)需求。

今天的AI實(shí)際上是根據(jù)“復(fù)雜數(shù)學(xué)系統(tǒng)”構(gòu)建的，它們通過(guò)不斷分析海量數(shù)字?jǐn)?shù)據(jù)，持續(xù)優(yōu)化自身性能。然而，算法系統(tǒng)始終存在一個(gè)根本性缺陷——無(wú)法有效區(qū)分信息真假。在一項(xiàng)測(cè)試中，相較于舊版AI系統(tǒng)，新版AI系統(tǒng)的“幻覺(jué)率”竟然更高，這說(shuō)明AI面臨嚴(yán)峻挑戰(zhàn)。

Vectara專(zhuān)注于企業(yè)級(jí)AI工具開(kāi)發(fā)，其首席執(zhí)行官Amr Awadallah直言：“盡管我們傾盡全力，可‘幻覺(jué)’問(wèn)題還是存在，它并沒(méi)有消失?！爆F(xiàn)狀表明，即便在專(zhuān)業(yè)團(tuán)隊(duì)的持續(xù)攻堅(jiān)下，AI“幻覺(jué)”依然是難以攻克的技術(shù)頑疾。

Okahu致力于解決AI“幻覺(jué)”問(wèn)題，其首席執(zhí)行官Pratik Verma也指出：“判斷AI回應(yīng)是事實(shí)還是虛假需要耗費(fèi)大量時(shí)間。如果不能妥善處理這些錯(cuò)誤，就無(wú)法保證人工智能系統(tǒng)發(fā)揮應(yīng)有價(jià)值，畢竟這些系統(tǒng)的設(shè)計(jì)初衷是幫助用戶(hù)自動(dòng)完成各項(xiàng)任務(wù)。”

AI企業(yè)并非不清楚“幻覺(jué)”問(wèn)題的存在，它們付出了巨大努力，但始終無(wú)法有效解決這一難題。OpenAI的內(nèi)部測(cè)試顯示，相比老系統(tǒng)，它所開(kāi)發(fā)的新系統(tǒng)“幻覺(jué)率”反而更高。

在PersonQA標(biāo)準(zhǔn)測(cè)試中，o3模型在33%的回答中產(chǎn)生幻覺(jué)，幾乎是o1模型（16%）的兩倍，而最新的o4-mini模型表現(xiàn)更差，“幻覺(jué)率”高達(dá)48%。若采用SimpleQA標(biāo)準(zhǔn)測(cè)試，情況同樣不容樂(lè)觀(guān)。o3和o4-mini的“幻覺(jué)率”分別達(dá)到51%和79%，o1模型的“幻覺(jué)率”也有44%。

OpenAI指出，AI系統(tǒng)從海量數(shù)據(jù)中學(xué)習(xí)，數(shù)據(jù)量之巨遠(yuǎn)超人類(lèi)專(zhuān)家的理解能力，因此很難確定問(wèn)題根源究竟在哪里。

人類(lèi)恐怕不能解決AI幻覺(jué)

華盛頓大學(xué)及艾倫人工智能研究所研究人員Hannaneh Hajishirzi表示，他們找到一種新方法，能夠追溯AI特定行為在訓(xùn)練數(shù)據(jù)中的源頭。但由于系統(tǒng)學(xué)習(xí)的數(shù)據(jù)量過(guò)于龐大，新工具無(wú)法解釋所有情況。Hannaneh Hajishirzi坦言：“我們?nèi)匀桓悴磺暹@些模型到底是如何運(yùn)行的?！?

Vectara近年來(lái)持續(xù)對(duì)AI系統(tǒng)展開(kāi)測(cè)試，通過(guò)讓系統(tǒng)總結(jié)新聞內(nèi)容的方式，觀(guān)察“幻覺(jué)率”的變化情況。然而，測(cè)試結(jié)果令人沮喪——“幻覺(jué)率”不僅未降低，反而呈上升趨勢(shì)。

長(zhǎng)期以來(lái)，OpenAI認(rèn)定一個(gè)理念：向AI投喂的數(shù)據(jù)越多，AI就會(huì)越聰明。但如今，AI在訓(xùn)練時(shí)幾乎耗盡所有互聯(lián)網(wǎng)英文信息，它的幻覺(jué)卻愈發(fā)嚴(yán)重。這一現(xiàn)實(shí)表明，若想突破“幻覺(jué)”困境必須探尋新的技術(shù)路徑。

當(dāng)前，工程師們開(kāi)始倚重“強(qiáng)化學(xué)習(xí)”技術(shù)。在數(shù)學(xué)、編程等領(lǐng)域，強(qiáng)化學(xué)習(xí)確實(shí)能通過(guò)試錯(cuò)機(jī)制實(shí)現(xiàn)學(xué)習(xí)與進(jìn)步，但在部分領(lǐng)域，該技術(shù)仍未帶來(lái)明顯改善。

此外，推理模型在解答復(fù)雜問(wèn)題時(shí)會(huì)先進(jìn)行“思考”，采用分步解決的策略。然而，每個(gè)思考步驟都潛藏著產(chǎn)生“幻覺(jué)”的風(fēng)險(xiǎn)，思考步驟越多，累積的錯(cuò)誤也就越多，這無(wú)疑給提升AI信息準(zhǔn)確性帶來(lái)更大挑戰(zhàn)。

如今的AI能夠展示思考過(guò)程，使用戶(hù)可以看到錯(cuò)誤產(chǎn)生的環(huán)節(jié)，這無(wú)疑是技術(shù)層面的一大進(jìn)步。然而研究人員發(fā)現(xiàn)，AI所展示的思考步驟可能與最終答案毫無(wú)關(guān)聯(lián)。Anthropic研究人員Aryo Pradipta Gema直言：“AI系統(tǒng)聲稱(chēng)自己正在思考，但它的思考有時(shí)并無(wú)必要?！?

一些研究人員甚至認(rèn)為，杜絕AI“幻覺(jué)”不可能實(shí)現(xiàn)，只能通過(guò)多種方法降低“幻覺(jué)率”。比如讓AI直面自身知識(shí)盲區(qū)，主動(dòng)向用戶(hù)承認(rèn)“我不知道”；引入“檢索增強(qiáng)生成”技術(shù)，促使AI通過(guò)檢索相關(guān)文檔輔助作答，而非單純依賴(lài)記憶數(shù)據(jù)直接輸出答案。

美國(guó)東北大學(xué)體驗(yàn)式人工智能研究所研究人員Usama Fayyad提出，“幻覺(jué)”這一表述存在概念偏差，它過(guò)度擬人化。Usama Fayyad強(qiáng)調(diào)，AI生成錯(cuò)誤信息與人類(lèi)產(chǎn)生幻覺(jué)存在本質(zhì)差異——AI既無(wú)意圖，也無(wú)意識(shí)，應(yīng)避免用帶有情感色彩的詞匯模糊技術(shù)本質(zhì)。（小刀）

聲明：該篇文章為本站原創(chuàng)，未經(jīng)授權(quán)不予轉(zhuǎn)載，侵權(quán)必究。

換一批

阿維塔、賽力斯已入股！華為引望可能成“中國(guó)博世”

9月2日消息，不造車(chē)的華為或?qū)⒋呱龈蟮莫?dú)角獸公司，隨著阿維塔和賽力斯的入局，華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字：阿維塔塞力斯華為

[美通社全球TMT]

Trianz與AWS達(dá)成戰(zhàn)略合作協(xié)議，徹底改變?cè)撇捎煤凸芾矸绞?/a>

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布，該公司與Amazon Web Services （AWS）簽訂了...

關(guān)鍵字： AWS AN BSP 數(shù)字化

[美通社全球TMT]

人工智能驅(qū)動(dòng)工具SODA V將顛覆汽車(chē)市場(chǎng)，使汽車(chē)開(kāi)發(fā)時(shí)間和成本降低90%

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車(chē)技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V，這是全球首款涵蓋汽車(chē)工程師從創(chuàng)意到認(rèn)證的所有需求的工具，可用于創(chuàng)建軟件定義汽車(chē)。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...

關(guān)鍵字：汽車(chē) 人工智能智能驅(qū)動(dòng) BSP

[美通社全球TMT]

從容應(yīng)對(duì)未知風(fēng)險(xiǎn)----解密亞馬遜云科技的韌性之道

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶(hù)希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行，同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn)，如企業(yè)系統(tǒng)復(fù)雜性的增加，頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性，提升韌性，成...

關(guān)鍵字：亞馬遜解密控制平面 BSP

[通信先鋒]

中國(guó)游戲市場(chǎng)開(kāi)始復(fù)蘇！騰訊、網(wǎng)易等巨頭縮減在日本投資

8月30日消息，據(jù)媒體報(bào)道，騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字：騰訊編碼器 CPU

[通信先鋒]

獨(dú)立自主！華為董事：致力打造不依賴(lài)西方的技術(shù)

8月28日消息，今天上午，2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行，華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字：華為 12nm EDA 半導(dǎo)體

[通信先鋒]

華為張平安：數(shù)字世界話(huà)語(yǔ)權(quán)最終由生態(tài)繁榮決定！

8月28日消息，在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上，華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱(chēng)，數(shù)字世界的話(huà)語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字：華為 12nm 手機(jī) 衛(wèi)星通信

[美通社全球TMT]

中國(guó)通信服務(wù)公布2024年中期業(yè)績(jī)

要點(diǎn)：有效應(yīng)對(duì)環(huán)境變化，經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升落實(shí)提質(zhì)增效舉措，毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著，戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng)，提升企業(yè)核心競(jìng)爭(zhēng)力堅(jiān)持高質(zhì)量發(fā)展策略，塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字：通信 BSP 電信運(yùn)營(yíng)商數(shù)字經(jīng)濟(jì)

[美通社全球TMT]

NVI技術(shù)創(chuàng)新聯(lián)盟成立！自主生態(tài)將帶動(dòng)產(chǎn)業(yè)鏈高速發(fā)展

北京2024年8月27日 /美通社/ -- 8月21日，由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字： VI 傳輸協(xié)議音頻 BSP

[美通社全球TMT]

軟通動(dòng)力與長(zhǎng)三角投資達(dá)成戰(zhàn)略合作共謀數(shù)字生態(tài)新發(fā)展

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上，軟通動(dòng)力信息技術(shù)（集團(tuán)）股份有限公司（以下簡(jiǎn)稱(chēng)"軟通動(dòng)力"）與長(zhǎng)三角投資（上海）有限...

關(guān)鍵字： BSP 信息技術(shù)