蘋果炮轟AI推理模型：全是假思考！所謂思考只是一種假象

時(shí)間：2025-06-09 10:46:53

關(guān)鍵字： AI 蘋果大模型

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]6月8日消息，蘋果近日發(fā)表了一篇研究論文，稱推理模型全都沒真正思考，無論DeepSeek、o3-mini還是Claude 3.7都只是另一種形式的“模式匹配”，所謂思考只是一種假象。

6月8日消息，蘋果近日發(fā)表了一篇研究論文，稱推理模型全都沒真正思考，無論DeepSeek、o3-mini還是Claude 3.7都只是另一種形式的“模式匹配”，所謂思考只是一種假象。

有人總結(jié)到：蘋果剛剛當(dāng)了一回馬庫斯，否定了所有大模型的推理能力。

蘋果團(tuán)隊(duì)認(rèn)為，現(xiàn)有評估主要集中在既定的數(shù)學(xué)和編碼基準(zhǔn)上，看模型最終答案是否正確，但可能存在模型訓(xùn)練時(shí)見過類似題目。

并且，這些評估大都缺乏對“思考過程質(zhì)量”的分析，比如中間步驟是否邏輯一致、是否繞彎路等。

為了更客觀測試推理模型的推理能力，他們設(shè)計(jì)了4類謎題環(huán)境：漢諾塔、跳棋交換、過河問題、積木世界，并且這4類謎題的難度可以精確控制.

隨著問題變難，推理模型初始會(huì)延長思考，但隨后思考深度反而下降，盡管仍有充足token預(yù)算，它們卻在最需要深入思考時(shí)選擇了放棄!

并且，當(dāng)問題復(fù)雜度繼續(xù)增加并超過某個(gè)臨界點(diǎn)時(shí)，無論是推理模型還是標(biāo)準(zhǔn)模型都會(huì)經(jīng)歷完全的性能崩潰，準(zhǔn)確率直線下降至零。

對此，有網(wǎng)友諷刺到：“蘋果擁有最多的資金，2年了也沒有拿出像樣的成果，現(xiàn)在自己落后了，卻來否定別人的成果。”

據(jù)悉，Apple Intelligence在2024年WWDC正式亮相，在這一年里，蘋果宣傳中的許多功能都經(jīng)歷延期、不夠完善甚至被下架。

不過也有人指出，這篇論文沒有看上去那么消極，而是呼吁設(shè)立更好的推理機(jī)制和評估辦法。

www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站