最新研究給AI醫(yī)生潑冷水:診斷準(zhǔn)確率僅為52.1%,與非專家醫(yī)生相當(dāng)
在人工智能(AI)技術(shù)飛速發(fā)展的當(dāng)下,AI在醫(yī)療領(lǐng)域的應(yīng)用一直備受關(guān)注。然而,一項最新的研究結(jié)果卻給AI醫(yī)生的前景潑了一盆冷水。據(jù)報道,大阪都會大學(xué)醫(yī)學(xué)研究生院的研究團隊深入評估了生成式AI在診斷醫(yī)療狀況方面的表現(xiàn),并將其與醫(yī)生進(jìn)行了對比,發(fā)現(xiàn)結(jié)果不那么如人意。
研究團隊從18371項研究中篩選出83項進(jìn)行詳細(xì)分析,涵蓋了GPT-4、Llama3 70B、Gemini 1.5 Pro和Claude 3 Sonnet等主流生成式AI模型,覆蓋了多個醫(yī)療領(lǐng)域。結(jié)果顯示,這些AI模型的平均診斷準(zhǔn)確率僅為52.1%(95%置信區(qū)間:47.0% - 57.1%),這一數(shù)字遠(yuǎn)遠(yuǎn)低于人們的預(yù)期。
更令人意外的是,AI的診斷準(zhǔn)確率與非專家醫(yī)生相當(dāng),兩者之間沒有顯著統(tǒng)計差異(準(zhǔn)確率差異:0.6%[95%置信區(qū)間:-14.5%至15.7%],p=0.93)。這意味著,盡管AI在某些領(lǐng)域表現(xiàn)出色,但在整體醫(yī)療診斷中,其能力并不比普通醫(yī)生更強。而與專家醫(yī)生相比,AI的差距則更為明顯,專家醫(yī)生的準(zhǔn)確率高出AI 15.8%(95%置信區(qū)間:4.4% - 27.1%,p=0.007)。
研究還發(fā)現(xiàn),AI在大多數(shù)醫(yī)學(xué)??频谋憩F(xiàn)較為一致,但在皮膚科和泌尿科這兩個領(lǐng)域卻出現(xiàn)了例外。在皮膚科,AI的表現(xiàn)相對出色,這可能是因為該領(lǐng)域涉及模式識別,而這是AI的強項。然而,皮膚科同樣需要復(fù)雜的推理和針對患者的決策,AI的優(yōu)勢并不能完全反映其在該領(lǐng)域的實際應(yīng)用價值。對于泌尿科,研究結(jié)果僅基于一項大型研究,結(jié)論的普適性受到一定限制。
研究團隊指出,盡管生成式AI在醫(yī)學(xué)教育中具有一定的潛力,可以用于模擬真實病例,幫助醫(yī)學(xué)生和受訓(xùn)者學(xué)習(xí)和評估技能,但在實際醫(yī)療診斷中,其局限性仍然明顯。研究人員強調(diào),未來的研究需要在更復(fù)雜的臨床場景中進(jìn)行評估,使用實際病歷進(jìn)行性能評估,提高AI決策的透明度,并在不同患者群體中進(jìn)行驗證,以進(jìn)一步證實AI的能力。
此外,研究還對AI模型的透明度和偏見提出了擔(dān)憂。許多AI系統(tǒng)并未公開其訓(xùn)練數(shù)據(jù)的詳細(xì)信息,這引發(fā)了關(guān)于其結(jié)果是否適用于所有人群的疑問。研究人員指出,透明度是確保對模型知識、背景和局限性理解的關(guān)鍵,而目前AI系統(tǒng)的不透明性可能會限制其在醫(yī)療領(lǐng)域的廣泛應(yīng)用。
總之,盡管生成式AI具有巨大潛力,但在涉及詳細(xì)患者信息的復(fù)雜病例中仍面臨巨大挑戰(zhàn)。這項研究結(jié)果表明,AI在醫(yī)療診斷領(lǐng)域的應(yīng)用仍需謹(jǐn)慎,其距離真正替代醫(yī)生還有很長的路要走。