人工智能比醫(yī)生更能診斷皮膚癌嗎
一項由多國科學家聯(lián)合完成的研究表明,基于卷積神經(jīng)網(wǎng)絡的人工智能在診斷皮膚癌方面已達到比人類醫(yī)生更出色的水準。
研究人員首次證明一種被稱之為深度學習卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)的人工智能/機器學習技術(shù)在診斷皮膚癌方面比經(jīng)驗豐富的皮膚科醫(yī)生表現(xiàn)更加出色。
在知名癌癥領(lǐng)域期刊《腫瘤學年鑒》(Annals of Oncology)上發(fā)表的一項研究中,德國、美國和法國的研究人員通過向CNN展示超過10萬張惡性黑色素瘤(一種最致命的皮膚癌)和良性葡萄胎(或痣)的影像,對其進行皮膚癌辨識訓練。他們將CNN的表現(xiàn)與58位國際皮膚科醫(yī)生的表現(xiàn)進行了比較,發(fā)現(xiàn)與皮膚科醫(yī)生相比,CNN漏掉的黑色素瘤更少且將良性葡萄胎誤診為惡性的頻率更低。
CNN是一種人造神經(jīng)網(wǎng)絡,受到大腦中的神經(jīng)細胞(神經(jīng)元)互相連接并對眼睛所見事物產(chǎn)生反應時作用的生物進程啟發(fā)。CNN能夠通過它“看到”的圖像快速學習,并教會自己通過學到的內(nèi)容改善自己的表現(xiàn)(稱之為機器學習的過程)。
該研究第一作者、德國海德堡大學(University of Heidelberg)皮膚病學系高級主治醫(yī)生霍爾格·亨斯爾(Holger Haenssle)教授解釋道:“CNN像小孩子的大腦一樣工作。為了訓練它,我們向CNN展示了超過10萬張惡性/良性皮膚癌和葡萄胎影像,并指明每張影像的診斷結(jié)果。我們只使用皮膚鏡影像,即放大10倍的病變影像,這讓CNN提高了其區(qū)分良性和惡性病變的能力。完成訓練后,我們通過海德堡資料庫創(chuàng)建了兩組測試影像,這些圖像從未用于訓練,因而對于CNN來說是未知的。每組共有300張影像,專為測試CNN的表現(xiàn)而構(gòu)建。在這樣做之前,我們選擇了100個最難的病灶用于測試真人皮膚科醫(yī)生,以便與CNN的結(jié)果進行對比?!?/p>
該研究邀請了來自17個國家/地區(qū)的58位皮膚科醫(yī)生參與,其中有17人(29%)表示他們在皮膚鏡檢查方面的經(jīng)驗不足兩年;11人(19%)表示他們較為熟練,擁有兩年到五年的經(jīng)驗;30人(52%)為專家級別,擁有超過五年的經(jīng)驗。
皮膚科醫(yī)生被要求首先僅根據(jù)皮膚鏡檢查影像(I級)對惡性黑色素瘤或良性葡萄胎做出診斷,并決定如何管理病情(手術(shù)、短期隨訪或無需采取措施)。然后,他們會在四周后獲得關(guān)于患者的臨床信息(包括年齡、性別和病變部位)以及之前100個病例的特寫影像(II級),并被再次要求做出診斷和管理決策。
在I級,皮膚科醫(yī)生對黑色素瘤的平均檢測準確率為86.6%,且對非惡性病變的平均正確辨識率為71.3%。但是,當CNN經(jīng)過調(diào)整達到與醫(yī)生相同的良性葡萄胎正確辨識水平(71.3%)時,CNN檢測出了95%的黑色素瘤。在II級,皮膚科醫(yī)生的表現(xiàn)得到改善,準確地診斷出88.9%的惡性黑色素瘤和75.7%的非癌癥病變。
“CNN漏掉的黑色素瘤更少,這意味著它比皮膚科醫(yī)生的敏感度更高,并且其將良性葡萄胎誤診為惡性黑色素瘤的次數(shù)更少,這意味著它擁有更高的特異性;這將減少不必要的手術(shù),”亨斯爾教授說道?!爱斊つw科醫(yī)生在II級收到更多臨床信息和影像時,他們的診斷表現(xiàn)得到改善。但是,CNN仍然僅依靠皮膚鏡影像進行工作,沒有額外的臨床信息,卻繼續(xù)展現(xiàn)了優(yōu)于醫(yī)生的診斷能力?!睂<壹壠つw科醫(yī)生在I級的表現(xiàn)比經(jīng)驗較少的皮膚科醫(yī)生的表現(xiàn)更好,并且能夠更好地檢測出惡性黑色素瘤。但是,他們在兩個級別做出正確診斷的平均能力仍然低于CNN?!斑@些研究結(jié)果表明,深度學習卷積神經(jīng)網(wǎng)絡在檢測黑色素瘤這項任務中能夠比皮膚科醫(yī)生表現(xiàn)更加出色,包括接受過各種培訓的專家,”他說道。
惡性黑色素瘤的發(fā)病率正在增加,估計全球每年會有232,000個新病例和約55,500個死亡病例。如果能夠及早發(fā)現(xiàn),黑色素瘤可以治愈,但許多病例在癌癥病程更加嚴重且更難治療時才能被診斷出來。
亨斯爾教授說道:“近20年來,我參與了旨在于黑色素瘤的可治愈階段及早檢測出黑色素瘤的研究項目。我的團隊和我將重點放在可幫助醫(yī)生避免漏掉黑色素瘤的非侵入性技術(shù)上,例如,在進行皮膚癌篩查時。當我看到最近關(guān)于深度學習算法在特定任務中勝過人類專家的報告時,我立即意識到,我們必須探索如何將這些人工智能算法用于診斷黑色素瘤?!?/p>
研究人員并未設想CNN將從皮膚科醫(yī)生手中接管皮膚癌的診斷,但它可以用作額外的輔助手段?!按薈NN可為參與皮膚癌篩查的醫(yī)生服務,以幫助他們決定是否對病變進行活檢。大多數(shù)皮膚科醫(yī)師已在使用數(shù)字皮膚鏡系統(tǒng)拍攝和存儲病變影像,以進行存檔和跟進。CNN隨后可輕松、快速地評估存儲的影像并提供有關(guān)黑色素瘤概率的“專家意見”。我們目前正在計劃進行前瞻性研究,以評估CNN對醫(yī)生和患者的實際影響?!?/p>
這項研究存在一些局限性,其中包括皮膚科醫(yī)生處于人造環(huán)境中且他們知道自己不是在做出“生死決定”這一事實;測試集不包括所有皮膚病變;來自非白種人皮膚類型和遺傳背景的經(jīng)過驗證的影像較少;以及醫(yī)生可能不會總是遵循其不信任的CNN的建議這一事實。
在相關(guān)編輯評論中,維多利亞·馬爾(Victoria Mar)博士(澳大利亞墨爾本莫納什大學[Monash University])和H.彼得·索耶(H. Peter Soyer)教授(澳大利亞布里斯班昆士蘭大學[University of Queensland])寫道:“目前,黑色素瘤的診斷準確率取決于主治醫(yī)生的經(jīng)驗和接受的培訓。。。。。亨斯爾等人已展示,使用卷積神經(jīng)網(wǎng)絡的計算機算法表現(xiàn)優(yōu)于接受測試的58位皮膚科醫(yī)生中的大多數(shù)人。。。。。這表明人工智能(AI)有望實現(xiàn)更加標準化的診斷準確率水平,這樣一來,所有人都能夠獲得可靠的診斷評估,而無論他們住在哪里,或者他們看的是哪個醫(yī)生?!彼麄儚娬{(diào)了在人工智能可能成為臨床標準前需要解決的幾個問題,其中包括難以對手指、腳趾和頭皮等部位的一些黑色素瘤進行成像,以及如何充分訓練人工智能以辨識非典型黑色素瘤和患者未意識到的黑色素瘤。
研究人員得出結(jié)論:“目前,沒有全面臨床檢查的替代選擇。但是,二維和三維人體攝影能夠捕獲約90%至95%的皮膚表面,考慮到成像技術(shù)的指數(shù)級發(fā)展,我們預計自動化診斷遲早會改變皮膚病學的診斷模式。然而,要將這項令人興奮的技術(shù)安全地應用于常規(guī)臨床護理,我們還有很多工作要做。”