騰訊優(yōu)圖首個醫(yī)療AI深度學習預訓練模型MedicalNet正式對外開源。據(jù)稱,這是全球第一個提供多種3D醫(yī)療影像專用預訓練模型的項目,將為全球醫(yī)療AI發(fā)展提供基礎。許多研究表明,深度學習的發(fā)展非常依賴數(shù)據(jù)量。自然圖像領域中存在著許多海量數(shù)據(jù)集,如ImageNet,MSCOCO?;谶@些數(shù)據(jù)集產(chǎn)生的預訓練模型推動了分類、檢測、分割等應用的進步。
不同于自然圖像,醫(yī)療影像大部分都是3D結(jié)構(gòu)形態(tài)的,同時,由于數(shù)據(jù)獲取和標注難度大,數(shù)據(jù)量稀少,目前尚未存在海量數(shù)據(jù)集及對應的預訓練模型。
MedicalNet是由騰訊優(yōu)圖開發(fā)的一系列預訓練模型,在深度學習應用基礎上開發(fā)而成,專用于3D醫(yī)療影像。據(jù)稱,MedicalNet可以為任何3D醫(yī)療影像AI應用起到“打地基”的作用,加快模型收斂,減輕模型對數(shù)據(jù)量的依賴。
據(jù)了解,MedicalNet具備以下特性:1、MedicalNet提供的預訓練網(wǎng)絡可遷移到任何3D醫(yī)療影像的AI應用中,包括但不限于分割、檢測、分類等任務;2、尤其適用小數(shù)據(jù)醫(yī)療影像AI場景,能加快網(wǎng)絡收斂,提升網(wǎng)絡性能;3、通過簡單配置少量接口參數(shù)值,即可進行微調(diào)訓練;4、項目提供多卡訓練以及測試評估代碼,接口豐富,擴展性強;5、提供不同深度3D ResNet預訓練模型,可供不同數(shù)據(jù)量級應用使用。
為了產(chǎn)生3D醫(yī)療影像的預訓練模型,MedicalNet聚集多個來自不同3D醫(yī)療領域的語義分割小規(guī)模數(shù)據(jù)集,并提出了基于多分支解碼器的多域聯(lián)合訓練模型來解決數(shù)據(jù)集中的標注缺失問題。據(jù)稱,該團隊的預訓練模型可以遷移到任何3D醫(yī)療影像應用的深度學習模型中。
該團隊將MedicalNet模型遷移到預訓練時未接觸過的Visceral和LIDC數(shù)據(jù)集中,完成全新的肺部分割和肺結(jié)節(jié)分類任務,并與目前常用的從零訓練(train from scratch)以及Kinetics視頻3D預訓練模型在性能以及收斂速度上做了比較。
據(jù)稱,在肺部分割應用上,相比于Train from Scratch,MedicalNet在Dice上有16%到33%幅度的提升,相比于KineTIcs有4%到7%幅度的提升。在肺結(jié)節(jié)良惡性分類應用上,相比于Train from Scratch,MedicalNet有6%到23%幅度的預測正確率(Acc)提升,相比于KineTIcs有7%到20%幅度的提升。
在收斂速度上,實驗證明,無論是在肺分割任務還是肺結(jié)節(jié)分類任務上,MedicalNet均能為模型提供一個較低的初始化損失值,明顯加快損失下降速度,下圖為MedicalNet性能的一個簡單示例,展示了在全器官分割應用中,不同預訓練方式在一定訓練迭代次數(shù)下的測試結(jié)果??梢钥闯觯谖覀兊念A訓練模型(MedicalNet)的結(jié)果最接近標簽(ground truth),且遠優(yōu)于從零訓練(train from scratch)的結(jié)果,更多細節(jié)請參考論文(論文:《Med3D: Transfer Learning for 3D Medical Image Analysis》)。
隨著人工智能的火熱化,醫(yī)療影像AI也成為了當前各應用領域中最熱門的版塊。區(qū)別于其他人工智能應用,人工智能在醫(yī)療領域的應用門檻最高,最大的原因在于標注數(shù)據(jù)的匱乏。醫(yī)療影像數(shù)據(jù)的獲取通常需要經(jīng)歷重重關(guān)卡,同時,由于領域的專一性,數(shù)據(jù)通常需要資深醫(yī)師標注,而每個3D數(shù)據(jù)的標注耗時耗力。在當前緊張的醫(yī)護資源下,醫(yī)療影像數(shù)據(jù)的獲取戰(zhàn)線將非常漫長,大大阻礙了應用落地的進程。再者,標注數(shù)據(jù)量相當有限,大部分醫(yī)療部門都需要面臨數(shù)據(jù)量稀少和深度學習之間的鴻溝。
專有領域?qū)S心P停琈edicalNet相當于為各個3D醫(yī)療影像應用準備了具備臨床通用知識的數(shù)據(jù)庫。即使在小數(shù)據(jù)量中,該數(shù)據(jù)庫的有效特征也能幫助落地應用取得較好的醫(yī)療檢測性能,這大大減輕醫(yī)療影像AI應用對數(shù)據(jù)量的依賴,實現(xiàn)了落地需求,加快了落地速度。
截至2019年8月,騰訊已在Github上發(fā)布81個開源項目,包含騰訊AI、微信、騰訊云、騰訊安全等相關(guān)領域,并累計在 Github 獲得了超過23萬Star數(shù),在國內(nèi)和國際收獲了關(guān)注和認可。MedicalNet是騰訊在醫(yī)療AI領域的首個開源項目,有望為全球醫(yī)療AI發(fā)展提供重要基礎。騰訊表示,后續(xù)也將繼續(xù)提供更多類型的模型,為全球醫(yī)療AI的基礎建設助力。