如何利用深度學(xué)習(xí)加速癌癥研究
盡管近幾十年來(lái)在檢測(cè)和治療方面取得了穩(wěn)步進(jìn)展,癌癥仍然是美國(guó)的第二大死亡原因,每年約有50萬(wàn)人因癌癥去世。為了更好地認(rèn)識(shí)和對(duì)抗癌癥,醫(yī)學(xué)研究者們開(kāi)始借助癌癥登記程序開(kāi)展研究。這一全國(guó)性的組織網(wǎng)絡(luò)可系統(tǒng)收集與美國(guó)癌癥診斷、治療和發(fā)病史相關(guān)的人口統(tǒng)計(jì)數(shù)據(jù)和臨床信息。監(jiān)測(cè)工作由國(guó)家癌癥研究所(NCI)和疾病控制預(yù)防中心共同協(xié)作完成,目標(biāo)是使研究人員和臨床醫(yī)生能夠監(jiān)測(cè)全國(guó)、各州各地方的癌癥病例。
這些數(shù)據(jù)大部分摘自電子文本臨床報(bào)告。這些報(bào)告必須由人工整理,因此需要?dú)v時(shí)很久才能被用于研究。例如,一份詳細(xì)描述癌性組織的癌癥病理報(bào)告在被錄入登記系統(tǒng)之前必須先由多位專(zhuān)家審核。隨著每年數(shù)百萬(wàn)份新報(bào)告的不斷產(chǎn)生,信息負(fù)擔(dān)不斷加重。
美國(guó)能源部(DOE)橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室(ORNL)健康數(shù)據(jù)科學(xué)研究所主任Georgia Tourassi表示:“手動(dòng)模型是不可擴(kuò)展的。我們需要開(kāi)發(fā)新的工具,使其能夠自動(dòng)完成信息提取過(guò)程,真正實(shí)現(xiàn)美國(guó)癌癥監(jiān)測(cè)的現(xiàn)代化。”
自2014年以來(lái),Tourassi團(tuán)隊(duì)一直在專(zhuān)注于開(kāi)發(fā)一款能快速識(shí)別癌癥報(bào)告中有價(jià)值的信息的軟件,這種能力不僅可以節(jié)省時(shí)間,還可能揭示癌癥研究中被忽視的一些方法。在嘗試使用傳統(tǒng)的自然語(yǔ)言處理軟件試驗(yàn)后,該團(tuán)隊(duì)利用深度學(xué)習(xí)技術(shù)獲得了最新進(jìn)展,深度學(xué)習(xí)是一種機(jī)器學(xué)習(xí)技術(shù),能夠利用算法、大數(shù)據(jù)和圖形處理器的計(jì)算能力來(lái)模擬人類(lèi)的學(xué)習(xí)和智力。
借助于橡樹(shù)嶺計(jì)算機(jī)科學(xué)聯(lián)合研究所(Oak Ridge Leadership Computing Facility)的超級(jí)計(jì)算機(jī)TItan,Tourassi團(tuán)隊(duì)?wèi)?yīng)用深度學(xué)習(xí)技術(shù)從癌癥病理報(bào)告中提取到了有用的信息。通過(guò)使用適當(dāng)?shù)臄?shù)據(jù)集,該團(tuán)隊(duì)獲得的初步成果證明了深度學(xué)習(xí)在癌癥監(jiān)測(cè)中的潛力。
自動(dòng)數(shù)據(jù)工具的不斷發(fā)展與成熟是美國(guó)“癌癥登月計(jì)劃”(Cancer Moonshot iniTIaTIve)的目標(biāo)之一,將使醫(yī)學(xué)研究人員和政策制定者對(duì)美國(guó)癌癥人群的具體現(xiàn)狀獲得空前認(rèn)識(shí),而過(guò)去的病例數(shù)據(jù)僅僅來(lái)自不到癌癥患者總?cè)丝?%的臨床試驗(yàn)患者。
Tourassi說(shuō):“我們目前是根據(jù)很小比例的癌癥患者的治療效果做出判斷,而他們不能代表整個(gè)患者群體。我們的工作顯示了深度學(xué)習(xí)的潛力,它可以判斷癌癥治療和診斷方法的有效性,并讓癌癥患者更好地了解這些方法的現(xiàn)實(shí)效果。
開(kāi)發(fā)一款不僅能夠理解詞義還能理解詞語(yǔ)之間上下文關(guān)系的軟件并非易事,人類(lèi)需要通過(guò)多年的訓(xùn)練來(lái)發(fā)展這些技能。對(duì)于特定任務(wù),深度學(xué)習(xí)技術(shù)能夠?qū)⒃撨^(guò)程壓縮到幾個(gè)小時(shí)。
通常可通過(guò)訓(xùn)練神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)語(yǔ)境創(chuàng)建。該神經(jīng)網(wǎng)絡(luò)是一個(gè)加權(quán)計(jì)算網(wǎng)絡(luò),能就如何正確執(zhí)行任務(wù)提出明智的建議,如識(shí)別圖像或處理語(yǔ)言命令,輸入到神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)和選擇性反饋信息為軟件提供了決策依據(jù)。程序員很難弄清這一算法決策過(guò)程。Tourassi稱(chēng),有了深度學(xué)習(xí)技術(shù),用戶(hù)只需要把文件內(nèi)容導(dǎo)入,然后就能得到結(jié)果。它更像一個(gè)黑盒子,但這正是其吸引人之處。
圖形處理器可通過(guò)同時(shí)快速執(zhí)行多個(gè)深度學(xué)習(xí)計(jì)算進(jìn)程來(lái)加速軟件的學(xué)習(xí)過(guò)程。在最近兩項(xiàng)研究中,Tourassi團(tuán)隊(duì)使用了加速器調(diào)整多個(gè)算法,并將結(jié)果與傳統(tǒng)方法進(jìn)行比較。通過(guò)使用國(guó)家癌癥研究所的SEER項(xiàng)目提供的1976份病理學(xué)報(bào)告組成的數(shù)據(jù)集,Tourassi團(tuán)隊(duì)訓(xùn)練了一種深度學(xué)習(xí)算法,用來(lái)執(zhí)行兩種密切相關(guān)的信息提取任務(wù)。在第一項(xiàng)任務(wù)中,算法通過(guò)掃描每份報(bào)告的內(nèi)容確定腫瘤的首發(fā)部位。在第二項(xiàng)任務(wù)中,算法識(shí)別的是腫瘤部位的偏側(cè)性或腫瘤位于身體的哪一側(cè)。
該團(tuán)隊(duì)建立了一個(gè)能夠發(fā)現(xiàn)上述兩項(xiàng)任務(wù)間共同點(diǎn)的神經(jīng)網(wǎng)絡(luò),并稱(chēng)之為多任務(wù)學(xué)習(xí),他們發(fā)現(xiàn)該算法的表現(xiàn)明顯優(yōu)于其他方法。Tourassi說(shuō):“這樣的發(fā)現(xiàn)是有意義的,因?yàn)榱私庀嚓P(guān)任務(wù)的相互關(guān)系的目的正是為了執(zhí)行更難的任務(wù)。人類(lèi)可以勝任這種類(lèi)型的學(xué)習(xí),因?yàn)槲覀兝斫庠~語(yǔ)之間的語(yǔ)境關(guān)系,這正是我們?cè)噲D通過(guò)深度學(xué)習(xí)實(shí)現(xiàn)的目標(biāo)。”
Tourassi團(tuán)隊(duì)開(kāi)展的另一項(xiàng)研究使用了946份關(guān)于乳腺癌和肺癌的SEER報(bào)告應(yīng)對(duì)更復(fù)雜的挑戰(zhàn):使用深度學(xué)習(xí)將癌癥的來(lái)源與相應(yīng)的拓?fù)浯a進(jìn)行匹配。該分類(lèi)比癌癥的首發(fā)位置或偏側(cè)性更具特異性,有12種可能的答案。
為了解決上述問(wèn)題,該團(tuán)隊(duì)建立了一個(gè)卷積神經(jīng)網(wǎng)絡(luò)并使用各種語(yǔ)料訓(xùn)練。輸入的文本包括一般領(lǐng)域(如Google搜索的結(jié)果)、特定領(lǐng)域(如醫(yī)學(xué)文獻(xiàn))和高度專(zhuān)業(yè)化領(lǐng)域的資料(如癌癥病理報(bào)告),然后算法基于這些輸入信息創(chuàng)建一個(gè)數(shù)學(xué)模型,用以描繪單詞之間的聯(lián)系,其中包括不相關(guān)的文本之間共有的詞匯。
通過(guò)將這種方法與傳統(tǒng)的分類(lèi)器(如矢量空間模型)進(jìn)行比較,研究小組發(fā)現(xiàn),隨著網(wǎng)絡(luò)中納入了更多與癌癥相關(guān)的文本,算法性能變得越來(lái)越好。這些初步結(jié)果將有助于Tourassi團(tuán)隊(duì)進(jìn)一步擴(kuò)展深度學(xué)習(xí)算法,從而能夠處理更大的數(shù)據(jù)集并減少人為干預(yù)。
2016年,美國(guó)能源部將Tourassi團(tuán)隊(duì)的癌癥監(jiān)測(cè)項(xiàng)目列入了“百億億次級(jí)計(jì)算項(xiàng)目”,該團(tuán)隊(duì)在利用深度學(xué)習(xí)進(jìn)行癌癥研究方面已經(jīng)取得了巨大進(jìn)展,希望在未來(lái)能夠取得更多的研究成果。