深度學(xué)習(xí)能使細(xì)胞和基因圖像變得怎樣
卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)使計(jì)算機(jī)更加有效、全面的處理圖像,生物學(xué)領(lǐng)域正在逐漸運(yùn)用這一技術(shù),它能使細(xì)胞、基因等圖像更加清晰,使機(jī)器看到更多人類從未見過的東西。
眼睛被認(rèn)為是心靈的窗口——而谷歌的研究人員把它看作是一個(gè)人的健康指示器。這家科技巨頭正在通過分析人視網(wǎng)膜照片,利用深度學(xué)習(xí)來預(yù)測(cè)人的血壓、年齡和吸煙狀況。谷歌(Google)的計(jì)算機(jī)從血管的排列中收集線索——一項(xiàng)初步研究表明,這些機(jī)器可以利用這些信息來預(yù)測(cè)一個(gè)人是否有心臟病發(fā)作的危險(xiǎn)。
這項(xiàng)研究依賴于一種卷積神經(jīng)網(wǎng)絡(luò),這是一種深層學(xué)習(xí)算法,它正在改變生物學(xué)家分析圖像的方式??茖W(xué)家們正在使用這種方法來發(fā)現(xiàn)基因組中的突變,并預(yù)測(cè)單細(xì)胞排列的變化。谷歌的方法已于2017年8月公布(R.Poplin等人,預(yù)印于https://arxiv.org/abs/1708.09843;2017),這是一系列新的深度學(xué)習(xí)應(yīng)用程序的一部分,這些應(yīng)用程序使圖像處理變得更容易、更通用,甚至可以識(shí)別被忽視的生物現(xiàn)象。
“以前,將機(jī)器學(xué)習(xí)應(yīng)用于生物學(xué)的許多領(lǐng)域是不現(xiàn)實(shí)的,”谷歌公司一工程主管菲利普·納爾遜(Philip Nelson)說,“但現(xiàn)在可以了——而更令人興奮的是,機(jī)器現(xiàn)在可以看到人類以前可能從未見過的東西?!?/p>
卷積神經(jīng)網(wǎng)絡(luò)使計(jì)算機(jī)能夠高效、整體地處理圖像,而不必將圖像分割成多個(gè)部分。這種方法于2012年左右開始在科技行業(yè)流行起來,這得益于計(jì)算機(jī)能力和存儲(chǔ)技術(shù)的進(jìn)步;例如,F(xiàn)acebook利用這種深度學(xué)習(xí)來識(shí)別照片中的人臉。但是科學(xué)家們一直在努力將這些網(wǎng)絡(luò)應(yīng)用到生物學(xué)中,部分原因在于不同領(lǐng)域之間的文化差異?!罢乙蝗郝斆鞯纳飳W(xué)家,把他們放在一個(gè)由聰明的計(jì)算機(jī)科學(xué)家組成的房間里,他們會(huì)互相講兩種不同的語言,并且有不同的思維模式?!奔又菖f金山一家由谷歌母公司Alphabet支持的生物技術(shù)公司Calico的首席計(jì)算官達(dá)芙妮·科勒(Daphne Koller)說。
科學(xué)家還必須確定哪些類型的研究可以通過網(wǎng)絡(luò)進(jìn)行,這些網(wǎng)絡(luò)必須經(jīng)過大量的圖像訓(xùn)練才能開始預(yù)測(cè)。當(dāng)Google想利用深度學(xué)習(xí)來發(fā)現(xiàn)基因組中的變異時(shí),它的科學(xué)家必須將DNA字母串轉(zhuǎn)換成計(jì)算機(jī)能夠識(shí)別的圖像。然后他們?cè)贒NA片段上訓(xùn)練他們的網(wǎng)絡(luò),這些片段與一個(gè)參考基因組一致,并且其突變是已知的。最終的結(jié)果是2017年12月發(fā)布的、可以在DNA序列中找到微小的變化的工具DeepVariant。在測(cè)試中,DeepVariant至少和常規(guī)工具一樣好。
位于華盛頓西雅圖的艾倫細(xì)胞科學(xué)研究所(Allen Institute for Cell Science)的細(xì)胞生物學(xué)家,正在利用卷積神經(jīng)網(wǎng)絡(luò)把用光學(xué)顯微鏡拍攝的細(xì)胞的平面灰色圖像轉(zhuǎn)換成3D圖像,3D圖像中一些細(xì)胞的細(xì)胞器都用彩色標(biāo)記。該方法消除了對(duì)細(xì)胞著色的需要——細(xì)胞著色這個(gè)過程需要更多的時(shí)間和復(fù)雜的實(shí)驗(yàn)室,且可能會(huì)損壞細(xì)胞。上個(gè)月,該小組公布了一項(xiàng)先進(jìn)技術(shù)的細(xì)節(jié),該技術(shù)可以使用一些數(shù)據(jù)(比如細(xì)胞的輪廓)來預(yù)測(cè)更多細(xì)胞的形狀和位置。
麻省理工學(xué)院和哈佛大學(xué)的影像平臺(tái)主任Anne Carpenter說:“你現(xiàn)在看到的是,機(jī)器學(xué)習(xí)能完成與成像有關(guān)的生物學(xué)任務(wù),這是一個(gè)前所未有的轉(zhuǎn)變?!痹?015年,她的跨學(xué)科團(tuán)隊(duì)開始使用卷積神經(jīng)網(wǎng)絡(luò)來處理細(xì)胞圖像;Carpenter說,現(xiàn)在她的中心利用卷積神經(jīng)網(wǎng)絡(luò)方法處理的圖像數(shù)據(jù)約有15%。她預(yù)測(cè),幾年后,該方法將成為該中心的主要處理方式。
其他人對(duì)這想法最為興奮:使用卷積神經(jīng)網(wǎng)絡(luò)來分析圖像可能會(huì)在不經(jīng)意間暴露出微妙的生物現(xiàn)象,這促使生物學(xué)家提出他們可能從未考慮過的問題。尼爾森說,“科學(xué)上最有趣的短語不是‘我發(fā)現(xiàn)了!’,而是‘這太奇怪了——發(fā)生了什么事?’”
艾倫研究所的執(zhí)行主任里克·霍維茨(Rick Horwitz)說,這種偶然的發(fā)現(xiàn)可能有助于促進(jìn)疾病研究。如果深度學(xué)習(xí)能夠揭示單個(gè)細(xì)胞中癌癥的細(xì)微標(biāo)志物,將有助于提高研究者對(duì)腫瘤惡化的分類。這反過來又會(huì)引發(fā)關(guān)于癌癥如何擴(kuò)散的新假設(shè)。
其他機(jī)器學(xué)習(xí)的生物學(xué)行家已經(jīng)把目光投向了新的前沿,現(xiàn)在,卷積神經(jīng)網(wǎng)絡(luò)正快速向圖像處理領(lǐng)域發(fā)展。德國環(huán)境健康研究中心(German Research Center for Environmental Health in Neuherberg)的計(jì)算生物學(xué)家亞歷克斯·沃爾夫(Alex Wolf)說,“成像很重要,但化學(xué)和分子數(shù)據(jù)也很重要”。沃爾夫希望調(diào)整神經(jīng)網(wǎng)絡(luò),以便分析基因表達(dá)?!拔艺J(rèn)為在未來幾年將會(huì)有非常大的突破,”他說,“這使得生物學(xué)家能夠更廣泛地應(yīng)用神經(jīng)網(wǎng)絡(luò)?!?/p>