在上一周,谷歌發(fā)布了一款叫做DeepVariant的程序。這款程序的作用主要是幫助使用者進行基因組數(shù)據(jù)的解讀。其實早在1年前,Google Brain和Verily生命科學公司就已經(jīng)開發(fā)出本套工具,并在2016年PrecisionFDA Truth Challenge中贏得了最高SNP性能獎。那么,對于我們來說,這套開源工具的意義在哪里呢?接下來,我們就用通俗易懂的語言來簡單剖析一下這套算法中所包含的各種技術。
DeepVariant究竟是什么?
相信大家都聽說過親子鑒定。歸根到底,它在進行的是DNA對比。在每個人的DNA中,有一段重復的堿基重復序列,這段序列有著明顯的個人差異。根據(jù)孟德爾的遺傳定律,只要檢測人和被檢測人相互對比這一段重復的堿基片段即可判斷是否擁有血緣關系。
但基因學的應用并不只限于此。人類的基因組中有著30億堿基對的序列,對于科學研究來說,基因的完整堿基排序尤為關鍵。假如某學家們想要識別某種疾病的基因,那么就需要大量的數(shù)據(jù)以及多次全部的基因排序,這個時候就需要進行完整的測序工作。
目前在科學領域已有多種DNA測序的方法。其中有一項名為HTS( high-throughput sequencing,高通量測序技術)的技術。速度快、成本低讓它得到了廣泛地商業(yè)應用。但是HTS檢測出來的基因序列并非完整。
對于人類來說,它每次檢測會產(chǎn)生10億個短的序列,而每個序列僅代表人類基因中30億個堿基中的100個。這些小的序列在測量的過程中會出現(xiàn)0.1%到10%的錯誤。所以對于HTS來說,將這些小片段拼湊成一個完整的基因序列并非是一件很容易的事情,其中的一些序列錯誤也會影響到科學家們的判斷。
在瓶中基因組聯(lián)盟等組織(GIAB)多次測量之后,它們發(fā)布了人類標準參考基因組。在HTS產(chǎn)生結果之后,讓這些結果與標準參考基因組做對比,就可以發(fā)現(xiàn)其中的變異點。而變異點形成的原因有兩種,一種是SNP單核苷酸多態(tài)性,另外一種則就是自身的程序錯誤。
而谷歌本次發(fā)布的DeepVariant則就是可以通過深度的學習來識別出這兩種錯誤,從而讓HTS的結果更為準確。其實在這之前,已經(jīng)有多套人工設計的算法來進行這項工作。其中最廣泛使用的就是GATK。但準確率和時間成本依然很高。
DeepVariant的原理是將拼接完整序列的問題轉換成圖片,經(jīng)過對模型的深層學習,來檢測圖片中的變異點,從而完成對基因變異點的檢測。拿個很簡單例子來說,這里有相似的多張A類、B類圖片。讓DeepVariant通過圖片特征并經(jīng)過一個一個步驟,最終將A類、B類圖片區(qū)分開來。
對于人工算法的GATK來說,DeepVariant在精確度上更勝一籌。
人工智能&學習
說起現(xiàn)在科技圈里最火的詞,那‘人工智能’可以算的上是一個。在前幾日的2017中國企業(yè)領袖年會上,李開復就對‘人工智能’表達出了厚望。他認為“AI時代是一個必然,會取代人類工作”。那么,事實真的如此嗎?
盡管上文中所說的DeepVariant離我們很遠,但在現(xiàn)實生活中,我們已經(jīng)可以看到多個AI的影子。就從我們的手機來說,智能手機上搭配的語音助手,A11、麒麟970等CPU上搭載的神經(jīng)網(wǎng)絡芯片會讓你的手機變得更加的聰明智能。它能幫助你在照相的時候區(qū)分性別,還能在解鎖的時候識別用戶。
連續(xù)戰(zhàn)勝多位棋圣的Alpha Go也是同樣運用了人工智能技術。除此之外,例如Netflix就通過AI算法為用戶推薦適合它們的節(jié)目。當你打開淘寶,你會發(fā)現(xiàn)首頁有著許多你想要的同類商品。其實在你的生活中,已經(jīng)有了許許多多的AI案例。
AI可以讓我們的生活變得更加便利,甚至讓許多不可能的事情變成了可能。在Reedit上就有一位用戶利用開源的學習工具偽造出了多名女性的色情電影。他的制作方法也很簡單,首先在Google和Youtube上搜索大量的名人臉部圖像,之后對這些圖像進行編譯,最后讓AI學習這些臉部并制作影片。
總結起來,目前人工智能的應用可以分為這幾類。一、代替人工的許多重復性勞動,減少操作成本,使工作變得更加簡便,二、為用戶提供定制信息、三、增添機器人格,塑造形象,加深互動。
第一點,語音助手就是個很好的例子,它可以為用戶減少操作成本。第二點,就如同Netflix、淘寶這樣的應用,為用戶定制個人信息,用戶可以更直觀、更簡單的看到自己想要的信息流。第三點的一個很好例子就是漢森機器人技術公司研發(fā)的一款機器人,它能夠學習適應人類的行為,與人類一起工作。讓機器擁有人格,塑造一個形象,完成從機械到人類的認知轉變。
當然,這些人工智能可以做到的事情都離不開一個詞,‘學習’。當你打開語音助手,沖著它喊:“設定我的名字,我叫XXX“,在下次它喊你的時候,它就會叫出你的名字。當你在閑魚搜索”iPhone X”,首頁就會出現(xiàn)多個二手iPhone X??梢哉f,人工智能的核心就在于此。
人的大腦可以在瞬間完成對多張照片的處理,并作出反應。機器則不然,機器需要通過算法在多張照片中找出特征點,并且使用大量的模型來學習他們。實際上就是在算法中不斷的調(diào)整權重比,與真正的所謂強AI還是有著不小的差距。反觀DeepVariant,在原理上其實非常簡單。甚至DeepVariant的團隊在接受采訪時,稱自己并不是很了解基因學。希望DeepVariant公布之后,能夠為其他人工智能公司有著一些思路上的啟發(fā)。
未來
在此時此刻,像DeepVariant這樣的工具也許對我們這樣普通的人來說還有些遙遠。但不可否認的是,DeepVariant背后隱藏的人工智能技術卻與我們每個人息息相關。相信就如李開復先生所說的,“AI時代是一個必然”。在未來,我們的生活周圍也許充滿了大量人工智能的“影子”,許多常見的職業(yè)也已經(jīng)被機器所取代。
但這又會不禁讓我們思索,在一味追求科技的同時,就業(yè)減少等負面問題該如何解決。也許在這個快速發(fā)展的時代,我們有的時候應該放下腳步,想想未來,這樣才能夠讓AI時代來的更快一些。