人工智能系統(tǒng)如何加速探尋癌癥
多虧了新的人工智能系統(tǒng),科學家們可以更容易地在浩如煙海的已發(fā)表的癌癥研究文獻中搜索。
該系統(tǒng)被稱為Lion LBD,由劍橋大學的計算機科學家和癌癥研究人員共同開發(fā),旨在幫助科學家尋找與癌癥相關的新發(fā)現(xiàn)。這是第一個基于文獻的搜尋系統(tǒng),旨在支持癌癥研究。研究結果發(fā)表在《生物信息學》雜志上。
全球癌癥研究在世界范圍內(nèi)吸引了大量的資金,而科學文獻數(shù)量現(xiàn)在如此龐大,以至于研究人員都在努力跟上:至關重要的假設猜想的證據(jù)常常在文獻發(fā)表后很長一段時間內(nèi)才被發(fā)現(xiàn)。
癌癥是一類非常復雜的疾病,尚未被人類完全了解,是全球第二大死因。癌癥病變涉及到許多化學和生物化學分子的反應和變化,癌癥研究正在各種各樣的細分科學領域進行,這些領域在描述類似概念的方式上存在差異。
“作為一名專業(yè)的癌癥研究人員,即使你知道自己在尋找什么,每天也會有成千上萬的論文出現(xiàn),”劍橋語言技術實驗室的副主任安娜·科霍恩教授說,她與英國劍橋癌癥研究所的將成田博士以及瑞典卡洛林斯卡學院的斯滕紐斯教授合作,領導了Lion LBD的開發(fā)。“Lion LBD利用人工智能技術幫助科學家跟上他們領域中已發(fā)表的文獻,也可以通過將文獻中已知的信息結合起來,在看似無關的信息源之間建立聯(lián)系,幫助他們做出新的發(fā)現(xiàn)。”
Lion LBD中的“LBD(Literature-Based Discovery)”代表基于文獻的發(fā)現(xiàn),這是一個在20世紀80年代發(fā)展起來的概念,該概念旨在通過從斷開的信息來源收集信息片段來尋求新的發(fā)現(xiàn)。原始版本的LBD背后的關鍵思想是,文獻中從未明確聯(lián)系過的概念可能通過中間概念間接聯(lián)系在一起。
Lion LBD系統(tǒng)的設計允許實時搜索發(fā)現(xiàn)數(shù)千萬出版物數(shù)據(jù)庫中實體之間的間接關聯(lián),同時保留用戶在其原始上下文中探索每個提及內(nèi)容的能力。
“例如,你可能知道一種癌癥藥物會影響某一特定途徑的現(xiàn)象,但是對于Lion LBD,你可能會發(fā)現(xiàn)一種完全針對不同疾病開發(fā)的藥物會影響同一途徑,”Korhonen說。
Lion LBD是第一個專門為癌癥研究開發(fā)的系統(tǒng)。它特別關注癌癥的分子生物學,并使用最先進的機器學習和自然語言處理技術,以檢測文本中提到的癌癥特征。對該系統(tǒng)的評估表明,它能夠識別未發(fā)現(xiàn)的鏈接,并對潛在的相關概念的關聯(lián)度進行排序。
該系統(tǒng)使用開放數(shù)據(jù)、開放源代碼和開放標準構建,可以作為交互式基于Web的接口或可編程的API使用。
研究人員目前正在努力擴大LION LBD的范圍,以包括更多的領域和關聯(lián)。他們還與癌癥研究人員密切合作,幫助和改進終端用戶的研究技術。
該系統(tǒng)是與劍橋大學語言技術實驗室、英國劍橋癌癥研究所和瑞典卡羅琳斯卡研究所合作開發(fā)的,由醫(yī)學研究委員會提供資助。