IBM大力炒作Watson機器學習系統(tǒng),未來的道路卻充滿荊棘
IBM,位列最聰明的50家公司榜單的中第39名,雖然對自家的Watson機器學習系統(tǒng)有些夸大,但這家公司的確能接觸到可將藥品信息變?yōu)楹唵斡杏玫臄?shù)據(jù)。
保羅·唐正待在醫(yī)院里陪伴剛完成關節(jié)置換手術之后的妻子。每年,在美國約有70萬人接受關節(jié)置換手術。唐本人是一名初級保健醫(yī)師,外科醫(yī)生走過來,唐問醫(yī)生根據(jù)自身經驗估計,依照他妻子的情況,大概需要多久能回歸正常的生活。醫(yī)生一直給出的都是支支吾吾的答復。“我最后明白了”唐說。“醫(yī)生他自己也不知道”。唐很快意識到大多數(shù)的醫(yī)生不知道病人回到家庭、工作后的生活方式,而生活方式對病人來講,至關重要。
唐不僅是病人眼中的醫(yī)生,還是IBM的Watson健康的首席康復執(zhí)行官。IBM差不多把自己的未來都押寶在Watson機器學習系統(tǒng)上了,而Watson健康是為Watson開發(fā)醫(yī)療保健應用程序的商業(yè)團隊。Watson能傳遞醫(yī)生無法實時獲取的信息。舉個例子,它能告訴醫(yī)生,類似于唐的妻子的情況,需要多久才能無痛的行走、上下樓梯。他甚至可以幫助分析圖像和組織樣本,為指定的病患確定最佳的治療方案。
出于這種可能,醫(yī)療保健是機器學習技術市場中最熱門的領域之一。根據(jù)研究機構CB Insights統(tǒng)計,至少有106家2013年起步的創(chuàng)業(yè)公司至今仍在運營。
多虧了Watson在益智問答節(jié)目危險邊緣中的成功,其他公司都沒有涉及Watson所關注的地方。IBM自2011年及之后的市場營銷工作一直做的不錯,但之后都是關于Watson的負面消息。IBM極力促成的與M.D.Anderson癌癥中心的合作與今年告吹。隨著IBM的收入下滑,股價起伏不定,分析人士質疑Watson能否提供真正的價值。創(chuàng)建風投公司,較有影響力的科技投資者Chamath Palihapitiya五月份在CNBC上聲稱:“Watson就是個笑話”。
然而,對于Watson的大多數(shù)批評,甚至是來自M.D.Anderson方面的批評,似乎不是針對任何技術上的缺陷,而是針對IBM對于Watson未來將達到的地步過于樂觀。事實上,在將AI應用到醫(yī)療衛(wèi)生問題方面,似乎仍是Watson健康處于龍頭地位。如果Watson至今還沒有實現(xiàn)之前提到的諸多功能,一個重要的原因是,它需要特定類型的數(shù)據(jù)去訓練自己。在很多情況下,這種數(shù)據(jù)供給緊俏或者難以觸及。但這個問題不是僅僅針對Watson,整個醫(yī)療健康領域的機器學習都是處于進退兩難的處境。
丟失和無法接觸數(shù)據(jù)可能會讓Watson的緩腳步,還可能給對IBM的競爭者帶來更沉重的打擊。獲取數(shù)據(jù)的最佳選擇在于跟大型醫(yī)療衛(wèi)生機構保持良好的關系,而這些機構在技術上傾向于保守態(tài)度。相對于創(chuàng)業(yè)公司亦或是巨頭Apple、Google,IBM在取得大型機構的高管、IT經理的信任方面做的尤為出色。盡管M.D.Anderson項目存在問題,IBM自身仍具備重要優(yōu)勢。這些優(yōu)勢使得Watson能進入各種各樣的醫(yī)療中心、醫(yī)療衛(wèi)生管理集團和生命科學公司。所有的這些機構能夠提供塑造AI在醫(yī)藥領域未來的重要數(shù)據(jù)。
不現(xiàn)實的時間表
和M.D.Anderson的分道揚鑣似乎意味著IBM在炒作Watson方面搬起石頭砸了自己的腳。
癌癥中心于2012年與IBM合作。目的是為了讀取關于病人特征、基因序列和病理報告的數(shù)據(jù),結合數(shù)據(jù)與醫(yī)生對病人的醫(yī)囑、相關的日志記錄,為醫(yī)生提供診斷和治療。但是IBM和M.D.Anderson對于技術都抱有過高的期望。IBM在2013年聲稱“計算的新紀元到了”,給Forbes一種Watson“進入臨床試驗”的印象,在幾個月后就能用于病患。在2015年,華盛頓郵報引用一位IBM Watson主管的關于Watson如何忙于建立“人機之間的集合智慧模型”的描述。郵報稱電腦系統(tǒng)“正在與醫(yī)生一同訓練,完成醫(yī)生無法勝任的工作”。
“醫(yī)療衛(wèi)生在采用新技術方面一直處于尷尬的遲滯狀態(tài)”Cleveland診所醫(yī)生、醫(yī)療衛(wèi)生信息專家Manish Kohli如此說到。
在今年2月份,運營M.D.Anderson項目的德克薩斯大學宣布關閉該項目,使得醫(yī)療中心跟IBM欠款3900萬美元,而項目的原始合同額為240萬美元。四年之后,項目并未做出符合初步測試能用于病人的系統(tǒng)。M.D.Anderson沒有對Watson做具體的評論,但問題似乎出現(xiàn)在內部關于項目如何管理和資助方面。
那樣并不意味著IBM與Watson之間沒有問題。實際上,二者間的問題比IBM面臨的其他問題要大許多。
要了解什么拖慢了進度,你必須清楚像Watson這樣的機器學習系統(tǒng)是如何被訓練的。Watson通過不斷重新調整它的內部處理流程來得到一些問題集合的最高可能性的正確答案,比如哪張放射性圖片顯示癌癥。正確答案必須是已知的,這樣系統(tǒng)才能被告知它何時做對,何時做錯。系統(tǒng)能吞吐的問題量越大,得到結果的準確率就越高。
當訓練系統(tǒng)識別X射線圖像中的惡性腫瘤時就相對簡單。但對于潛在的新問題已經遠超人類所涉及的范圍,比如檢測基因變量和疾病之間的關系。Watson存在一個雞生蛋還是蛋生雞的問題:沒有經過專家篩選和合理整理的數(shù)據(jù)如何能用來訓練系統(tǒng)?紐約Memorial Sloan-Kettering癌癥中心的計算病理學家Thomas Fuchs稱,如果你在教一輛自動駕駛汽車,任何人都可以標記一棵樹或一個標識,系統(tǒng)才能學會識別標記。“但在醫(yī)藥的特殊領域,你可能需要經過數(shù)十載訓練的專家來標記用來訓練系統(tǒng)的數(shù)據(jù)”。
在IBM希望Watson發(fā)力的每個領域都會出現(xiàn)形形色色的絆腳石,任何其他公司的機器學習解決方案都會遇到相同的情況。為了鍛煉Watson去仔細檢查數(shù)據(jù)庫并提取針對單個病人的幾條信息,必須要有人提前手工整理成百上千條的病例。為了識別與疾病相關的基因,Watson需要成千上萬條有具體疾病且DNA已經被分析的患者記錄。但這種患者及其基因記錄的組合數(shù)據(jù)是很難得到的。在很多情況下,數(shù)據(jù)并非按照正確的格式存在,或者按照任何格式存在。數(shù)據(jù)也可能分散在諸多不同的系統(tǒng)中,難以處理。
舉個例子,把更好的數(shù)據(jù)放在臨床醫(yī)師的面前來達到改善初級衛(wèi)生保健的目的。當醫(yī)生沒能在常規(guī)的初級保健訪問中治理一些相對較小的健康隱患,這些健康隱患可能會惡化而將病人送進急救室或者專家那里,病人的健康將受損而且開銷劇增。IBM Watson健康的首席醫(yī)療官,同時也是一位執(zhí)業(yè)的初級保健護理醫(yī)師稱,在健康方面花的錢有三分之一可能都是不必要的。機器學習被普遍認為是解決這一問題的機會。為了真正幫助醫(yī)生為患者帶來更好的效果,Watson將需要找出它在健康記錄中讀取的內容與唐口中所謂的“健康的所有社會決定因素”之間的關聯(lián)。這些因素包括患者是否吸毒,避免錯誤的食品,呼吸新鮮的空氣等等。但唐承認幾乎沒有醫(yī)院或醫(yī)療機構能獲取相當比例患者的可靠數(shù)據(jù)。部分原因是醫(yī)院在采取現(xiàn)代化、數(shù)據(jù)驅動的實踐方面較為遲緩。“醫(yī)療衛(wèi)生在采用新技術方面一直處于尷尬的遲滯狀態(tài)”Cleveland診所醫(yī)生、醫(yī)療衛(wèi)生信息專家Manish Kohli如此說到。
哪里有數(shù)據(jù),IBM通常就是簡單地過去把它買下來。IBM收購了Truven Health Analytics、Explorys和Phytel等公司。所有的這些公司在處理跨醫(yī)院與病患人群的大宗數(shù)據(jù)集上都表現(xiàn)活躍。即使在解散M.D.Anderson項目合約之后,IBM仍有一些重要的伙伴關系使得其未來能接觸到患者數(shù)據(jù)。
他們中的一家機構便是Atrius Health。Atrius Health是一個由波士頓地區(qū)近900位主要是初級保健醫(yī)師組成的網絡?;锇殛P系的目的是開發(fā)和測試一個基于Watson的系統(tǒng),系統(tǒng)將具備從海量筆記、記錄和文獻中提取出對單個病患至關重要的信息。Atrius的首席醫(yī)療官Joe Kimura說:“尋求所有相關信息對于初級保健醫(yī)生來說是一件艱巨的任務。電子化醫(yī)療記錄可能會讓問題更加糟糕,他補充道。因為這些系統(tǒng)會大大增加每次訪問中產生的數(shù)據(jù)量而且沒有提供用于方便檢索的標準格式。
重要的是,患者記錄中大多數(shù)筆記是常規(guī)IT系統(tǒng)無法理解的句子。為了提取句子的含義,Watson可以使用為危險邊緣而開發(fā)的自然語言處理技術。理想情況下,它可以為醫(yī)師提供建議幫助病人避免額外的護理。“為什么我們應該只關注確保做好髖骨骨折的病人的護理工作?”Kimura問到,“我們何時能預測哪位病人有摔倒的風險并幫助他們避免摔壞髖骨?我們要向上推進護理工作”。
2013年,M.D.Anderson的一位白血病醫(yī)生在咨詢病人時,使用IBM的Watson系統(tǒng)
IBM在2015年宣布Watson的診斷能力將因由Merge Healthcare獲取的數(shù)據(jù)而得到進一步提升。Merge Healthcare是IBM花費10億美元收購的醫(yī)療圖像管理公司。
Watson健康一直與紐約護理協(xié)調中心合作。該中心是由政府資助的機構,與六個縣的約2000個保健服務機構合作?;锇殛P系旨在達成急診室入院和出院病人因相關問題再次入院的數(shù)量減少25%的目標。它還隱含的提供了接觸大量病患數(shù)據(jù)的途徑。
接觸此類數(shù)據(jù)有很多途徑。Google的姐妹公司之一正在試圖直接從患者身上獲取數(shù)據(jù)。Verily生命科學,Alphabet的一個健康護理部門,正與杜克大學、斯坦福大學合作開發(fā)基于約10000名志愿者的高度結構化的健康數(shù)據(jù)庫。數(shù)據(jù)庫中數(shù)據(jù)不僅來自他們的日常就診,還來自可穿戴的健康監(jiān)測設備。盡管可能要花費10年甚至更久才能獲取高度可用的結果,這在獲取數(shù)據(jù)方面依然是令人為之振奮的一次飛躍。
Sloan-Kettering紀念癌癥中心的Fuchs的團隊希望訓練一個人工智能系統(tǒng)去讀取組織染色的幻燈片。這一過程將需要大量已經確診并用數(shù)字化標記的幻燈片和其他重要的數(shù)據(jù)。所以這個團隊正準備獨自生產40000張幻燈片。“那可比其他家的數(shù)據(jù)多了去了”Fuchs稱。“因為生物學中的所有變量,這將是一個浩瀚的工程”。
即便棄Watson項目的命運不顧,M.D.Anderson一直在進行一項大的項目。這個項目大概跟Watson項目同時起步,專注于收集自家中心每位病人1700種類型的臨床數(shù)據(jù)。運營該項目的科學家Andy Futreal稱,把研究數(shù)據(jù)與病患信息結合將對系統(tǒng)希望Watson具備的各種能力至關重要。Futreal表示,“一旦掌握了數(shù)據(jù),我們便可以進入人工智能機器學習的業(yè)務,該業(yè)務將揭示哪些治療有效,哪些無效”。
IBM持續(xù)從合作伙伴那里積累數(shù)據(jù)。盡在癌癥診斷和護理方面,公司就和Memorial Sloan-Kettering、Mayo診所、哈佛和麻省理工附屬的Broad Institute以及醫(yī)療測試巨頭Quest Diagnostics。Sloan-Kettering紀念癌癥中心已經制作了一個通過篩查期刊文獻來確定治療方案的系統(tǒng)。該系統(tǒng)已經在弗羅里達的木星醫(yī)療中心和印度的醫(yī)療連鎖店進行了推廣。在研發(fā)藥物方面,Watson健康和巴羅神經研究所合作發(fā)現(xiàn)了與ALS疾病從未聯(lián)系到一起過的5個關聯(lián)基因,和安大略省大腦研究所合作確認21種可能的替代藥物。
Watson在改善健康結果、降低開銷方面會有所作為嗎?可能吧,專注健康護理、投資人工智能健康護理方面的創(chuàng)業(yè)公司的風投公司Bessemer Venture Partners的合伙人Stephen Kraus這樣評價到。“IBM一直是真刀實槍的在做”,Kraus稱。“這不是像哄抬股價那樣放出煙霧彈”。但Kraus和其他專家一樣懷疑不切實際的時間表和承諾,其中的一些質疑聲來自IBM自身。“這實現(xiàn)起來很困難”他說到。“Watson今天不會實現(xiàn),可能5年之后也不會實現(xiàn),而且它不會取代醫(yī)生”。