醫(yī)患的福星:人工智能造就“醫(yī)療大腦”
整體說(shuō)來(lái),醫(yī)學(xué)是一門(mén)知識(shí)驅(qū)動(dòng)類(lèi)學(xué)科,只要從多維度收集足夠多、足夠可靠的知識(shí),就能在輔助決策層面發(fā)揮巨大的價(jià)值,把醫(yī)療人員從繁雜的重復(fù)性勞動(dòng)中解放出來(lái),進(jìn)而去做更多有創(chuàng)造性的事。如果能利用人工智能幫助醫(yī)生在浩如煙海的醫(yī)學(xué)知識(shí)里對(duì)應(yīng)癥狀和疾病,甚至輔助醫(yī)生決策并對(duì)癥下藥,無(wú)疑能夠提升醫(yī)療資源的優(yōu)化效率。
醫(yī)生每天進(jìn)行的重復(fù)性勞動(dòng)可以體現(xiàn)在三個(gè)方面:交互、發(fā)現(xiàn)和決策,而這些都可以為機(jī)器所勝任:交互層面:醫(yī)生在問(wèn)診時(shí)和患者的詢(xún)問(wèn)性交互,針對(duì)患者的用藥指導(dǎo)、患者追蹤等;發(fā)現(xiàn)層面:保險(xiǎn)審核人員在醫(yī)保單據(jù)審核中的機(jī)械重復(fù)性勞動(dòng),醫(yī)生對(duì)治療方案的校對(duì)審核等;決策層面:醫(yī)生根據(jù)患者的癥狀表現(xiàn)、輔助檢查,給出診斷結(jié)果,根據(jù)診斷結(jié)果給出治療建議等。
康夫子CEO張超做的正是這樣一個(gè)“醫(yī)療大腦”——利用人工智能技術(shù),從醫(yī)學(xué)文獻(xiàn)中自動(dòng)學(xué)習(xí)知識(shí)、構(gòu)建知識(shí)圖譜、實(shí)現(xiàn)知識(shí)推理,再將普通公眾對(duì)癥狀的描述及疾病的理解準(zhǔn)確地映射在嚴(yán)肅醫(yī)療平面。用AI幫用戶(hù)整理信息。
北京康夫子科技有限公司CEO 張超
張超在百度工作五年,擔(dān)任自然語(yǔ)言處理部資深研發(fā)工程師、文本知識(shí)挖掘方向負(fù)責(zé)人。和網(wǎng)民的搜索行為打交道,已經(jīng)成為他工作的常態(tài)。一次偶然的機(jī)會(huì),張超發(fā)現(xiàn)網(wǎng)民對(duì)一些醫(yī)療健康類(lèi)問(wèn)題往往在百度上會(huì)翻看很多頁(yè)結(jié)果,但呈現(xiàn)的內(nèi)容實(shí)際上良莠不齊。由此,張超產(chǎn)生了利用人工智能代替網(wǎng)民整理頁(yè)面的有效信息,以提升用戶(hù)體驗(yàn)的想法。當(dāng)時(shí)張超瞄準(zhǔn)了對(duì)營(yíng)養(yǎng)最為看重的一個(gè)群體——孕婦人群來(lái)構(gòu)建知識(shí)圖譜,推出了一個(gè)“飲食記錄分析”的功能。通過(guò)孕婦的日常飲食記錄,用戶(hù)可以判斷營(yíng)養(yǎng)攝入是否均衡,進(jìn)而獲取更科學(xué)的膳食指導(dǎo)。
想法很美好,然而在實(shí)際操作中收效甚微。張超告訴記者,在產(chǎn)品上線后,只有不到20%的孕婦會(huì)去嘗試去記錄自己的飲食,不到8%的孕婦能連續(xù)記錄1周。
張超由這次創(chuàng)業(yè)中得到了教訓(xùn):雖然孕婦人群對(duì)營(yíng)養(yǎng)的要求關(guān)注甚高,但在現(xiàn)階段,網(wǎng)民對(duì)營(yíng)養(yǎng)還處于“葉公好龍”的階段。“營(yíng)養(yǎng)不是剛需,在一定程度上還帶著“反人性”的特征。”而一些B端公司了解到康夫子在做的知識(shí)圖譜,希望能以付費(fèi)形式來(lái)使用他們的服務(wù)。而考慮到相對(duì)于“營(yíng)養(yǎng)”,“醫(yī)療”的痛點(diǎn)更加突出,也讓張超開(kāi)始想做剛需,想做“我們最擅長(zhǎng)的事”。
而這一切,就從優(yōu)化醫(yī)療行為中的重復(fù)性勞動(dòng)開(kāi)始。
“醫(yī)療大腦”是怎樣煉成的?
在今年3月份,康夫子開(kāi)始為B端提供知識(shí)和技術(shù)服務(wù),而它們也從原來(lái)的“飲食建議服務(wù)商”轉(zhuǎn)向成為“醫(yī)療人工智能技術(shù)、知識(shí)、數(shù)據(jù)提供商”。
知識(shí)圖譜在數(shù)據(jù)表現(xiàn)層面由兩部分組成:首先是實(shí)體節(jié)點(diǎn),其次是實(shí)體之間的關(guān)系。舉個(gè)例子:疾病名、癥狀名、藥品名、化驗(yàn)指標(biāo)這些數(shù)據(jù)是實(shí)體節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)和節(jié)點(diǎn)之間都有一一對(duì)應(yīng)的關(guān)系,比如疾病和癥狀的對(duì)應(yīng)關(guān)系、某種疾病需要使用什么藥品、疾病需要做哪些化驗(yàn)等。而在實(shí)際的診斷中,還會(huì)涉及更多的對(duì)應(yīng)關(guān)系。
康大夫在做的知識(shí)圖譜,主要就是教會(huì)計(jì)算機(jī)在閱讀海量文本后,自動(dòng)給出描述某種知識(shí)的書(shū)寫(xiě)規(guī)律,并進(jìn)行大規(guī)模的知識(shí)自動(dòng)抽取。
數(shù)據(jù)抽取主要分為四步:
1. 數(shù)據(jù)預(yù)處理,比如,數(shù)據(jù)清洗、分詞、專(zhuān)名識(shí)別、指代消岐等任務(wù);
2. 模式學(xué)習(xí),基于上億條文本,自動(dòng)去發(fā)現(xiàn)這些文本的書(shū)寫(xiě)規(guī)律;
3. 知識(shí)抽取,針對(duì)上億條文本,以繼續(xù)學(xué)習(xí)到的模式進(jìn)行二次抽取;
4. 增強(qiáng)學(xué)習(xí)+Bootstrapping,基于一些標(biāo)注數(shù)據(jù)、判斷準(zhǔn)則,不斷重復(fù)第2、3點(diǎn),并給出準(zhǔn)確率超過(guò)99%的結(jié)果數(shù)據(jù)。
有了完善的知識(shí)圖譜,還遠(yuǎn)遠(yuǎn)不夠,系統(tǒng)要具備推理能力才能實(shí)現(xiàn)智能診斷。在康夫子系統(tǒng)上,這體現(xiàn)在兩個(gè)方面,一是知識(shí)向量化表示,這一步也是構(gòu)建口語(yǔ)化醫(yī)學(xué)和文獻(xiàn)專(zhuān)業(yè)術(shù)語(yǔ)的橋梁的關(guān)鍵步驟。也就是,將患者描述的通俗語(yǔ)句“翻譯”為專(zhuān)業(yè)術(shù)語(yǔ)(如“抽筋”和“痙攣”的對(duì)應(yīng)關(guān)系);二是判斷多種癥狀綜合下和疾病之間的權(quán)重,配合診斷模型,提升診斷的命中率。
而比起其它知識(shí)圖譜的構(gòu)建有所不同的是,醫(yī)學(xué)知識(shí)的分散性及無(wú)結(jié)構(gòu)化這兩大特性,導(dǎo)致醫(yī)學(xué)圖譜的構(gòu)建更加困難。比如在娛樂(lè)領(lǐng)域,從娛樂(lè)站點(diǎn)、百科知識(shí)就能快速挖掘明星的作品、配偶等知識(shí)關(guān)系,但在醫(yī)學(xué)領(lǐng)域,需要閱讀大量權(quán)威文獻(xiàn)后進(jìn)行抽取,才能達(dá)到預(yù)期效果。
再有一點(diǎn)就是邏輯應(yīng)用,醫(yī)生囿于知識(shí)壁壘及醫(yī)學(xué)本身的復(fù)雜性,在診斷領(lǐng)域無(wú)法面面俱到的情況下,康大夫能夠給予交互,根據(jù)患者的回答情況進(jìn)一步判斷病癥。
康夫子的主要業(yè)務(wù)內(nèi)容主要包括API服務(wù)和臨床輔助決策兩部分。根據(jù)張超的說(shuō)法,康夫子已經(jīng)完成了對(duì)藥物知識(shí)圖譜的構(gòu)建,目前覆蓋近30萬(wàn)種藥物,針對(duì)100種常見(jiàn)病的典型癥狀準(zhǔn)確率已超過(guò)90%,針對(duì)4000種熱門(mén)疾病的典型癥狀的命中率也超過(guò)80%。
雖然在診斷效果上已經(jīng)超過(guò)絕大部分全科醫(yī)生,但康夫子系統(tǒng)仍不能獨(dú)立完成診斷。除了倫理因素外,實(shí)際場(chǎng)景的診斷復(fù)雜度也使人工智能技術(shù)目前只能針對(duì)特定任務(wù)進(jìn)行處理。這也讓張超堅(jiān)定了服務(wù)于B端的想法,“我們不直接服務(wù)與患者,但是患者可以通過(guò)我們的B端合作伙伴獲取服務(wù)。”
在張超的理解中,作為一門(mén)60年的學(xué)科,針對(duì)特定任務(wù)的人工智能應(yīng)用在未來(lái)3-5年會(huì)融入到每個(gè)人的生活當(dāng)中。而以自動(dòng)駕駛、圍棋為代表的邏輯驅(qū)動(dòng),和以醫(yī)療為代表的知識(shí)驅(qū)動(dòng)就是人工智能的兩個(gè)“引擎”。當(dāng)然,除了在智能診斷領(lǐng)域繼續(xù)完善知識(shí)圖譜外,張超同樣希望以知識(shí)為動(dòng)力的醫(yī)療智能化能在邏輯層面更好地服務(wù)人類(lèi),比如虛擬助手、藥物挖掘、智能診斷方案等,讓醫(yī)生真正從繁雜的勞動(dòng)中解放出來(lái)。