如何在健康云上進(jìn)行大數(shù)據(jù)的挖掘與分析
掃描二維碼
隨時(shí)隨地手機(jī)看文章
三、健康云上的大數(shù)據(jù)分析
由于醫(yī)療數(shù)據(jù)的一些特有的性質(zhì),給健康云上的大數(shù)據(jù)分析帶來(lái)了特殊的挑戰(zhàn)。
1、 醫(yī)療數(shù)據(jù)是持續(xù)、大量增長(zhǎng)的大數(shù)據(jù)。根據(jù)估算,中國(guó)一個(gè)中等城市(一千萬(wàn)人口)50年所積累的醫(yī)療數(shù)據(jù)量就會(huì)達(dá)到10PB級(jí)。并且,隨著時(shí)間的推移和業(yè)務(wù)系統(tǒng)的不斷升級(jí)換代,醫(yī)療數(shù)據(jù)模式的一致性也無(wú)法保證。因此,每天都會(huì)有大量的數(shù)據(jù)持續(xù)不斷的導(dǎo)入?yún)^(qū)域醫(yī)療數(shù)據(jù)中心,并且每當(dāng)有數(shù)據(jù)模式的更改,相關(guān)的歷史數(shù)據(jù)也需要做相應(yīng)的調(diào)整。所以,區(qū)域醫(yī)療數(shù)據(jù)中心并不是簡(jiǎn)單的傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)概念。相比之下,它的模式更靈活、寫(xiě)入和更新的操作更多,而對(duì)數(shù)據(jù)存儲(chǔ)的水平可擴(kuò)展性的要求也更高。
2、 醫(yī)療數(shù)據(jù)是關(guān)系復(fù)雜的多維數(shù)據(jù)。由于醫(yī)療數(shù)據(jù)是多種數(shù)據(jù)源數(shù)據(jù)的匯總,數(shù)據(jù)之間的關(guān)系非常復(fù)雜。比如:一個(gè)簡(jiǎn)單的實(shí)驗(yàn)室檢驗(yàn)檢測(cè)值,必須同時(shí)記錄這個(gè)值對(duì)應(yīng)的編碼系統(tǒng)和編碼、單位、檢測(cè)時(shí)間、檢驗(yàn)項(xiàng)目、標(biāo)本編碼,以及相關(guān)聯(lián)的患者主索引號(hào)、就診機(jī)構(gòu)、申請(qǐng)科室、申請(qǐng)醫(yī)師標(biāo)識(shí)號(hào)、報(bào)告醫(yī)師標(biāo)識(shí)號(hào)、審核醫(yī)師標(biāo)識(shí)號(hào)、正常值參考等等。一條檢測(cè)記錄就可以把患者、醫(yī)生、醫(yī)療機(jī)構(gòu)多個(gè)實(shí)體在不同層次上關(guān)聯(lián)起來(lái)。而不同的醫(yī)療信息服務(wù)更需要從不同的視角來(lái)觀(guān)察這些數(shù)據(jù),如下圖所示。比如:以患者為中心的服務(wù)需要把一個(gè)患者的全周期數(shù)據(jù)按照時(shí)間軸排列,并分析診斷、用藥和患者生命體征、檢驗(yàn)檢測(cè)值之間的關(guān)聯(lián);以醫(yī)生為中心的服務(wù)又需要把與一個(gè)醫(yī)生相關(guān)的患者數(shù)據(jù)挑揀出來(lái),并進(jìn)行分類(lèi);以科室為中心的服務(wù)可能需要即從科室所屬醫(yī)生的角度,又要從在該科室就診患者的角度進(jìn)行分析;針對(duì)社區(qū)的服務(wù)可能需要統(tǒng)計(jì)整個(gè)社區(qū)居民某項(xiàng)指標(biāo)(比如血壓、血糖)的達(dá)標(biāo)率。總之,醫(yī)療數(shù)據(jù)的多維度多粒度為各種信息服務(wù)的多角度多層次分析提供了可能,但同時(shí)也為大數(shù)據(jù)分析帶來(lái)了挑戰(zhàn)。因?yàn)槲覀儾豢赡転槊恳环N信息服務(wù)存儲(chǔ)一份特定的優(yōu)化模式的數(shù)據(jù),況且我們也無(wú)法枚舉出所有可能的信息服務(wù)需求。這就需要醫(yī)療數(shù)據(jù)的存儲(chǔ)模型能夠適應(yīng)靈活多變的多維統(tǒng)計(jì)分析需求。
3、 醫(yī)療數(shù)據(jù)是具有語(yǔ)義的數(shù)據(jù)。大家可能聽(tīng)說(shuō)過(guò)語(yǔ)義網(wǎng)(Semantic Web),它是為讓數(shù)據(jù)能跨應(yīng)用進(jìn)行共享和重用所設(shè)計(jì)的框架體系。我們可以把語(yǔ)義網(wǎng)簡(jiǎn)單地理解為:一個(gè)讓機(jī)器(machines)讀懂的維基百科(Wikipedia),主要包括了各種條目的定義以及各個(gè)條目之間的關(guān)系。如果數(shù)據(jù)也采用這些條目和關(guān)系組織內(nèi)容,那么機(jī)器就可以自動(dòng)理解數(shù)據(jù)的語(yǔ)義,并推理出各種知識(shí)。所以建立語(yǔ)義網(wǎng)的關(guān)鍵就是如何制作一本百科全書(shū)(有個(gè)專(zhuān)有名詞叫Ontology)。由于醫(yī)學(xué)是一門(mén)非常嚴(yán)謹(jǐn)?shù)目茖W(xué),其在全球的標(biāo)準(zhǔn)化水平很高,對(duì)疾病名稱(chēng)、藥物成分、臨床特征、儀器設(shè)備等都有嚴(yán)格的定義以及關(guān)聯(lián)描述。所以,語(yǔ)義網(wǎng)在醫(yī)學(xué)領(lǐng)域得到了廣泛應(yīng)用。進(jìn)而,醫(yī)療數(shù)據(jù)也越來(lái)越多的采用基于語(yǔ)義網(wǎng)的臨床文檔框架(CDA)格式的XML文檔來(lái)保存。這些XML文檔通過(guò)Ontology的解釋?zhuān)妥兂闪艘粋€(gè)無(wú)比巨大的概念+事實(shí)+關(guān)系的網(wǎng)絡(luò)。雖然機(jī)器能夠讀懂這個(gè)網(wǎng)絡(luò),并能夠在上面進(jìn)行邏輯推理,從而發(fā)現(xiàn)知識(shí),但是其計(jì)算代價(jià)也是相當(dāng)高的。當(dāng)前的醫(yī)療系統(tǒng)通常會(huì)把復(fù)雜的臨床文檔解析成簡(jiǎn)單的屬性值,并存入自定義的關(guān)系表中。這樣做雖然會(huì)有大量的語(yǔ)義及關(guān)系的丟失,但卻能夠滿(mǎn)足日常業(yè)務(wù)系統(tǒng)對(duì)數(shù)據(jù)處理性能的要求。但是對(duì)于未來(lái)的區(qū)域醫(yī)療信息系統(tǒng)來(lái)說(shuō),為了能夠提供豐富全面的信息服務(wù),我們必須盡可能的保留臨床文檔中的語(yǔ)義信息。這樣,醫(yī)療數(shù)據(jù)分析的過(guò)程中就不可避免的需要對(duì)大量XML文檔進(jìn)行解析、對(duì)各種關(guān)系進(jìn)行推理。這樣的數(shù)據(jù)分析處理過(guò)程比我們之前提到的互聯(lián)網(wǎng)數(shù)據(jù)處理要復(fù)雜得多。
通過(guò)上述的分析可見(jiàn),簡(jiǎn)單地將現(xiàn)有的大數(shù)據(jù)分析技術(shù)套用在健康云服務(wù)上是行不通的。我們需要充分考慮健康云服務(wù)的特點(diǎn)和充分利用現(xiàn)有技術(shù)框架的靈活性,已達(dá)到最好的大數(shù)據(jù)分析性能。初步解決方案:
1. 基于Hadoop生態(tài)系統(tǒng)構(gòu)建健康云數(shù)據(jù)中心,用以解決數(shù)據(jù)存儲(chǔ)水平擴(kuò)展的挑戰(zhàn)。利用MapReduce并行處理批量事務(wù)的能力,從多個(gè)數(shù)據(jù)源(主要是醫(yī)療機(jī)構(gòu)的各個(gè)業(yè)務(wù)系統(tǒng))抽取數(shù)據(jù)、轉(zhuǎn)換格式、并導(dǎo)入基于HBase的數(shù)據(jù)存儲(chǔ)模型。
2. 在數(shù)據(jù)存儲(chǔ)模型的設(shè)計(jì)上,借鑒已有的數(shù)據(jù)倉(cāng)庫(kù)中多維數(shù)據(jù)模型的設(shè)計(jì)思想,比如:星型模式和數(shù)據(jù)立方體的概念。在考慮應(yīng)用需求的基礎(chǔ)上,利用HBase中行鍵、列鍵、列族設(shè)計(jì)的靈活性,將多維醫(yī)療數(shù)據(jù)有效地組織在一起。而在索引技術(shù)上,結(jié)合RDBMS領(lǐng)域的成熟技術(shù),用以進(jìn)一步提高HBase的查詢(xún)性能。對(duì)于數(shù)據(jù)模式的更新,HBase特有的多版本共存的特性正好成了解決問(wèn)題的關(guān)鍵。
3. 為了保留醫(yī)療數(shù)據(jù)中大量的語(yǔ)義關(guān)系,采用結(jié)構(gòu)化數(shù)據(jù)+XML文檔混合存儲(chǔ)的方式。在數(shù)據(jù)導(dǎo)入的同時(shí),提取XML文檔中特定的元數(shù)據(jù),(比如:患者主索引、就診科室、主治醫(yī)師等),并將XML文檔根據(jù)不同粒度打散成大小不一的子文檔。根據(jù)不同粒度的查詢(xún)條件,系統(tǒng)將自動(dòng)選擇相應(yīng)的子文檔進(jìn)行進(jìn)一步信息的解析,從而避免為提取少量信息而不得不解析大量XML文檔的問(wèn)題。
4. 數(shù)據(jù)模型的接口將采用Hive提供的類(lèi)SQL查詢(xún)的方式。這樣更有利于數(shù)據(jù)分析人員設(shè)計(jì)分析算法。同時(shí),系統(tǒng)中將嵌入多種數(shù)據(jù)挖掘算法供數(shù)據(jù)分析師使用。
綜上所述,為解決健康云上的大數(shù)據(jù)分析問(wèn)題,必須同時(shí)利用RDBMS和NoSQL的優(yōu)勢(shì),并且采用結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)混合存儲(chǔ)的形式,相互彌補(bǔ)缺陷,已達(dá)到最靈活和最高效的設(shè)計(jì)。而這套基于健康云的大數(shù)據(jù)分析平臺(tái),也將有希望擴(kuò)展到其他類(lèi)似行業(yè),比如:電信、能源、物聯(lián)網(wǎng)和公共事業(yè)等。