當(dāng)前位置：首頁 > 醫(yī)療電子 > 醫(yī)療電子

如何在健康云上進(jìn)行大數(shù)據(jù)的挖掘與分析

時間：2012-04-06 10:45:34

關(guān)鍵字：大數(shù)據(jù) 醫(yī)療數(shù)據(jù) 大數(shù)據(jù)分析模型

手機(jī)看文章

掃描二維碼
隨時隨地手機(jī)看文章

[導(dǎo)讀]三、健康云上的大數(shù)據(jù)分析由于醫(yī)療數(shù)據(jù)的一些特有的性質(zhì)，給健康云上的大數(shù)據(jù)分析帶來了特殊的挑戰(zhàn)。 1、醫(yī)療數(shù)據(jù)是持續(xù)、大量增長的大數(shù)據(jù)。根據(jù)估算，中國一個中等城市(一千萬人口)50年所積累的醫(yī)療數(shù)據(jù)量就會達(dá)

三、健康云上的大數(shù)據(jù)分析

由于醫(yī)療數(shù)據(jù)的一些特有的性質(zhì)，給健康云上的大數(shù)據(jù)分析帶來了特殊的挑戰(zhàn)。

1、醫(yī)療數(shù)據(jù)是持續(xù)、大量增長的大數(shù)據(jù)。根據(jù)估算，中國一個中等城市(一千萬人口)50年所積累的醫(yī)療數(shù)據(jù)量就會達(dá)到10PB級。并且，隨著時間的推移和業(yè)務(wù)系統(tǒng)的不斷升級換代，醫(yī)療數(shù)據(jù)模式的一致性也無法保證。因此，每天都會有大量的數(shù)據(jù)持續(xù)不斷的導(dǎo)入?yún)^(qū)域醫(yī)療數(shù)據(jù)中心，并且每當(dāng)有數(shù)據(jù)模式的更改，相關(guān)的歷史數(shù)據(jù)也需要做相應(yīng)的調(diào)整。所以，區(qū)域醫(yī)療數(shù)據(jù)中心并不是簡單的傳統(tǒng)數(shù)據(jù)倉庫概念。相比之下，它的模式更靈活、寫入和更新的操作更多，而對數(shù)據(jù)存儲的水平可擴(kuò)展性的要求也更高。

2、醫(yī)療數(shù)據(jù)是關(guān)系復(fù)雜的多維數(shù)據(jù)。由于醫(yī)療數(shù)據(jù)是多種數(shù)據(jù)源數(shù)據(jù)的匯總，數(shù)據(jù)之間的關(guān)系非常復(fù)雜。比如：一個簡單的實(shí)驗(yàn)室檢驗(yàn)檢測值，必須同時記錄這個值對應(yīng)的編碼系統(tǒng)和編碼、單位、檢測時間、檢驗(yàn)項(xiàng)目、標(biāo)本編碼，以及相關(guān)聯(lián)的患者主索引號、就診機(jī)構(gòu)、申請科室、申請醫(yī)師標(biāo)識號、報(bào)告醫(yī)師標(biāo)識號、審核醫(yī)師標(biāo)識號、正常值參考等等。一條檢測記錄就可以把患者、醫(yī)生、醫(yī)療機(jī)構(gòu)多個實(shí)體在不同層次上關(guān)聯(lián)起來。而不同的醫(yī)療信息服務(wù)更需要從不同的視角來觀察這些數(shù)據(jù)，如下圖所示。比如：以患者為中心的服務(wù)需要把一個患者的全周期數(shù)據(jù)按照時間軸排列，并分析診斷、用藥和患者生命體征、檢驗(yàn)檢測值之間的關(guān)聯(lián);以醫(yī)生為中心的服務(wù)又需要把與一個醫(yī)生相關(guān)的患者數(shù)據(jù)挑揀出來，并進(jìn)行分類;以科室為中心的服務(wù)可能需要即從科室所屬醫(yī)生的角度，又要從在該科室就診患者的角度進(jìn)行分析;針對社區(qū)的服務(wù)可能需要統(tǒng)計(jì)整個社區(qū)居民某項(xiàng)指標(biāo)(比如血壓、血糖)的達(dá)標(biāo)率?？傊?，醫(yī)療數(shù)據(jù)的多維度多粒度為各種信息服務(wù)的多角度多層次分析提供了可能，但同時也為大數(shù)據(jù)分析帶來了挑戰(zhàn)。因?yàn)槲覀儾豢赡転槊恳环N信息服務(wù)存儲一份特定的優(yōu)化模式的數(shù)據(jù)，況且我們也無法枚舉出所有可能的信息服務(wù)需求。這就需要醫(yī)療數(shù)據(jù)的存儲模型能夠適應(yīng)靈活多變的多維統(tǒng)計(jì)分析需求。

3、醫(yī)療數(shù)據(jù)是具有語義的數(shù)據(jù)。大家可能聽說過語義網(wǎng)(Semantic Web)，它是為讓數(shù)據(jù)能跨應(yīng)用進(jìn)行共享和重用所設(shè)計(jì)的框架體系。我們可以把語義網(wǎng)簡單地理解為：一個讓機(jī)器(machines)讀懂的維基百科(Wikipedia)，主要包括了各種條目的定義以及各個條目之間的關(guān)系。如果數(shù)據(jù)也采用這些條目和關(guān)系組織內(nèi)容，那么機(jī)器就可以自動理解數(shù)據(jù)的語義，并推理出各種知識。所以建立語義網(wǎng)的關(guān)鍵就是如何制作一本百科全書(有個專有名詞叫Ontology)。由于醫(yī)學(xué)是一門非常嚴(yán)謹(jǐn)?shù)目茖W(xué)，其在全球的標(biāo)準(zhǔn)化水平很高，對疾病名稱、藥物成分、臨床特征、儀器設(shè)備等都有嚴(yán)格的定義以及關(guān)聯(lián)描述。所以，語義網(wǎng)在醫(yī)學(xué)領(lǐng)域得到了廣泛應(yīng)用。進(jìn)而，醫(yī)療數(shù)據(jù)也越來越多的采用基于語義網(wǎng)的臨床文檔框架(CDA)格式的XML文檔來保存。這些XML文檔通過Ontology的解釋，就變成了一個無比巨大的概念+事實(shí)+關(guān)系的網(wǎng)絡(luò)。雖然機(jī)器能夠讀懂這個網(wǎng)絡(luò)，并能夠在上面進(jìn)行邏輯推理，從而發(fā)現(xiàn)知識，但是其計(jì)算代價也是相當(dāng)高的。當(dāng)前的醫(yī)療系統(tǒng)通常會把復(fù)雜的臨床文檔解析成簡單的屬性值，并存入自定義的關(guān)系表中。這樣做雖然會有大量的語義及關(guān)系的丟失，但卻能夠滿足日常業(yè)務(wù)系統(tǒng)對數(shù)據(jù)處理性能的要求。但是對于未來的區(qū)域醫(yī)療信息系統(tǒng)來說，為了能夠提供豐富全面的信息服務(wù)，我們必須盡可能的保留臨床文檔中的語義信息。這樣，醫(yī)療數(shù)據(jù)分析的過程中就不可避免的需要對大量XML文檔進(jìn)行解析、對各種關(guān)系進(jìn)行推理。這樣的數(shù)據(jù)分析處理過程比我們之前提到的互聯(lián)網(wǎng)數(shù)據(jù)處理要復(fù)雜得多。

通過上述的分析可見，簡單地將現(xiàn)有的大數(shù)據(jù)分析技術(shù)套用在健康云服務(wù)上是行不通的。我們需要充分考慮健康云服務(wù)的特點(diǎn)和充分利用現(xiàn)有技術(shù)框架的靈活性，已達(dá)到最好的大數(shù)據(jù)分析性能。初步解決方案：

1. 基于Hadoop生態(tài)系統(tǒng)構(gòu)建健康云數(shù)據(jù)中心，用以解決數(shù)據(jù)存儲水平擴(kuò)展的挑戰(zhàn)。利用MapReduce并行處理批量事務(wù)的能力，從多個數(shù)據(jù)源(主要是醫(yī)療機(jī)構(gòu)的各個業(yè)務(wù)系統(tǒng))抽取數(shù)據(jù)、轉(zhuǎn)換格式、并導(dǎo)入基于HBase的數(shù)據(jù)存儲模型。

2. 在數(shù)據(jù)存儲模型的設(shè)計(jì)上，借鑒已有的數(shù)據(jù)倉庫中多維數(shù)據(jù)模型的設(shè)計(jì)思想，比如：星型模式和數(shù)據(jù)立方體的概念。在考慮應(yīng)用需求的基礎(chǔ)上，利用HBase中行鍵、列鍵、列族設(shè)計(jì)的靈活性，將多維醫(yī)療數(shù)據(jù)有效地組織在一起。而在索引技術(shù)上，結(jié)合RDBMS領(lǐng)域的成熟技術(shù)，用以進(jìn)一步提高HBase的查詢性能。對于數(shù)據(jù)模式的更新，HBase特有的多版本共存的特性正好成了解決問題的關(guān)鍵。

3. 為了保留醫(yī)療數(shù)據(jù)中大量的語義關(guān)系，采用結(jié)構(gòu)化數(shù)據(jù)+XML文檔混合存儲的方式。在數(shù)據(jù)導(dǎo)入的同時，提取XML文檔中特定的元數(shù)據(jù)，(比如：患者主索引、就診科室、主治醫(yī)師等)，并將XML文檔根據(jù)不同粒度打散成大小不一的子文檔。根據(jù)不同粒度的查詢條件，系統(tǒng)將自動選擇相應(yīng)的子文檔進(jìn)行進(jìn)一步信息的解析，從而避免為提取少量信息而不得不解析大量XML文檔的問題。

4. 數(shù)據(jù)模型的接口將采用Hive提供的類SQL查詢的方式。這樣更有利于數(shù)據(jù)分析人員設(shè)計(jì)分析算法。同時，系統(tǒng)中將嵌入多種數(shù)據(jù)挖掘算法供數(shù)據(jù)分析師使用。

綜上所述，為解決健康云上的大數(shù)據(jù)分析問題，必須同時利用RDBMS和NoSQL的優(yōu)勢，并且采用結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)混合存儲的形式，相互彌補(bǔ)缺陷，已達(dá)到最靈活和最高效的設(shè)計(jì)。而這套基于健康云的大數(shù)據(jù)分析平臺，也將有希望擴(kuò)展到其他類似行業(yè)，比如：電信、能源、物聯(lián)網(wǎng)和公共事業(yè)等。

本站聲明：本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點(diǎn)，本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系本站刪除。

換一批

與傳統(tǒng)的驅(qū)動方式相比，共陰恒流驅(qū)動在能效有哪些優(yōu)勢

LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字：驅(qū)動電源

[電源]

工業(yè)電機(jī)驅(qū)動電源設(shè)計(jì)：反電動勢抑制與過流保護(hù)的集成方案

在工業(yè)自動化蓬勃發(fā)展的當(dāng)下，工業(yè)電機(jī)作為核心動力設(shè)備，其驅(qū)動電源的性能直接關(guān)系到整個系統(tǒng)的穩(wěn)定性和可靠性。其中，反電動勢抑制與過流保護(hù)是驅(qū)動電源設(shè)計(jì)中至關(guān)重要的兩個環(huán)節(jié)，集成化方案的設(shè)計(jì)成為提升電機(jī)驅(qū)動性能的關(guān)鍵。

關(guān)鍵字：工業(yè)電機(jī) 驅(qū)動電源

[電源]

如何解決 LED 驅(qū)動電源的易損壞問題

LED 驅(qū)動電源作為 LED 照明系統(tǒng)的 “心臟”，其穩(wěn)定性直接決定了整個照明設(shè)備的使用壽命。然而，在實(shí)際應(yīng)用中，LED 驅(qū)動電源易損壞的問題卻十分常見，不僅增加了維護(hù)成本，還影響了用戶體驗(yàn)。要解決這一問題，需從設(shè)計(jì)、生...

關(guān)鍵字：驅(qū)動電源照明系統(tǒng) 散熱

[電力電工電路]

LED設(shè)計(jì)中LED驅(qū)動電源的公式

根據(jù)LED驅(qū)動電源的公式，電感內(nèi)電流波動大小和電感值成反比，輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關(guān)鍵字： LED 設(shè)計(jì) 驅(qū)動電源

[汽車電子]

EV主驅(qū)IGBT隔離驅(qū)動電源方案選擇問題探討

電動汽車(EV)作為新能源汽車的重要代表，正逐漸成為全球汽車產(chǎn)業(yè)的重要發(fā)展方向。電動汽車的核心技術(shù)之一是電機(jī)驅(qū)動控制系統(tǒng)，而絕緣柵雙極型晶體管(IGBT)作為電機(jī)驅(qū)動系統(tǒng)中的關(guān)鍵元件，其性能直接影響到電動汽車的動力性能和...

關(guān)鍵字：電動汽車新能源驅(qū)動電源

[電源]

合理的驅(qū)動電源方案成為大功率區(qū)域照明的主流選擇

在現(xiàn)代城市建設(shè)中，街道及停車場照明作為基礎(chǔ)設(shè)施的重要組成部分，其質(zhì)量和效率直接關(guān)系到城市的公共安全、居民生活質(zhì)量和能源利用效率。隨著科技的進(jìn)步，高亮度白光發(fā)光二極管(LED)因其獨(dú)特的優(yōu)勢逐漸取代傳統(tǒng)光源，成為大功率區(qū)域...

關(guān)鍵字：發(fā)光二極管驅(qū)動電源 LED

[消費(fèi)電子]