華大區(qū)塊鏈的技術(shù)架構(gòu)及業(yè)務(wù)目標介紹
本文的核心章節(jié),我們將從業(yè)務(wù)目標、技術(shù)架構(gòu)、優(yōu)勢特色及應(yīng)用場景四個方面重點介紹華大區(qū)塊鏈。
1. 華大區(qū)塊鏈的業(yè)務(wù)目標
華大區(qū)塊鏈的目標是通過融合區(qū)塊鏈和密碼學等技術(shù),打造具有自主核心技術(shù)的組學數(shù)據(jù)共享基礎(chǔ)設(shè)施,促進數(shù)字化生命的價值流動。在保護個人隱私的同時,最大化數(shù)據(jù)的應(yīng)用價值。包括兩方面的內(nèi)容:
(1) 從個人層面而言,實現(xiàn)人人、實時、終身的生命 4D 數(shù)據(jù)隱私保護,為個人數(shù)據(jù)確權(quán);通過積分激勵將數(shù)據(jù)價值還于個人,同時促進科研及產(chǎn)業(yè)應(yīng)用;
(2) 從組織層面而言,為行業(yè)伙伴提供企業(yè)級的區(qū)塊鏈基礎(chǔ)設(shè)施與解決方案,形成組學數(shù)據(jù)與其他健康醫(yī)療大數(shù)據(jù)的共享交互生態(tài)體系,最終實現(xiàn)個人(數(shù)據(jù)所有者)、機構(gòu)(科研、醫(yī)療等)、政府、企業(yè)在生命時代共有、共享、共為的多方協(xié)作和互惠共贏體系。
1.1 華大區(qū)塊鏈技術(shù)展望
按照涉及到的技術(shù)點與提供的服務(wù)方式不同,區(qū)塊鏈的技術(shù)架構(gòu)主要分BaaS、PaaS 和 IaaS 三個層次)。
在社會資源有限的約束下,傳統(tǒng)互聯(lián)網(wǎng)以信息傳遞效率優(yōu)先,中心化架構(gòu)的IT 服務(wù)大大降低了單用戶的信息溝通成本。然而,隨著 IT 技術(shù)的發(fā)展和成本下降,用戶的關(guān)注點將逐漸從效率轉(zhuǎn)為質(zhì)量,即關(guān)注隱私保護、規(guī)則透明平等。由于區(qū)塊鏈本身的系統(tǒng)成本高,尤其適合于健康醫(yī)療領(lǐng)域這樣的高價值行業(yè)應(yīng)用。在華大區(qū)塊鏈建設(shè)初期,我們以 PaaS 平臺為用戶提供服務(wù),用戶可以自主在平臺上實現(xiàn)數(shù)據(jù)的安全共享。將來隨著云計算、云存儲等技術(shù)的不斷深化成熟,華大區(qū)塊鏈將構(gòu)建自有的開源 BaaS 服務(wù)架構(gòu),以開源區(qū)塊鏈的形式在健康醫(yī)療行業(yè)形成規(guī)模化應(yīng)用。
區(qū)塊鏈技術(shù)仍處在早期,目前主要面臨以下幾點問題:
(1) 多節(jié)點共識帶來了高信任度,但分布式系統(tǒng)的共識效率性能在企業(yè)級的應(yīng)用有待進一步提升;
(2) 多節(jié)點記錄存儲提高了數(shù)據(jù)透明度,但對數(shù)據(jù)安全加密和隱私保護提出更高要求,同時還要保證可用性和監(jiān)管性;
(3) 智能合約定義了自動執(zhí)行的邏輯規(guī)則,其安全問題有待更加成熟的驗證和解決方案;
(4) 區(qū)塊鏈技術(shù)各成一派,需要跨鏈技術(shù)的進步來增強鏈與鏈之間的互操作性。
華大區(qū)塊鏈將通過架構(gòu)優(yōu)化、技術(shù)升級等方式,并和區(qū)塊鏈技術(shù)生態(tài)圈的開發(fā)者、標準制定者交流合作,不斷提升區(qū)塊鏈適用范圍與應(yīng)用價值。同時,華大區(qū)塊鏈也將重點關(guān)注以下特色技術(shù)點的突破:
(1) 基因數(shù)字 ID:通過個人基因 ID 技術(shù),解決現(xiàn)有區(qū)塊鏈技術(shù)中的數(shù)字身份無法安全關(guān)聯(lián)個人實體身份,規(guī)避網(wǎng)絡(luò)應(yīng)用中的數(shù)字權(quán)利與現(xiàn)實社會中實體權(quán)利難以合法關(guān)聯(lián)的問題;
(2) 后量子加密:解決現(xiàn)有區(qū)塊鏈產(chǎn)品的非對稱加密體制無法防止將來量子計算的破解問題;
(3) 安全多方計算:通過提供安全多方計算解決方案,實現(xiàn)多方數(shù)據(jù)所有者在不透露數(shù)據(jù)細節(jié)的前提下進行數(shù)據(jù)協(xié)同計算;
(4) 匿名應(yīng)用:節(jié)點可匿名提供暫時數(shù)據(jù)給區(qū)塊鏈上的第三方應(yīng)用進行處理,通過瞬時加密機制確保用戶隱私;
(5) 亂序存儲:節(jié)點可以對數(shù)據(jù)亂序加擾后分布存儲到多個其他節(jié)點(包括云平臺),數(shù)據(jù)所有者是恢復原始數(shù)據(jù)所必須的亂序引索(Index)的唯一擁有者。
1.2 華大區(qū)塊鏈用來解決什么問題
華大區(qū)塊鏈用來解決健康醫(yī)療及生命大數(shù)據(jù)應(yīng)用的三類矛盾:
(1) 數(shù)據(jù)應(yīng)用與隱私保護的矛盾
(2) 數(shù)據(jù)確權(quán)與交互共享的矛盾
(3) 數(shù)據(jù)安全與加密成本的矛盾
1.3 設(shè)計原則
華大區(qū)塊鏈在設(shè)計上遵循以下幾個原則:
(1) 2B4D 大數(shù)據(jù):作為全球跨組學數(shù)據(jù)生產(chǎn)的引領(lǐng)機構(gòu),華大創(chuàng)新性地提出了大人群生命組學大數(shù)據(jù)(2B4D)的概念。2B4D 數(shù)據(jù)所具有的的人群覆蓋度廣、數(shù)據(jù)量大、敏感性高、完整性需求強等特點對區(qū)塊鏈的架構(gòu)與性能提出了極高的要求。因此,從區(qū)塊鏈協(xié)議、數(shù)據(jù)結(jié)構(gòu)和功能特性等方面滿足 2B4D 大數(shù)據(jù)的交互共享是華大區(qū)塊鏈的第一設(shè)計原則。
(2) 自主創(chuàng)新:華大注重自主創(chuàng)新,目前已在碎片分布式數(shù)據(jù)存儲、基因ID 等關(guān)鍵領(lǐng)域擁有多項自主知識產(chǎn)權(quán)的核心技術(shù)與專利,并通過融合差分隱私、非對稱數(shù)字簽名等技術(shù),實現(xiàn)個人生命大數(shù)據(jù)的可靠存儲與安全共享。
(3) 標準化:華大區(qū)塊鏈通過搭建區(qū)塊鏈行業(yè)應(yīng)用的標準化體系,實現(xiàn)數(shù)據(jù)的安全交互與高效共享。包括區(qū)塊鏈底層架構(gòu)標準化與數(shù)據(jù)共享交互標準化兩個層次:安全高效:華大區(qū)塊鏈在協(xié)議設(shè)計、架構(gòu)規(guī)劃、接口設(shè)置、服務(wù)部署等方面都遵循這一原則,確保區(qū)塊鏈系統(tǒng)運行的可靠與高效。開放共享: 華大區(qū)塊鏈構(gòu)建自主可控的 BaaS 區(qū)塊鏈平臺,發(fā)揮運營國家基因庫的經(jīng)驗優(yōu)勢,搭建 IT 基礎(chǔ)設(shè)施,開放區(qū)塊鏈服務(wù)能力,與行業(yè)伙伴共同打造合作共贏生態(tài)圈。
2. 華大區(qū)塊鏈技術(shù)架構(gòu)
華大區(qū)塊鏈在基于 BaaS、PaaS、IaaS 分層基礎(chǔ)上,結(jié)合生命健康行業(yè)數(shù)據(jù)應(yīng)用場景,針對共識算法和密碼學算法兩個核心技術(shù)點進行優(yōu)化,有效提升系統(tǒng)安全性和業(yè)務(wù)處理效率。
2.1 共識機制
華大區(qū)塊鏈使用的共識算法基于 PBFT 基礎(chǔ)上做了調(diào)整優(yōu)化,可以稱為“PBFT+”共識算法,其核心思想就是針對不同的交易類型實行不同的共識機制。我們把需要上鏈存儲的交易類型分為兩大類:事務(wù)性交易和非事務(wù)性交易。針對不同類型的區(qū)塊鏈交易采用不同的共識算法。所謂事務(wù)性交易是指需要進行嚴格排序和所有節(jié)點達成共識的區(qū)塊鏈交易,維持同樣的狀態(tài)變更,因此需要使用嚴格的共識算法確保其執(zhí)行狀態(tài)在區(qū)塊鏈上保持一致;事務(wù)性交易之外的其他交易都稱為非事務(wù)性交易。
針對事務(wù)性交易,華大區(qū)塊鏈采用 PBFT 算法,具體算法流程圖如下所示。
其中 C 為發(fā)送共識請求的客戶端節(jié)點,0123 為接受并處理共識請求的服務(wù)端節(jié)點,3 為故障的服務(wù)端節(jié)點,共識步驟如下:
(1) Request: C 發(fā)送請求到任意一個服務(wù)端節(jié)點,這里是 0;
(2) Pre-Prepare:節(jié)點 0 收到 C 的請求后廣播至節(jié)點 123;
(3) Prepare:節(jié)點 123 收到后記錄請求,然后再次廣播至所有其他節(jié)點,1-》023,2-》013,3-》012;
(4) Commit:0123 節(jié)點在 Prepare 階段,若收到超過一定數(shù)量的相同請求,則進入 Commit 階段,廣播 Commit 請求;
(5) Reply:0123 節(jié)點在 Commit 階段,若收到超過一定數(shù)量的相同請求,則對 C 進行反饋。
能夠達成共識的計算公式為 N ≥ 3F + 1, N 為參與共識的服務(wù)端節(jié)點總數(shù),F(xiàn) 為有問題的服務(wù)端節(jié)點總數(shù)。
針對非事務(wù)性交易,我們采用簡單的排序驗證,即發(fā)送交易到任一個共識節(jié)點上進行交易合法性驗證,確認是非事務(wù)性交易類型后,通過 Kafka 協(xié)議在多個共識節(jié)點之間進行統(tǒng)一排序,然后將排序結(jié)果廣播至鏈上所有節(jié)點。
2.2 密碼學算法
第一章提到的 HASH 摘要、非對稱加密等算法在傳統(tǒng)計算機環(huán)境中是安全的,在實現(xiàn) 128 位安全級別的情況下可以滿足當前區(qū)塊鏈應(yīng)用的加解密速度和存儲空間要求。但是考慮到當前量子計算技術(shù)的高速發(fā)展,目前已知的量子計算Shor 算法已經(jīng)能夠在較短時間內(nèi)破解一些常用的傳統(tǒng)加解密算法。
由上述模 n 位數(shù)和安全等級 b 的關(guān)系可知,量子計算環(huán)境下,傳統(tǒng)的 RSA加密體制在現(xiàn)有的模 n 位數(shù)下已經(jīng)無法保證安全性,如果要在量子計算環(huán)境下實現(xiàn)和傳統(tǒng)計算機環(huán)境下同等安全性,則需要大為增加 n 值,這意味著公私鑰的長度和加解密速度都急劇增長,這就導致加解密算法失去了應(yīng)用價值。實際上,基于量子計算環(huán)境的 Shor 算法,傳統(tǒng)的 RSA、ECDSA 算法都不再安全。
另一方面,后量子密碼學時代,已經(jīng)有許多研究證明了量子計算技術(shù)的發(fā)展并不意味著所有密碼學算法都不再安全,目前已知的抗量子算法有基于 HASH 函數(shù)的密碼算法、基于糾錯碼的密碼算法、多變量二次方程組的密碼算法和基于格理論的密碼算法。我們在區(qū)塊鏈應(yīng)用中綜合考慮算法穩(wěn)定性、加解密性能和未來兼容性,選擇了格密碼算法來進行數(shù)字簽名,確保區(qū)塊鏈交易安全性。
同時,華大鏈支持中國官方制定的 SM2、SM3 算法,SM2 是國家密碼管理局于 2010 年 12 月 17 日發(fā)布的橢圓曲線公鑰密碼算法,SM3 密碼摘要算法是國家密碼管理局 2010 年公布的中國商用密碼雜湊算法標準。SM3 算法適用于商用密碼應(yīng)用中的數(shù)字簽名和驗證,是在 SHA-256 基礎(chǔ)上改進實現(xiàn)的一種算法。華大鏈基于 SM2SM3 密碼算法的全面兼容性可以更好的滿足國內(nèi)不同行業(yè)的信息安全準入要求。
2.3 基因數(shù)字 ID
在公有區(qū)塊鏈應(yīng)用中,用戶所使用的線上數(shù)字身份一般都沒有和實體身份對應(yīng)起來,這樣純粹的虛擬數(shù)字身份不具有生物實體的可追溯性,導致線上數(shù)字身份的權(quán)利義務(wù)無法和現(xiàn)實世界中的個人權(quán)利義務(wù)對應(yīng)起來,一個典型的問題是比特幣用戶因為丟失地址私鑰后沒有任何挽救途徑可以找回線上資產(chǎn)。因此,我們認為區(qū)塊鏈的應(yīng)用中需要提供能夠同時對應(yīng)線上數(shù)字身份和線下實體身份的技術(shù)解決方案。
華大利用自身在基因測序方面的優(yōu)勢,開發(fā)出一套基于個人基因序列多態(tài)性的新型加密方式。基因序列對應(yīng)個人的唯一身份,具有最高特異性。同時,基因序列可以產(chǎn)生大量的公私鑰對,可實現(xiàn)一次一密的動態(tài)加密機制,充分保證了身份認證安全。目前,我們撰寫的國家級專利《一種基于個人全基因組數(shù)據(jù)的數(shù)字身份生成方法》正在受理。未來,基因數(shù)字 ID 技術(shù)將作為華大區(qū)塊鏈的核心組件,確保每一次數(shù)據(jù)交互都安全可靠。
目前線下實體身份通常采用個人臉部識別技術(shù)作為身份驗證方式(銀行系統(tǒng)基于身份證的身份鑒別),但同時基于臉部特征識別技術(shù)也存在較多問題,例如臉部生物特征唯一性無法保證 100%不重復(雙胞胎撞臉等)、可復制性較高(整容易容)、人工或機器的臉部識別準確率都無法達到 100%。
我們結(jié)合基因技術(shù)為區(qū)塊鏈的身份鑒別提供高可靠性、高精度的基因 ID 數(shù)字身份解決方案。在個人基因組中,存在多個短串聯(lián)重復序列(short tandem repeat, STR),STR 是核心序列為 2-6 個堿基的短串聯(lián)重復結(jié)構(gòu),其中每個 STR 中重復序列的重復次數(shù)范圍在 2-100 之間,對于任何特定個體的全基因組數(shù)據(jù),染色體上某個特定位置的 STR 中重復序列的重復次數(shù)是固定的,但在不同的個體在相同 STR 的重復序列的重復次數(shù)可能不同,這就構(gòu)成了人群中這些 STR 重復序列的多態(tài)性。由于人類基因組中 STR 非常多,通過對這種多態(tài)性的檢測,就可以明確區(qū)分個體與個體的不同。
個人基因數(shù)字 ID 庫的應(yīng)用,可以實現(xiàn)區(qū)塊鏈上的每次交易使用不同 ID,這樣可以有效保護用戶的交易隱私,同時,結(jié)合第三方應(yīng)用,可以對 ID 采取合法性驗證,提供匿名數(shù)據(jù)服務(wù),應(yīng)用框架如下圖所示。
2.4 碎片分布式存儲
傳統(tǒng)的云存儲模式中,用戶把完整的數(shù)據(jù)信息存放到云端數(shù)據(jù)中心,這種中心化的云存儲模式相對高效和低成本而廣為流行,但在安全性和隱私泄漏等方面存在風險。我們認為,基于區(qū)塊鏈的隱私數(shù)據(jù)保護需要采取一種全新的分布式云存儲方案,這里稱為碎片分布式存儲,基本思想是將用戶的某一完整的隱私數(shù)據(jù)進行分片操作,然后將不同碎片進行加密擾序后,存儲到不同的網(wǎng)絡(luò)節(jié)點上。用戶本地保留恢復原始數(shù)據(jù)所必須的碎片重組索引文件。
碎片化分布式存儲可以把數(shù)據(jù)分布到多個網(wǎng)絡(luò)節(jié)點,各網(wǎng)絡(luò)節(jié)點基于區(qū)塊鏈智能合約來提供數(shù)據(jù)存儲服務(wù),在合約有效期內(nèi)需要定期證明它們能繼續(xù)提供存儲服務(wù)的能力。用戶需要訪問數(shù)據(jù)或者授權(quán)他人獲取數(shù)據(jù)時,需要將訪問憑證消息進行數(shù)字簽名后上鏈保存,對應(yīng)網(wǎng)絡(luò)節(jié)點獲取到該授權(quán)憑證后才提供數(shù)據(jù)訪問服務(wù)。這些憑證在區(qū)塊鏈上是公開、透明、可審計的,網(wǎng)絡(luò)節(jié)點自動保證存儲合約的一致性。
這種去中心化的碎片化分布式存儲方案和區(qū)塊鏈技術(shù)的結(jié)合,可以有效保護用戶的數(shù)據(jù)隱私。數(shù)據(jù)被分割成小塊,經(jīng)過加密擾序后才會分散存儲在眾多節(jié)點上,能夠避免中心化存儲的集中式風險,即使某一塊數(shù)據(jù)被泄露,也只是部分而非全部數(shù)據(jù)。另外,每個數(shù)據(jù)分片都有多個備份節(jié)點,一旦出現(xiàn)某個存儲空間提供者長期離線的情況,客戶會自動將切片備份到新的提供者中,避免了中心化存儲因網(wǎng)絡(luò)或者物理等原因?qū)е聰?shù)據(jù)丟失的風險。結(jié)合上一節(jié)提到的基因 ID 技術(shù),我們示意了一種基于個人基因組數(shù)據(jù)的碎片分布式存儲方式,將有效保證個人身份的最大特異性與數(shù)據(jù)的最高安全性。
2.5 安全多方計算
數(shù)據(jù)流通安全一直是大數(shù)據(jù)時代難以解決的難題。如何在保護本地數(shù)據(jù)隱私安全的情況下,促進不同地區(qū)、不同機構(gòu)間的數(shù)據(jù)共享與協(xié)同計算,正引起研究者們的廣泛關(guān)注。
安全多方計算(SMC)最初由圖靈獎得主姚期智院士在 1982 年針對“百萬富翁問題”提出,是一種在無可信第三方的條件下,多方之間在互不公開數(shù)據(jù)的前提下實現(xiàn)協(xié)同計算的技術(shù)。兩方計算框架主要實現(xiàn)原理是基于混淆電路(GC,Garbled Circuit)和不經(jīng)意傳輸協(xié)議(OT,Oblivious Transfer)的密碼學技術(shù),將計算邏輯轉(zhuǎn)化為布爾電路,并加密傳輸電路及標簽數(shù)據(jù),最后各方解密獲取計算結(jié)果。30 年來,也陸續(xù)出現(xiàn)了基于秘密分享協(xié)議的多方安全計算框架,如 GMW、SPDZ。目前,安全多方計算技術(shù)的進步已使其在金融、征信等領(lǐng)域展開應(yīng)用,但大規(guī)模普及商用仍面臨特定計算場景的性能瓶頸和可擴展性等問題。
華大通過搭建安全多方計算平臺,允許擁有基因數(shù)據(jù)的各機構(gòu)在不泄漏原始數(shù)據(jù)的情況下完成協(xié)同計算,將極大促進跨機構(gòu)開展大人群大隊列的組學數(shù)據(jù)聯(lián)合研究,也可用于大型基因數(shù)據(jù)庫的安全查詢。同時,我們將與區(qū)塊鏈技術(shù)進行結(jié)合,制定一個標準化的組學數(shù)據(jù)共享協(xié)議,將每一次計算與交互的日志進行區(qū)塊鏈存證,確保計算過程的公開透明,實現(xiàn)多方共贏。
安全多方計算和區(qū)塊鏈的應(yīng)用框架如下圖所示,用戶數(shù)據(jù)存儲在不同網(wǎng)絡(luò)節(jié)點中,發(fā)起計算流程后,通過區(qū)塊鏈憑證實現(xiàn)數(shù)據(jù)的授權(quán)。各節(jié)點在區(qū)塊鏈上接收到授權(quán)憑證并確認有效后,由安全多方計算節(jié)點進行聯(lián)合計算。
2.6 BaaS 接口
為了更好的支持上層業(yè)務(wù)對區(qū)塊鏈模塊的集成應(yīng)用,我們在華大區(qū)塊鏈設(shè)計之初就明確以 BaaS 為建設(shè)目標,通過豐富的 API 接口為上層業(yè)務(wù)及產(chǎn)品提供靈活方便的功能集成、運維部署服務(wù)(圖 3-2-6)。提供的 BaaS 服務(wù)接口包括:
(1) 節(jié)點權(quán)限認證控制:基于聯(lián)盟鏈的應(yīng)用場景,各個節(jié)點的鏈上權(quán)限及角色配置都可以通過運維軟件的 WEB 界面進行配置。每個節(jié)點的模塊ID、IP 地址、角色信息(Order 節(jié)點、Peer 節(jié)點、Endorse 節(jié)點等)、組織信息及鏈通道信息都嚴格對應(yīng),防止越權(quán)訪問。
(2) 共識算法可插拔: 默認情況下支持“PBFT+”共識算法,同時支持通過API 接口調(diào)用包括 PBFT、PAXOS 等其他共識算法,實現(xiàn)共識算法的靈活配置。目前華大區(qū)塊鏈已實現(xiàn)單節(jié)點的平均共識性能在 2000TPS 以上,單節(jié)點的平均交易性能在 500TPS 以上。
(3) 加密算法自定義配置:可以通過 API 接口配置選擇不同的數(shù)字簽名算法 ( ECDSASM2 后 量 子 簽 名 算 法 ) 、 HASH 摘 要 算 法(SHA256SHA384SM3)。
(4) 一鍵式運維部署: 我們提供基于 WEB 界面的運維軟件實現(xiàn)區(qū)塊鏈部署的節(jié)點配置,包括節(jié)點 IP、節(jié)點 ID、節(jié)點數(shù)據(jù)庫配置、共識算法及加密算法配置,運維軟件根據(jù)配置信息自動生成部署腳本,然后執(zhí)行腳本即可啟動區(qū)塊鏈服務(wù); 此外,運維軟件還提供區(qū)塊鏈節(jié)點信息查詢、區(qū)塊信息查詢功能。
(5) 智能合約動態(tài)生成:基于已開展的應(yīng)用場景,我們提供在線生成智能合約功能。通過運維軟件的 WEB 界面輸入交易條件和參數(shù)(例如交易價格、交易對象、生效時間、例外條件)后,即可自動生成基于 Go 語言的智能合約代碼。
3. 華大區(qū)塊鏈優(yōu)勢特色
華大區(qū)塊鏈在開發(fā)與應(yīng)用過程中,始終從隱私保護、安全共享、價值交互三方面關(guān)注區(qū)塊鏈系統(tǒng)架構(gòu)的搭建與優(yōu)化,適用于行業(yè)內(nèi)眾多應(yīng)用場景,滿足企業(yè)級需求,提供安全高效的開放服務(wù)平臺。
3.1 隱私保護
華大區(qū)塊鏈參照 GDPR 和國標 GBT 35273-2017 對個人數(shù)據(jù)的規(guī)定,為數(shù)據(jù)主體確權(quán),實現(xiàn)個人數(shù)據(jù)的細顆粒度授權(quán)控制,確保所有數(shù)據(jù)交換都如實、不可篡改地記錄在區(qū)塊鏈上,防止隱私泄露。
(1) 支持對數(shù)據(jù)信息進行多重加密簽名后的鏈上存儲;
(2) 支持憑證撤回功能;
(3) 支持碎片分布式存儲與簽名驗證。
3.2 安全共享
華大區(qū)塊鏈旨在構(gòu)建組學數(shù)據(jù)的共享生態(tài)體系,確保數(shù)據(jù)共享全程可監(jiān)管,并通過制定數(shù)據(jù)交互的協(xié)議規(guī)則,促進數(shù)據(jù)流通,建立行業(yè)標準。
(1) 支持安全多方計算平臺;
(2) 支持在云端進行密文分析,實現(xiàn)數(shù)據(jù)零接觸應(yīng)用;
(3) 支持基于基因數(shù)字 ID 的獨特生物特征身份認證系統(tǒng)。
3.3 價值交互
華大區(qū)塊鏈的終極目標是通過個人組學數(shù)據(jù)的價值交互促進“健康長壽”的人類終極追求實現(xiàn)?;谌A大區(qū)塊鏈底層架構(gòu)開發(fā)的健康積分激勵系統(tǒng),個人不僅可以授權(quán)數(shù)據(jù)使用掙取積分報酬,也可通過達成健康提升目標(如每日步數(shù)達到 10000、體脂率降低至 15%、主動上傳每日健康飲食情況等)掙取。所有交互日志都登記在區(qū)塊鏈上,積分可用于消費健康促進服務(wù)(精準運動、精準營養(yǎng),健康咨詢)等。
(1) 兼容不同機構(gòu)的數(shù)據(jù)庫與 APP 端接口;
(2) 從數(shù)據(jù)生產(chǎn)到應(yīng)用的全貫穿,促進數(shù)據(jù)價值流動;
(3) 支持積分任務(wù)、社群交互等功能,提升用戶體驗。
4 華大區(qū)塊鏈應(yīng)用場景
全球范圍內(nèi),區(qū)塊鏈正加速從數(shù)字貨幣領(lǐng)域演進為與各類實體經(jīng)濟應(yīng)用場景進行創(chuàng)新融合。自 2018 年開始布局區(qū)塊鏈以來,華大積極探索基于“區(qū)塊鏈+”的應(yīng)用場景構(gòu)建,目前已上線和正在部署包括個人數(shù)據(jù)確權(quán)與價值交互、罕見病公益、HPV 保障計劃、區(qū)塊鏈與深度學習結(jié)合、農(nóng)產(chǎn)品防偽溯源等方面的應(yīng)用。未來我們將結(jié)合技術(shù)進步,不斷豐富和完善應(yīng)用場景。
4.1 區(qū)塊鏈+跨組學數(shù)據(jù):個人生命數(shù)據(jù)的價值流動
華大從 2015 年推出了國產(chǎn)自主可控的測序儀,核心工具的突破,使得高效低成本的基因技術(shù)應(yīng)用于大人群的疾病防控成為可能。從政府主導的民生實事切入,將基因技術(shù)惠及民生的同時,匯集寶貴的大人群大樣本資源,必將形成“大數(shù)據(jù)驅(qū)動”的引領(lǐng)性大科學突破,催生新型的大健康產(chǎn)業(yè)。華大已在深圳、長沙、阜陽等城市開展全市范圍的孕婦無創(chuàng)產(chǎn)前檢測等民生項目,目前華大累計完成超過三百萬例的孕婦基因檢測。將來將擴展到更多省市,同時也將升級測序數(shù)據(jù)量,增加疾病防控種類。面對如此海量的基因數(shù)據(jù),如何在確保數(shù)據(jù)安全和隱私保護的前提下進行大數(shù)據(jù)的挖掘利用,為大人群提供全方位全周期的服務(wù),是華大面臨的核心要務(wù)。
此外,華大已經(jīng)用測序、質(zhì)譜和影像等技術(shù)方法對數(shù)千名員工進行了連續(xù)三年的貫穿組學監(jiān)測、研究,初步證明了跨組學“4D 大數(shù)據(jù)”模式是解讀、監(jiān)測健康與疾病狀態(tài)的最佳途徑。華大區(qū)塊鏈從自身實踐做起,為員工搭建了一套基于區(qū)塊鏈的跨組學數(shù)據(jù)安全共享系統(tǒng),支撐個人生命數(shù)據(jù)的價值實現(xiàn)。這是華大區(qū)塊鏈的首個應(yīng)用場景,后續(xù)也將推廣、升級到華大對外與政府、醫(yī)院在跨組學數(shù)據(jù)的科研、臨床和產(chǎn)業(yè)應(yīng)用等方面的合作。
以下介紹華大區(qū)塊鏈在跨組學數(shù)據(jù)的應(yīng)用場景:
(1) 通過生命組學工具(測序儀、質(zhì)譜儀、影像設(shè)備、可穿戴設(shè)備等)收集全方位全周期的生命大數(shù)據(jù),形成人人、實時、終身的生命健康檔案,形成數(shù)字化生命;
(2) 所有數(shù)據(jù)將加密處理,于國家基因庫進行統(tǒng)一存儲,確保數(shù)據(jù)硬件安全、物理安全和訪問安全;
(3) 用戶可通過前端 APP 授權(quán)個人數(shù)據(jù)被內(nèi)部科研團隊、合作醫(yī)院、健康管理團隊等使用,所有的使用日志將以區(qū)塊鏈形式記錄,用戶可實時查詢、授權(quán)個人數(shù)據(jù)使用情況,實現(xiàn)用戶對個人數(shù)據(jù)的控制權(quán),將數(shù)據(jù)價值還于個人;
(4) 對于授權(quán)數(shù)據(jù)使用或主動提供組學數(shù)據(jù)的用戶,華大以健康積分作為激勵;健康積分可用于各類健康促進服務(wù)(精準運動、精準營養(yǎng)等),實現(xiàn)個人生命數(shù)據(jù)價值的正向反饋。
基于區(qū)塊鏈技術(shù)的數(shù)據(jù)交互模式現(xiàn)已應(yīng)用于對內(nèi)的跨組學數(shù)據(jù)員工健康計劃以及對外的腫瘤關(guān)愛計劃,已實現(xiàn)近萬人的組學數(shù)據(jù)安全共享與價值實現(xiàn)。隨著華大業(yè)務(wù)覆蓋更多人群,該模式將重構(gòu)個人組學數(shù)據(jù)的生產(chǎn)交互模式,真正實現(xiàn)“我的數(shù)據(jù)我掌控、我的健康我做主”。
4.2 區(qū)塊鏈+注冊申報:醫(yī)療器械申報全流程管理
華大智造是華大基因集團旗下定位于生產(chǎn)國產(chǎn)自主可控的生命數(shù)字化工具生產(chǎn)商。臨床注冊審批是國家食品藥品監(jiān)督管理總局(CFDA)準予醫(yī)療器械與藥品入市許可的必要步驟。在傳統(tǒng)申報流程下,由于需要提交的材料較多,易出現(xiàn)報送信息不全、不準、不真。此外,由于審批、檢查流程環(huán)節(jié)眾多,信息泄漏的風險點不少,易導致商業(yè)核心機密泄漏。華大每年需要報送 CFDA 審批的國產(chǎn)儀器與試劑盒眾多,為加強華大內(nèi)部設(shè)備試劑生產(chǎn)、臨床試驗數(shù)據(jù)、注冊申請材料等全流程追蹤管理,實現(xiàn)全程可溯源、信息可追蹤、過程可監(jiān)管,我們正在搭建基于華大區(qū)塊鏈的臨床注冊申報管理平臺。未來所有注冊申報的數(shù)據(jù)及信息均將通過此平臺登記,防止出現(xiàn)報送信息不全、失真等問題,并減少數(shù)據(jù)泄漏風險。同時,華大將與 CFDA 探討建立合作關(guān)系,以區(qū)塊鏈模式及時共享數(shù)據(jù),聯(lián)合實施審計監(jiān)管,從而提高申報效率。
4.3 區(qū)塊鏈+罕見病公益:許一個沒有罕見病的未來
罕見病是指發(fā)病率極低的疾病,根據(jù)世界衛(wèi)生組織(WHO)的定義,罕見病為患病人數(shù)占總?cè)丝诘?0.65‰~1‰的疾病。華大基因于 2016 年成立了“華大基因罕見病公益基金”,為罕見病患者提供免費基因檢測及遺傳咨詢,幫助罕見病患者查找病因并促進相關(guān)科學研究。2017 年又與合作伙伴聯(lián)合成立了為全球重癥地貧血患兒永久免費進行 HLA 配型的“華基金”及為全球 14 歲以下的萊伯氏先天性黑蒙癥患者提供基因檢測的“光基金”。華大區(qū)塊鏈為罕見病相關(guān)的公益基金建立基于區(qū)塊鏈的管理平臺,確保資金用途、捐贈記錄、受捐人信息等都將通過區(qū)塊鏈進行存證,實現(xiàn)全程公開透明。同時由于罕見病例稀少,相關(guān)數(shù)據(jù)極其分散,對罕見病的診斷、醫(yī)療離不開包括患者、病友會、醫(yī)生、檢測機構(gòu)、科研機構(gòu)、制藥機構(gòu)、公益基金會、媒體等多方互助才能把資源最優(yōu)化,最大可能地應(yīng)對罕見病。華大區(qū)塊鏈也將探索通過分布式架構(gòu)促進罕見病相關(guān)方多方協(xié)作,同時確保數(shù)據(jù)隱私、促進數(shù)據(jù)共享、定義數(shù)據(jù)價值。
4.4 區(qū)塊鏈+互助保險:HPV 檢測保障計劃
宮頸癌是女性最常見的惡性腫瘤之一。近年來,我國宮頸癌發(fā)病呈現(xiàn)年輕化的趨勢,每年因?qū)m頸癌死亡的女性約 3 萬人。早在上個世紀的 90 年代,科學家們就已經(jīng)發(fā)現(xiàn)宮頸癌與 HPV(人乳頭瘤病毒)的感染密切相關(guān),宮頸癌是目前唯一病因明確、可早發(fā)現(xiàn)、早預防的惡性腫瘤。為應(yīng)對 HPV 感染現(xiàn)狀,降低宮頸癌發(fā)病率,呵護女性健康,華大基因近期研發(fā)出自取樣的 HPV 分型基因篩查檢測產(chǎn)品,啟動大規(guī)模的互聯(lián)網(wǎng)宮頸癌防控計劃,同時首期在員工內(nèi)部試點 HPV 互助保障計劃,將基因科技與互聯(lián)網(wǎng)保險結(jié)合,所有購買 HPV 檢測試劑盒的費用都將作為互助基金,用于日后互助理賠。購買記錄、檢測結(jié)果、理賠金額等都將通過區(qū)塊鏈進行不可篡改地存證,并接受相關(guān)機構(gòu)的監(jiān)管,保障用戶權(quán)益。
4.5 區(qū)塊鏈+深度學習:從技術(shù)融合到生物智能
隨著基因數(shù)據(jù)的爆發(fā)性增長,深度學習等算法在基因組分析中的應(yīng)用逐漸增多。將區(qū)塊鏈技術(shù)與深度學習等智能算法融合,預先明確算力提供者、算法提供者和數(shù)據(jù)提供者三方的權(quán)責并做好利益分配,才能有效促進基因大數(shù)據(jù)的挖掘。在區(qū)塊鏈上進行待訓練數(shù)據(jù)的身份與權(quán)屬認證,并通過智能合約發(fā)布訓練需求,激勵算法提供者貢獻智慧。算法提供者既可以在本地可信環(huán)境中訓練模型,還可通過區(qū)塊鏈接入第三方算力平臺。智能模型訓練完成后,其科研與產(chǎn)業(yè)應(yīng)用價值可通過預先定義好的規(guī)則回饋給各方。華大區(qū)塊鏈創(chuàng)新性將區(qū)塊鏈技術(shù)用于匹配數(shù)據(jù)供需方,為數(shù)據(jù)挖掘引入廣泛的市場參與者,從而形成一個多方協(xié)作的算法市場與智能計算系統(tǒng),既可為數(shù)據(jù)確權(quán),又可最大化發(fā)揮數(shù)據(jù)價值,為最終實現(xiàn)生物智能奠定基礎(chǔ)。
4.6 區(qū)塊鏈+供應(yīng)鏈:農(nóng)產(chǎn)品智慧防偽溯源平臺
2017 年,國務(wù)院發(fā)布《關(guān)于積極推進供應(yīng)鏈創(chuàng)新與應(yīng)用的指導意見》,提到建立基于供應(yīng)鏈的重要食品質(zhì)量安全追溯機制。由于我國食品供應(yīng)鏈的成熟度較低,物流等基礎(chǔ)設(shè)施仍薄弱,傳統(tǒng)的管理方法和溯源平臺無法在短時間內(nèi)滿足民眾對食品安全和品質(zhì)溯源的訴求。
為了解決這一問題,華大區(qū)塊鏈攜手華大農(nóng)業(yè),整合物聯(lián)網(wǎng)和基因檢測技術(shù),打造農(nóng)產(chǎn)品的智慧防偽溯源平臺。利用區(qū)塊鏈去中心化、數(shù)據(jù)不可篡改、公開透明、時間戳等特點,將農(nóng)場、農(nóng)戶、檢驗檢疫、加工貿(mào)易、銷售、物流倉儲等機構(gòu)加入到聯(lián)盟鏈上,形成一個資金流、信息流、產(chǎn)品流的共享鏈條,做到來源可查,去向可追,責任可究。各個環(huán)節(jié)參與方以全節(jié)點形式參與到流程中,所有數(shù)據(jù)產(chǎn)生與交互都加密簽名后上鏈存證,充分解決供應(yīng)鏈中由于信息不對稱導致的交易摩擦,監(jiān)控管理缺失、數(shù)據(jù)欺詐導致的質(zhì)量安全或假冒問題,為消費者提供透明可追溯的全流程信息,形成全新的農(nóng)業(yè)生產(chǎn)管理方式。
擁抱生命大數(shù)據(jù)時代
區(qū)塊鏈技術(shù)的快速演進,并與實體經(jīng)濟不斷融合創(chuàng)新,正在推動可信社會的建立,促進數(shù)據(jù)價值的流轉(zhuǎn)。人類基因組計劃完成已近 20 年,隨著組學工具的不斷成熟,海量的生命大數(shù)據(jù)正在不斷地被數(shù)字化和分析挖掘,也為生命時代的價值度量和交換提供了數(shù)據(jù)基礎(chǔ)。作為全球最大的基因組研發(fā)機構(gòu),華大基因已與全球 60 多個國家、4000 多家機構(gòu)、13000 多名合作伙伴建立了廣泛的合作關(guān)系,共同向著“生優(yōu)病少、健康長壽、溫飽不愁、環(huán)境友好“的大目標邁進。華大區(qū)塊鏈也緊密圍繞集團戰(zhàn)略,推動生命大數(shù)據(jù)共享交換的生態(tài)體系建設(shè)。
與任何新技術(shù)剛興起時一樣,區(qū)塊鏈在生命健康行業(yè)的落地應(yīng)用依賴于技術(shù)進步、行業(yè)認同、政策法規(guī)等支持。為推動區(qū)塊鏈應(yīng)用發(fā)展,現(xiàn)建議如下:
1. 推動區(qū)塊鏈與其他技術(shù)的融合
區(qū)塊鏈技術(shù)不是萬能的,也不是孤立存在的。區(qū)塊鏈技術(shù)廣泛應(yīng)用于生命大數(shù)據(jù)領(lǐng)域,需要與云計算、數(shù)據(jù)庫、信息安全、密碼學等技術(shù)在硬件和軟件層面上不斷融合創(chuàng)新。
2. 依托聯(lián)盟,行業(yè)內(nèi)廣泛合作
以基因數(shù)據(jù)為基礎(chǔ)的生命組學大數(shù)據(jù),全球目前仍缺乏統(tǒng)一的共享標準和隱私保護準則。依托國家基因庫合作與聯(lián)盟體系的建設(shè),積極推廣區(qū)塊鏈技術(shù)的應(yīng)用,在實踐中積累經(jīng)驗,形成示范效應(yīng)。
3. 推進區(qū)塊鏈技術(shù)標準制定,并與產(chǎn)業(yè)標準并進
加快推進區(qū)塊鏈關(guān)鍵技術(shù)標準的制定,參與國際標準研制工作,并積極與生命健康行業(yè)的相關(guān)應(yīng)用標準互動,推動產(chǎn)業(yè)應(yīng)用標準落地。
4. 出臺扶持區(qū)塊鏈應(yīng)用發(fā)展的政策
借鑒發(fā)達國家和地區(qū)的先進做法,區(qū)塊鏈的規(guī)?;瘧?yīng)用得益于良好的發(fā)展環(huán)境與行業(yè)政策支持。及時出臺相關(guān)扶持政策,重點支持平臺建設(shè)與技術(shù)攻關(guān),建立行業(yè)監(jiān)管標準,促進技術(shù)長遠發(fā)展。
數(shù)化萬物,智在融合。生命因多樣而美麗,系統(tǒng)因協(xié)作而強大。華大以“造福自己、造福人類”的大目標為指引,用開放的心態(tài)擁抱未來,希望與合作伙伴共同探索出一條區(qū)塊鏈在生命健康行業(yè)的落地應(yīng)用之路,攜手打造生命大數(shù)據(jù)安全共享和價值交互的全新生態(tài)。