管理大數(shù)據(jù)的五大良策
美國政府在即將到來的大數(shù)據(jù)項目中將面臨重重挑戰(zhàn),其中之一就是生成數(shù)據(jù)量不足。但事實上,Gartner最近的報告顯示,企業(yè)數(shù)據(jù)年平均增長速度在40%?60%。
作為一些生成大量數(shù)據(jù)機構(包括國家天氣服務局、國家海洋和大氣管理局)的主管政府部門,美國商務部的這一數(shù)字甚至更低。
在最近的FOSE大會上,美國商務部CIOSimonSzykman表示:“我們不存在挑戰(zhàn)的領域之一就是我們生成數(shù)據(jù)的能力。我們生成數(shù)據(jù)的基本能力提升很大,從很大程度上講,這一能力已超越了我們處理數(shù)據(jù)、管理數(shù)據(jù)和轉(zhuǎn)移數(shù)據(jù)的能力。”
如何管理數(shù)據(jù),并將數(shù)據(jù)從一點轉(zhuǎn)移到另一點,將是美國政府面臨的一大挑戰(zhàn)。
Szykman還提到了商務部在大數(shù)據(jù)中遇到的其他一些重要問題,主要為以下五個方面:
數(shù)據(jù)工程師
研究領域的很多科學家正在研究大數(shù)據(jù)的精密使用,比如在預防醫(yī)學、藥品設計和胎兒檢查領域如何開發(fā)基因數(shù)據(jù)。但Szykman擔心的是,真正了解大數(shù)據(jù)技術構架的人太少。
他說:“我們得好好想想大數(shù)據(jù)及我們?nèi)绾卫盟?,特別是在一些特殊領域。無論是政府的直接應用還是由政府出資科研,政府都在推動大數(shù)據(jù)這一前沿技術的發(fā)展?!?
保密性VS.完整性
對于那些有科研基礎的機構來說,大數(shù)據(jù)安全不僅僅是一個保密問題。事實上,更大的擔憂是數(shù)據(jù)的長期完整性。
Syzkman說:“這是IT界一直為之努力的議題。有時候,我們過分關注結果而忽視了安全。人們有時會問:'我們最終都要和公眾分享這一數(shù)據(jù),那安全有什么重要呢?'”
這一問題的最佳答案來自科研機構,如NOAA。他們收集的基準數(shù)據(jù)正巧是美國氣候變化政策備受爭議所在。
Szykman說:“不管這些政策的政治傾向性如何,它們都對經(jīng)濟有重大影響。如果我們放棄了這些長期氣候記錄數(shù)據(jù)的安全性,那將造成嚴重后果。我們的確得好好想想大數(shù)據(jù)的問題。'‘
大思路,早規(guī)劃
在向開放數(shù)據(jù)轉(zhuǎn)移的過程中,盡早搞清楚系統(tǒng)生命周期的要求顯得越來越重要。
Szykman說:“過去沒有做的一件事就是盡早研究開放數(shù)據(jù)在生命周期上的要求。我認為,數(shù)據(jù)模型、分享和信息的情況會越來越普遍,而系統(tǒng)性的戰(zhàn)略會越來越多。在生命周期的早期,在我們成功安裝新的系統(tǒng)或應用程序后,就應該盡早考慮該問題。”
數(shù)據(jù)真實性
大數(shù)據(jù)的重要性不僅僅在于數(shù)據(jù)所生成的記錄,更大的價值在于根據(jù)這些數(shù)據(jù)得出科研結果的“復制能力”。
Szykman說:“從學術層面來看,這正是你證實所做工作價值的時候:其他人也可以對結果進行復制。另一方面,如果你丟失了得出科研結果的那些數(shù)據(jù),這會降低結果的合理性。”
制定基線
由于很少存在類似的應用程序,難以獲取相關信息或進行比照,因此有時候很難評定大數(shù)據(jù)以及其他高科技項目的開支和風險。出臺開支和風險的基線,對大數(shù)據(jù)和數(shù)據(jù)中心來說都是一大挑戰(zhàn),因為還沒有相關標準。
他說:“操作一些簡單事情有時候充滿挑戰(zhàn),如計算數(shù)據(jù)中心的能耗。大數(shù)據(jù)基線不僅在基礎設施層面,還包括數(shù)據(jù)包,都需要對未來資源進行更優(yōu)規(guī)劃。
20211021_617041f7e1811__管理大數(shù)據(jù)的五大良策