大數(shù)據(jù)的存儲與備份,更離不開技術與創(chuàng)新
根據(jù)IDC研究報告,未來10年全球數(shù)據(jù)量將以40%多的增長速度呈直線上升趨勢,2020年,全球的數(shù)據(jù)量將達到35ZB(35,000,000PB),是2010年的40倍。換句通俗的話說,也就是每過1分鐘,全世界就有1820TB的新數(shù)據(jù)產(chǎn)生。
大數(shù)據(jù)的重要性
隨著互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等技術的發(fā)展,一個城市的數(shù)據(jù)生產(chǎn)在飛速的發(fā)展,信息就成了一個企業(yè)的戰(zhàn)略子站,市場競爭和政策的管制要求越來越多的數(shù)據(jù)被長期的保存。不僅僅是企業(yè)需要保存數(shù)據(jù),政府也越來越開始注重各類信息數(shù)據(jù)的收集、保存和備份,從而進行用戶行為分析、市場的研究。
大數(shù)據(jù)的分析模式
與傳統(tǒng)數(shù)據(jù)分析相比,用于大數(shù)據(jù)分析的數(shù)據(jù)集合主要有2點區(qū)別:第一,傳統(tǒng)模式大都采用通過采樣的方式獲得部分數(shù)據(jù)用于分析,而大數(shù)據(jù)可以對收集到的所有的數(shù)據(jù)進行分析,分析用的數(shù)據(jù)源由采樣數(shù)據(jù)擴展至了全部的數(shù)據(jù);第二,傳統(tǒng)分析更加關注數(shù)據(jù)源與分析結果間的因果關系,大數(shù)據(jù)分析時數(shù)據(jù)源與分析結果不再只是因果的關系,基于有相關關系的數(shù)據(jù)源同樣可以分析并且預測出正確的結果。
大數(shù)據(jù)的分析給傳統(tǒng)的數(shù)據(jù)分析和處理技術帶來了很多挑戰(zhàn)。云計算和開源技術的發(fā)展推動大數(shù)據(jù)落地,分布式存儲、非關系型數(shù)據(jù)庫和并行處理技術逐漸成為大數(shù)據(jù)應用實施過程當中的關鍵技術。開元Hadoop為大數(shù)據(jù)提供了各個層面的技術支持,這也是當前形勢下應用最廣泛、關注度最高的大數(shù)據(jù)項目。Hadoop幾乎已經(jīng)成為了大數(shù)據(jù)處理的事實標準。
大數(shù)據(jù)的存儲形式
談到大數(shù)據(jù)的分析,就必不可少的在這之前,需要對大數(shù)據(jù)進行存儲和備份。大數(shù)據(jù)的存儲需要滿足海量的存儲、安全存儲和快讀讀取的要求,目前應用較廣的主要有Hadoop分布式文件系統(tǒng)。據(jù)江蘇愛科賽爾云數(shù)據(jù)的責任人表示:“作為數(shù)據(jù)服務公司,技術是最根本的,而目前首要的就是把重心放在原始數(shù)據(jù)的高壓縮和去重技術上。”另外,針對大數(shù)據(jù)的存儲和備份,一些市場上主要的需求和建議在今年也被大家開始提出:
1、大數(shù)據(jù)存儲和備份系統(tǒng)對備份的文件格式應該采取多樣化的設定,即無論何種形式的文件,均可以使用軟件進行存儲和備份;
2、大數(shù)據(jù)存儲和備份在執(zhí)行任務的時候,在LAN或WAN時都應該達到最低網(wǎng)速,及時在網(wǎng)速較慢的情況下(256kbps)也能進行快速的備份和上載。
3、針對國內情況,對于虛擬機本身的備份和恢復應該開始重視起來;
4、在軟件報錯的時候,應該能夠進行自我的修復,而不是當軟件報錯的時候就導致企業(yè)無法進行順利的存儲和備份;
5、增加Failover和Failback的失敗自動切換和失敗自動恢復的模式,這樣一來就可以似的操作智能化,在遇到錯誤的時候能夠自動重新選擇其它線路,而不是一昧的停在原地。