大數(shù)據(jù)的存儲與備份,更離不開技術(shù)與創(chuàng)新
掃描二維碼
隨時隨地手機(jī)看文章
根據(jù)IDC研究報告,未來10年全球數(shù)據(jù)量將以40%多的增長速度呈直線上升趨勢,2020年,全球的數(shù)據(jù)量將達(dá)到35ZB(35,000,000PB),是2010年的40倍。換句通俗的話說,也就是每過1分鐘,全世界就有1820TB的新數(shù)據(jù)產(chǎn)生。
大數(shù)據(jù)的重要性
隨著互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等技術(shù)的發(fā)展,一個城市的數(shù)據(jù)生產(chǎn)在飛速的發(fā)展,信息就成了一個企業(yè)的戰(zhàn)略子站,市場競爭和政策的管制要求越來越多的數(shù)據(jù)被長期的保存。不僅僅是企業(yè)需要保存數(shù)據(jù),政府也越來越開始注重各類信息數(shù)據(jù)的收集、保存和備份,從而進(jìn)行用戶行為分析、市場的研究。
大數(shù)據(jù)的分析模式
與傳統(tǒng)數(shù)據(jù)分析相比,用于大數(shù)據(jù)分析的數(shù)據(jù)集合主要有2點(diǎn)區(qū)別:第一,傳統(tǒng)模式大都采用通過采樣的方式獲得部分?jǐn)?shù)據(jù)用于分析,而大數(shù)據(jù)可以對收集到的所有的數(shù)據(jù)進(jìn)行分析,分析用的數(shù)據(jù)源由采樣數(shù)據(jù)擴(kuò)展至了全部的數(shù)據(jù);第二,傳統(tǒng)分析更加關(guān)注數(shù)據(jù)源與分析結(jié)果間的因果關(guān)系,大數(shù)據(jù)分析時數(shù)據(jù)源與分析結(jié)果不再只是因果的關(guān)系,基于有相關(guān)關(guān)系的數(shù)據(jù)源同樣可以分析并且預(yù)測出正確的結(jié)果。
大數(shù)據(jù)的分析給傳統(tǒng)的數(shù)據(jù)分析和處理技術(shù)帶來了很多挑戰(zhàn)。云計算和開源技術(shù)的發(fā)展推動大數(shù)據(jù)落地,分布式存儲、非關(guān)系型數(shù)據(jù)庫和并行處理技術(shù)逐漸成為大數(shù)據(jù)應(yīng)用實施過程當(dāng)中的關(guān)鍵技術(shù)。開元Hadoop為大數(shù)據(jù)提供了各個層面的技術(shù)支持,這也是當(dāng)前形勢下應(yīng)用最廣泛、關(guān)注度最高的大數(shù)據(jù)項目。Hadoop幾乎已經(jīng)成為了大數(shù)據(jù)處理的事實標(biāo)準(zhǔn)。
大數(shù)據(jù)的存儲形式
談到大數(shù)據(jù)的分析,就必不可少的在這之前,需要對大數(shù)據(jù)進(jìn)行存儲和備份。大數(shù)據(jù)的存儲需要滿足海量的存儲、安全存儲和快讀讀取的要求,目前應(yīng)用較廣的主要有Hadoop分布式文件系統(tǒng)。據(jù)江蘇愛科賽爾云數(shù)據(jù)的責(zé)任人表示:“作為數(shù)據(jù)服務(wù)公司,技術(shù)是最根本的,而目前首要的就是把重心放在原始數(shù)據(jù)的高壓縮和去重技術(shù)上。”另外,針對大數(shù)據(jù)的存儲和備份,一些市場上主要的需求和建議在今年也被大家開始提出:
1、大數(shù)據(jù)存儲和備份系統(tǒng)對備份的文件格式應(yīng)該采取多樣化的設(shè)定,即無論何種形式的文件,均可以使用軟件進(jìn)行存儲和備份;
2、大數(shù)據(jù)存儲和備份在執(zhí)行任務(wù)的時候,在LAN或WAN時都應(yīng)該達(dá)到最低網(wǎng)速,及時在網(wǎng)速較慢的情況下(256kbps)也能進(jìn)行快速的備份和上載。
3、針對國內(nèi)情況,對于虛擬機(jī)本身的備份和恢復(fù)應(yīng)該開始重視起來;
4、在軟件報錯的時候,應(yīng)該能夠進(jìn)行自我的修復(fù),而不是當(dāng)軟件報錯的時候就導(dǎo)致企業(yè)無法進(jìn)行順利的存儲和備份;
5、增加Failover和Failback的失敗自動切換和失敗自動恢復(fù)的模式,這樣一來就可以似的操作智能化,在遇到錯誤的時候能夠自動重新選擇其它線路,而不是一昧的停在原地。