大數(shù)據(jù)的存儲(chǔ)與備份,更離不開(kāi)技術(shù)與創(chuàng)新
掃描二維碼
隨時(shí)隨地手機(jī)看文章
根據(jù)IDC研究報(bào)告,未來(lái)10年全球數(shù)據(jù)量將以40%多的增長(zhǎng)速度呈直線上升趨勢(shì),2020年,全球的數(shù)據(jù)量將達(dá)到35ZB(35,000,000PB),是2010年的40倍。換句通俗的話說(shuō),也就是每過(guò)1分鐘,全世界就有1820TB的新數(shù)據(jù)產(chǎn)生。
大數(shù)據(jù)的重要性
隨著互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等技術(shù)的發(fā)展,一個(gè)城市的數(shù)據(jù)生產(chǎn)在飛速的發(fā)展,信息就成了一個(gè)企業(yè)的戰(zhàn)略子站,市場(chǎng)競(jìng)爭(zhēng)和政策的管制要求越來(lái)越多的數(shù)據(jù)被長(zhǎng)期的保存。不僅僅是企業(yè)需要保存數(shù)據(jù),政府也越來(lái)越開(kāi)始注重各類(lèi)信息數(shù)據(jù)的收集、保存和備份,從而進(jìn)行用戶行為分析、市場(chǎng)的研究。
大數(shù)據(jù)的分析模式
與傳統(tǒng)數(shù)據(jù)分析相比,用于大數(shù)據(jù)分析的數(shù)據(jù)集合主要有2點(diǎn)區(qū)別:第一,傳統(tǒng)模式大都采用通過(guò)采樣的方式獲得部分?jǐn)?shù)據(jù)用于分析,而大數(shù)據(jù)可以對(duì)收集到的所有的數(shù)據(jù)進(jìn)行分析,分析用的數(shù)據(jù)源由采樣數(shù)據(jù)擴(kuò)展至了全部的數(shù)據(jù);第二,傳統(tǒng)分析更加關(guān)注數(shù)據(jù)源與分析結(jié)果間的因果關(guān)系,大數(shù)據(jù)分析時(shí)數(shù)據(jù)源與分析結(jié)果不再只是因果的關(guān)系,基于有相關(guān)關(guān)系的數(shù)據(jù)源同樣可以分析并且預(yù)測(cè)出正確的結(jié)果。
大數(shù)據(jù)的分析給傳統(tǒng)的數(shù)據(jù)分析和處理技術(shù)帶來(lái)了很多挑戰(zhàn)。云計(jì)算和開(kāi)源技術(shù)的發(fā)展推動(dòng)大數(shù)據(jù)落地,分布式存儲(chǔ)、非關(guān)系型數(shù)據(jù)庫(kù)和并行處理技術(shù)逐漸成為大數(shù)據(jù)應(yīng)用實(shí)施過(guò)程當(dāng)中的關(guān)鍵技術(shù)。開(kāi)元Hadoop為大數(shù)據(jù)提供了各個(gè)層面的技術(shù)支持,這也是當(dāng)前形勢(shì)下應(yīng)用最廣泛、關(guān)注度最高的大數(shù)據(jù)項(xiàng)目。Hadoop幾乎已經(jīng)成為了大數(shù)據(jù)處理的事實(shí)標(biāo)準(zhǔn)。
大數(shù)據(jù)的存儲(chǔ)形式
談到大數(shù)據(jù)的分析,就必不可少的在這之前,需要對(duì)大數(shù)據(jù)進(jìn)行存儲(chǔ)和備份。大數(shù)據(jù)的存儲(chǔ)需要滿足海量的存儲(chǔ)、安全存儲(chǔ)和快讀讀取的要求,目前應(yīng)用較廣的主要有Hadoop分布式文件系統(tǒng)。據(jù)江蘇愛(ài)科賽爾云數(shù)據(jù)的責(zé)任人表示:“作為數(shù)據(jù)服務(wù)公司,技術(shù)是最根本的,而目前首要的就是把重心放在原始數(shù)據(jù)的高壓縮和去重技術(shù)上。”另外,針對(duì)大數(shù)據(jù)的存儲(chǔ)和備份,一些市場(chǎng)上主要的需求和建議在今年也被大家開(kāi)始提出:
1、大數(shù)據(jù)存儲(chǔ)和備份系統(tǒng)對(duì)備份的文件格式應(yīng)該采取多樣化的設(shè)定,即無(wú)論何種形式的文件,均可以使用軟件進(jìn)行存儲(chǔ)和備份;
2、大數(shù)據(jù)存儲(chǔ)和備份在執(zhí)行任務(wù)的時(shí)候,在LAN或WAN時(shí)都應(yīng)該達(dá)到最低網(wǎng)速,及時(shí)在網(wǎng)速較慢的情況下(256kbps)也能進(jìn)行快速的備份和上載。
3、針對(duì)國(guó)內(nèi)情況,對(duì)于虛擬機(jī)本身的備份和恢復(fù)應(yīng)該開(kāi)始重視起來(lái);
4、在軟件報(bào)錯(cuò)的時(shí)候,應(yīng)該能夠進(jìn)行自我的修復(fù),而不是當(dāng)軟件報(bào)錯(cuò)的時(shí)候就導(dǎo)致企業(yè)無(wú)法進(jìn)行順利的存儲(chǔ)和備份;
5、增加Failover和Failback的失敗自動(dòng)切換和失敗自動(dòng)恢復(fù)的模式,這樣一來(lái)就可以似的操作智能化,在遇到錯(cuò)誤的時(shí)候能夠自動(dòng)重新選擇其它線路,而不是一昧的停在原地。