大數(shù)據(jù)技術是什么_大數(shù)據(jù)技術有哪些
大數(shù)據(jù)(big data),指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數(shù)據(jù)時代》 中大數(shù)據(jù)指不用隨機分析法(抽樣調(diào)查)這樣捷徑,而采用所有數(shù)據(jù)進行分析處理。大數(shù)據(jù)的5V特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。
對于“大數(shù)據(jù)”(Big data)研究機構Gartner給出了這樣的定義。“大數(shù)據(jù)”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應海量、高增長率和多樣化的信息資產(chǎn)。
毫無疑問,世界上所有關注開發(fā)技術的人都意識到“大數(shù)據(jù)”對企業(yè)商務所蘊含的潛在價值,其目的都在于解決在企業(yè)發(fā)展過程中各種業(yè)務數(shù)據(jù)增長所帶來的痛苦。
現(xiàn)實是,許多問題阻礙了大數(shù)據(jù)技術的發(fā)展和實際應用。
因為一種成功的技術,需要一些衡量的標準?,F(xiàn)在我們可以通過幾個基本要素來衡量一下大數(shù)據(jù)技術,這就是——流處理、并行性、摘要索引和可視化。
大數(shù)據(jù)技術涵蓋哪些內(nèi)容?
1、流處理
伴隨著業(yè)務發(fā)展的步調(diào),以及業(yè)務流程的復雜化,我們的注意力越來越集中在“數(shù)據(jù)流”而非“數(shù)據(jù)集”上面。
決策者感興趣的是緊扣其組織機構的命脈,并獲取實時的結果。他們需要的是能夠處理隨時發(fā)生的數(shù)據(jù)流的架構,當前的數(shù)據(jù)庫技術并不適合數(shù)據(jù)流處理。
例如,計算一組數(shù)據(jù)的平均值,可以使用一個傳統(tǒng)的腳本實現(xiàn)。但對于移動數(shù)據(jù)平均值的計算,不論是到達、增長還是一個又一個的單元,有更高效的算法。如果你想構建數(shù)據(jù)倉庫,并執(zhí)行任意的數(shù)據(jù)分析、統(tǒng)計,開源的產(chǎn)品R或者類似于SAS的商業(yè)產(chǎn)品就可以實現(xiàn)。但是你想創(chuàng)建的是一個數(shù)據(jù)流統(tǒng)計集,對此逐步添加或移除數(shù)據(jù)塊,進行移動平均計算,而且數(shù)據(jù)庫不存在或者尚不成熟。
數(shù)據(jù)流周邊的生態(tài)系統(tǒng)有欠發(fā)達。換言之,如果你正在與一家供應商洽談一個大數(shù)據(jù)項目,那么你必須知道數(shù)據(jù)流處理對你的項目而言是否重要,并且供應商是否有能力提供。
2、并行化
大數(shù)據(jù)的定義有許多種,以下這種相對有用。“小數(shù)據(jù)”的情形類似于桌面環(huán)境,磁盤存儲能力在1GB到10GB之間,“中數(shù)據(jù)”的數(shù)據(jù)量在100GB到1TB之間,“大數(shù)據(jù)”分布式的存儲在多臺機器上,包含1TB到多個PB的數(shù)據(jù)。
如果你在分布式數(shù)據(jù)環(huán)境中工作,并且想在很短的時間內(nèi)處理數(shù)據(jù),這就需要分布式處理。
并行處理在分布式數(shù)據(jù)中脫穎而出,Hadoop是一個分布式/并行處理領域廣為人知的例子。Hadoop包含一個大型分布式的文件系統(tǒng),支持分布式/并行查詢。
3、摘要索引
摘要索引是一個對數(shù)據(jù)創(chuàng)建預計算摘要,以加速查詢運行的過程。摘要索引的問題是,你必須為要執(zhí)行的查詢做好計劃,因此它有所限制。
數(shù)據(jù)增長飛速,對摘要索引的要求遠不會停止,不論是長期考慮還是短期,供應商必須對摘要索引的制定有一個確定的策略。
4、數(shù)據(jù)可視化
可視化工具有兩大類。
探索性可視化描述工具可以幫助決策者和分析師挖掘不同數(shù)據(jù)之間的聯(lián)系,這是一種可視化的洞察力。類似的工具有Tableau、TIBCO和QlikView,這是一類。
敘事可視化工具被設計成以獨特的方式探索數(shù)據(jù)。例如,如果你想以可視化的方式在一個時間序列中按照地域查看一個企業(yè)的銷售業(yè)績,可視化格式會被預先創(chuàng)建。數(shù)據(jù)會按照地域逐月展示,并根據(jù)預定義的公式排序。供應商PercepTIve Pixel就屬于這一類。
大數(shù)據(jù)技術有哪些1、跨粒度計算(In-DatabaseCompuTIng)
Z-Suite支持各種常見的匯總,還支持幾乎全部的專業(yè)統(tǒng)計函數(shù)。得益于跨粒度計算技術,Z-Suite數(shù)據(jù)分析引擎將找尋出最優(yōu)化的計算方案,繼而把所有開銷較大的、昂貴的計算都移動到數(shù)據(jù)存儲的地方直接計算,我們稱之為庫內(nèi)計算(In-Database)。這一技術大大減少了數(shù)據(jù)移動,降低了通訊負擔,保證了高性能數(shù)據(jù)分析。
2、并行計算(MPP CompuTIng)
Z-Suite是基于MPP架構的商業(yè)智能平臺,她能夠把計算分布到多個計算節(jié)點,再在指定節(jié)點將計算結果匯總輸出。Z-Suite能夠充分利用各種計算和存儲資源,不管是服務器還是普通的PC,她對網(wǎng)絡條件也沒有嚴苛的要求。作為橫向擴展的大數(shù)據(jù)平臺,Z-Suite能夠充分發(fā)揮各個節(jié)點的計算能力,輕松實現(xiàn)針對TB/PB級數(shù)據(jù)分析的秒級響應。
3、列存儲 (Column-Based)
Z-Suite是列存儲的?;诹写鎯Φ臄?shù)據(jù)集市,不讀取無關數(shù)據(jù),能降低讀寫開銷,同時提高I/O 的效率,從而大大提高查詢性能。另外,列存儲能夠更好地壓縮數(shù)據(jù),一般壓縮比在5 -10倍之間,這樣一來,數(shù)據(jù)占有空間降低到傳統(tǒng)存儲的1/5到1/10 。良好的數(shù)據(jù)壓縮技術,節(jié)省了存儲設備和內(nèi)存的開銷,卻大大了提升計算性能。
4、內(nèi)存計算
得益于列存儲技術和并行計算技術,Z-Suite能夠大大壓縮數(shù)據(jù),并同時利用多個節(jié)點的計算能力和內(nèi)存容量。一般地,內(nèi)存訪問速度比磁盤訪問速度要快幾百倍甚至上千倍。通過內(nèi)存計算,CPU直接從內(nèi)存而非磁盤上讀取數(shù)據(jù)并對數(shù)據(jù)進行計算。內(nèi)存計算是對傳統(tǒng)數(shù)據(jù)處理方式的一種加速,是實現(xiàn)大數(shù)據(jù)分析的關鍵應用技術。
注意事項
大數(shù)據(jù)技術的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實現(xiàn)盈利的關鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”。