大數(shù)據(jù)處理的三大流程以及大數(shù)據(jù)的價值
數(shù)據(jù)采集
定義:利用多種輕型數(shù)據(jù)庫來接收發(fā)自客戶端的數(shù)據(jù),并且用戶可以通過這些數(shù)據(jù)庫來進行簡單的查詢和處理工作。
特點和挑戰(zhàn):并發(fā)系數(shù)高。
使用的產(chǎn)品:MySQL,Oracle,Hbase,Redis和 MongoDB等,并且這些產(chǎn)品的特點各不相同。
統(tǒng)計分析
定義:將海量的來自前端的數(shù)據(jù)快速導入到一個集中的大型分布式數(shù)據(jù)庫 或者分布式存儲集群,利用分布式技術來對存儲于其內(nèi)的集中的海量數(shù)據(jù) 進行普通的查詢和分類匯總等,以此滿足大多數(shù)常見的分析需求。
特點和挑戰(zhàn):導入數(shù)據(jù)量大,查詢涉及的數(shù)據(jù)量大,查詢請求多。
使用的產(chǎn)品:InfoBright,Hadoop(Pig和Hive),YunTable, SAP Hana和OracleExadata,除Hadoop以做離線分析為主之外,其他產(chǎn)品可做實時分析。
挖掘數(shù)據(jù)
定義:基于前面的查詢數(shù)據(jù)進行數(shù)據(jù)挖掘,來滿足高級別 的數(shù)據(jù)分析需求。
特點和挑戰(zhàn):算法復雜,并且計算涉及的數(shù)據(jù)量和計算量都大。
使用的產(chǎn)品:R,Hadoop Mahout。
大數(shù)據(jù)的價值
如果從企業(yè)決策的角度來看,在任何行業(yè),任何領域,通過推動數(shù)據(jù)化或大數(shù)據(jù)演算提升企業(yè)決策和企業(yè)戰(zhàn)略實施的,仍然是人的大腦。唯一的區(qū)別是,從前依靠豐富的企業(yè)經(jīng)驗和信息整合能力來決策的領導層,如今依靠的是高性能并行的計算機處理技術來處理海量的數(shù)據(jù)集,分布式的演算出最終的戰(zhàn)略決策。利用這樣的科技,就可以大大提升領導決策的精準度和效率。
而其實大數(shù)據(jù)的作用已經(jīng)不僅僅是為各類決策提供幫助,它甚至能夠用海量的數(shù)據(jù)塑造個體,用戶分析將不再適用,因為大數(shù)據(jù)甚至可以塑造用戶。
大數(shù)定理告訴我們,在試驗不變的條件下,重復試驗多次,隨機事件的頻率近似于它概率?!坝幸?guī)律的隨機事件”在大量重復出現(xiàn)的條件下,往往呈現(xiàn)幾乎必然的統(tǒng)計特性。數(shù)據(jù)本身不產(chǎn)生價值,如何分析和利用大數(shù)據(jù)對業(yè)務產(chǎn)生幫助才是關鍵。隨著計算機的處理能力的日益強大,你能獲得的數(shù)據(jù)量越大,你能挖掘到的價值就越多。
如果銀行能及時地了解風險,我們的經(jīng)濟將更加強大。
如果醫(yī)院能夠更早發(fā)現(xiàn)疾病,我們的身體將更加健康。
如果電信公司能夠降低成本,我們的話費將更加便宜。
如果交通動態(tài)天氣能夠掌握,我們的出行將更加方便。
如果商場能夠動態(tài)調(diào)整庫存,我們的商品將更加實惠。
從商業(yè)角度來看,從繁雜龐大的數(shù)據(jù)中挖掘、分析用戶的行為習慣和喜好,研發(fā)出更符合用戶偏好的產(chǎn)品和服務,并結(jié)合用戶需求有針對性地調(diào)整和優(yōu)化產(chǎn)品,以優(yōu)化用戶體驗,最終獲得商業(yè)利益,就是大數(shù)據(jù)在商業(yè)社會的價值。
拋開商業(yè),利用大數(shù)據(jù)預測可能的災難,利用大數(shù)據(jù)分析癌癥可能的引發(fā)原因并找出治療方法,都是未來能夠惠及人類的事業(yè)。
最終,我們都將從大數(shù)據(jù)分析中獲益。
在大數(shù)據(jù)時代,不再依賴于采樣的人們可以獲得并分析更多的數(shù)據(jù),更清楚地發(fā)現(xiàn)樣本無法揭示的細節(jié)信息,隨著計算機處理能力的日益強大,人工智能機器學習系統(tǒng)的不斷升級,龐大的數(shù)據(jù)給人們帶來的價值成倍攀升。
實驗的不斷反復、大數(shù)據(jù)的日漸積累讓人類不斷發(fā)現(xiàn)各種規(guī)律,從而能夠預測未來。