大數(shù)據(jù)處理的三大流程以及大數(shù)據(jù)的價(jià)值
掃描二維碼
隨時(shí)隨地手機(jī)看文章
數(shù)據(jù)采集
定義:利用多種輕型數(shù)據(jù)庫來接收發(fā)自客戶端的數(shù)據(jù),并且用戶可以通過這些數(shù)據(jù)庫來進(jìn)行簡(jiǎn)單的查詢和處理工作。
特點(diǎn)和挑戰(zhàn):并發(fā)系數(shù)高。
使用的產(chǎn)品:MySQL,Oracle,Hbase,Redis和 MongoDB等,并且這些產(chǎn)品的特點(diǎn)各不相同。
統(tǒng)計(jì)分析
定義:將海量的來自前端的數(shù)據(jù)快速導(dǎo)入到一個(gè)集中的大型分布式數(shù)據(jù)庫 或者分布式存儲(chǔ)集群,利用分布式技術(shù)來對(duì)存儲(chǔ)于其內(nèi)的集中的海量數(shù)據(jù) 進(jìn)行普通的查詢和分類匯總等,以此滿足大多數(shù)常見的分析需求。
特點(diǎn)和挑戰(zhàn):導(dǎo)入數(shù)據(jù)量大,查詢涉及的數(shù)據(jù)量大,查詢請(qǐng)求多。
使用的產(chǎn)品:InfoBright,Hadoop(Pig和Hive),YunTable, SAP Hana和OracleExadata,除Hadoop以做離線分析為主之外,其他產(chǎn)品可做實(shí)時(shí)分析。
挖掘數(shù)據(jù)
定義:基于前面的查詢數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,來滿足高級(jí)別 的數(shù)據(jù)分析需求。
特點(diǎn)和挑戰(zhàn):算法復(fù)雜,并且計(jì)算涉及的數(shù)據(jù)量和計(jì)算量都大。
使用的產(chǎn)品:R,Hadoop Mahout。
大數(shù)據(jù)的價(jià)值
如果從企業(yè)決策的角度來看,在任何行業(yè),任何領(lǐng)域,通過推動(dòng)數(shù)據(jù)化或大數(shù)據(jù)演算提升企業(yè)決策和企業(yè)戰(zhàn)略實(shí)施的,仍然是人的大腦。唯一的區(qū)別是,從前依靠豐富的企業(yè)經(jīng)驗(yàn)和信息整合能力來決策的領(lǐng)導(dǎo)層,如今依靠的是高性能并行的計(jì)算機(jī)處理技術(shù)來處理海量的數(shù)據(jù)集,分布式的演算出最終的戰(zhàn)略決策。利用這樣的科技,就可以大大提升領(lǐng)導(dǎo)決策的精準(zhǔn)度和效率。
而其實(shí)大數(shù)據(jù)的作用已經(jīng)不僅僅是為各類決策提供幫助,它甚至能夠用海量的數(shù)據(jù)塑造個(gè)體,用戶分析將不再適用,因?yàn)榇髷?shù)據(jù)甚至可以塑造用戶。
大數(shù)定理告訴我們,在試驗(yàn)不變的條件下,重復(fù)試驗(yàn)多次,隨機(jī)事件的頻率近似于它概率?!坝幸?guī)律的隨機(jī)事件”在大量重復(fù)出現(xiàn)的條件下,往往呈現(xiàn)幾乎必然的統(tǒng)計(jì)特性。數(shù)據(jù)本身不產(chǎn)生價(jià)值,如何分析和利用大數(shù)據(jù)對(duì)業(yè)務(wù)產(chǎn)生幫助才是關(guān)鍵。隨著計(jì)算機(jī)的處理能力的日益強(qiáng)大,你能獲得的數(shù)據(jù)量越大,你能挖掘到的價(jià)值就越多。
如果銀行能及時(shí)地了解風(fēng)險(xiǎn),我們的經(jīng)濟(jì)將更加強(qiáng)大。
如果醫(yī)院能夠更早發(fā)現(xiàn)疾病,我們的身體將更加健康。
如果電信公司能夠降低成本,我們的話費(fèi)將更加便宜。
如果交通動(dòng)態(tài)天氣能夠掌握,我們的出行將更加方便。
如果商場(chǎng)能夠動(dòng)態(tài)調(diào)整庫存,我們的商品將更加實(shí)惠。
從商業(yè)角度來看,從繁雜龐大的數(shù)據(jù)中挖掘、分析用戶的行為習(xí)慣和喜好,研發(fā)出更符合用戶偏好的產(chǎn)品和服務(wù),并結(jié)合用戶需求有針對(duì)性地調(diào)整和優(yōu)化產(chǎn)品,以優(yōu)化用戶體驗(yàn),最終獲得商業(yè)利益,就是大數(shù)據(jù)在商業(yè)社會(huì)的價(jià)值。
拋開商業(yè),利用大數(shù)據(jù)預(yù)測(cè)可能的災(zāi)難,利用大數(shù)據(jù)分析癌癥可能的引發(fā)原因并找出治療方法,都是未來能夠惠及人類的事業(yè)。
最終,我們都將從大數(shù)據(jù)分析中獲益。
在大數(shù)據(jù)時(shí)代,不再依賴于采樣的人們可以獲得并分析更多的數(shù)據(jù),更清楚地發(fā)現(xiàn)樣本無法揭示的細(xì)節(jié)信息,隨著計(jì)算機(jī)處理能力的日益強(qiáng)大,人工智能機(jī)器學(xué)習(xí)系統(tǒng)的不斷升級(jí),龐大的數(shù)據(jù)給人們帶來的價(jià)值成倍攀升。
實(shí)驗(yàn)的不斷反復(fù)、大數(shù)據(jù)的日漸積累讓人類不斷發(fā)現(xiàn)各種規(guī)律,從而能夠預(yù)測(cè)未來。