大數(shù)據分析概要
大數(shù)據分析面臨的主要挑戰(zhàn)
大數(shù)據是一項艱巨的挑戰(zhàn)。眾所周知,當今時代,數(shù)據正以爆炸式的速度增長,世界上總共有多少數(shù)據,沒人能給出確切的答案。
谷歌前首席執(zhí)行官埃里克?施密特稱,“我們現(xiàn)在創(chuàng)造出來的信息量相當于過去整個人類歷史創(chuàng)造出來的文明。從數(shù)字時代開始到2003年,我們只創(chuàng)造出5艾字節(jié)的信息。但是,我們現(xiàn)在每兩天就能創(chuàng)造出5艾字節(jié)的信息,而且信息增長的速度還在不斷加快?!?
這個數(shù)據似乎有些言過其實。RJMetrics首席執(zhí)行官RobertJ.Moore,在最近的TEDx演講欄目中提到,2002年,只有23艾字節(jié)的信息被記錄和復制,但我們現(xiàn)在每七天就能更新和轉移這么多數(shù)據。
Gartner稱,企業(yè)數(shù)據在未來5年內將增長650%。IDC的說法是,全世界的信息在一年半內即可翻一倍。IDC稱,2011年,我們創(chuàng)造了1.8澤字節(jié)(1.8兆GBs)的信息,若要將這些信息儲存在電子設備中,則需要575億臺規(guī)格為32G的iPad,將如此多的iPad連接起來,長度是萬里長城的兩倍。
數(shù)據的創(chuàng)造腳步勢必加快,尤其是當今機器對機器通訊技術的成本降低,人們獲取技術更為便捷。試想一下,所有傳感器網絡、防盜警報器、車輛遠程通訊系統(tǒng)等加在一起,將會創(chuàng)造出多么龐大的數(shù)據。
IBM稱,我們每一天都能創(chuàng)造出2.519字節(jié)的信息。數(shù)據正在指數(shù)式增長,并且,當今世界上90%的數(shù)據都是在過去兩年內創(chuàng)造出來的。這些數(shù)據來自各個地方,比如傳感器收集氣象信息上傳到社交網站,數(shù)字圖像和數(shù)字視頻,電子商務交易記錄,GPS坐標等等。
當然,在早期人類歷史上,像推特之類的簡短信息并沒有記錄下來,所以對比只能到此為止。實際生活中,每一天我們都在創(chuàng)造如下數(shù)據:
?超過2.04億封電子郵件消息;
?超過200萬的谷歌查詢;
48小時更新的YouTube視頻;
68.4萬條分享在Facebook上的內容;
?10萬余條推特;
?27.2萬美元的電子商務投資;
3600張分享在Instagram新照片;
?將近350篇新發(fā)布的WordPress博客。
圖1所示是人們每天所創(chuàng)造的數(shù)據示意圖。
圖1每天所創(chuàng)造的數(shù)據示意圖(圖片來源于:DOMO)
大數(shù)據面臨的挑戰(zhàn)在于,不同系統(tǒng)中到處都能儲存數(shù)據。打破相互獨立的數(shù)據系統(tǒng),標準化操作是當今面臨的主要任務。另外一個主要任務是創(chuàng)建大數(shù)據平臺,可以存儲結構化數(shù)據和非結構化數(shù)據。
當你進入大數(shù)據這塊領域時,你會發(fā)現(xiàn)更多神秘的挑戰(zhàn)。比如,傳統(tǒng)數(shù)據庫最初并沒有用到多核處理器。因此,它們在
處理數(shù)據的時候速度較慢。這導致“快速數(shù)據”概念的出現(xiàn),像ParStream之類的小型公司正試圖克服數(shù)據庫遺留的問題。
從累積到分析
我們需要處理許多數(shù)據。積累數(shù)據是一回事,而處理數(shù)據則是另外一回事。收集報紙、吞拿魚空罐子和小野貓的人,不會被人們視作為一個有辨別力的收集者。想象一下,你也不會到廢物囤積者家中學習歷史,因為那兒可用的信息不多。相反,我們一般會去從古董收藏家那獲得知識。
盡管有了數(shù)據,這個世界上還是有很多囤積者。當今數(shù)字儲存價格低廉,因此人們把所有數(shù)據都儲存起來。確切地說,他們從不會自找麻煩,刪除數(shù)據。網絡存儲方面也是一樣,在開始低收費之前,在線存儲供應商甚至還會定期免費放出幾個GB的數(shù)據,供客戶使用。
當今,許多企業(yè)正在努力處理無止境擴張的數(shù)據,因為如果不這么做的話,企業(yè)將失去競爭力。
IBM稱,數(shù)據的指數(shù)化增長將給許多企業(yè)留下嚴重的盲點。IBM研究發(fā)現(xiàn),企業(yè)領導經常許可一些無數(shù)據支撐的決策,或者他們的決策是基于置信度不高的信息之上。更令人驚訝的是,半數(shù)企業(yè)領導者表示,他們尚未找到可以讓工作效率變高的信息途徑。
雖然大多數(shù)企業(yè)領導者和有關人員知道,與工作相關的數(shù)據確實存在,但不知道哪里可以獲得這些數(shù)據。即使他們已經有一個大致的想法,他們還不清楚如何將想法提煉,應用到實際生活中。他們試圖尋找這些相關數(shù)據,但始終沒法確定數(shù)據的實時性和準確性。
大數(shù)據分析旨在處理上述問題。我們追求的不只是原始數(shù)據,而是分析這些數(shù)據的技術。
大數(shù)據分析體系
當技術達到能將數(shù)據獨立性打破、數(shù)據分析能力提高時,商業(yè)即可轉換成各種形式。分析大數(shù)據技術的進步能讓研究人員在數(shù)分鐘之內解碼人體DNA,這項技術讓基因公司(如23andme公司)成功運轉。
同時,研究人員能夠預測預謀的襲擊地點,特定的疾病是由哪種基因引起,分析你在Facebook上最有可能回復的廣告內容。
事實上,由PNAS發(fā)布的最新研究顯示,你在Facebook上點擊“贊”的內容表明了自己的性格特征,比如你的智力、性別、性取向、政治傾向或者其他個人信息。
然而,部分商業(yè)觀察并沒有令人驚訝,比如喜歡"小商業(yè)星期六”的人可能比典型Facebook用戶的年齡要大;有些商業(yè)觀察讓人困惑,比如喜歡油條與智商高有關。當然,關聯(lián)并不等于因果關系,這有可能是隨機的統(tǒng)計噪聲。但是,大數(shù)據分析能識別統(tǒng)計噪聲。
經營大數(shù)據的商業(yè)案例比喜歡油條更有說服力。例如,為提高最近熱門劇集《紙牌屋》的收視率,網飛公司(Netflix)挖掘用戶數(shù)據,從中加入一些必要的因素。運用用戶數(shù)據,同樣促使他們的情景喜劇《發(fā)展受阻》起死回生。
另外一個例子是來自世界上最大的移動運營商之
法國電信,該運營商發(fā)布了DataforDevelopment項目,為象牙海岸的客戶提供用戶數(shù)據。數(shù)據有共計25億條匿名記錄,包括500萬人之間的通話記錄和互通短信。
許多研究人員訪問數(shù)據集,給法國電信發(fā)出建議,認為這些數(shù)據可以成為公司發(fā)展項目的基礎。在所提議的項目中,有一項是通過追蹤手機數(shù)據,了解人們在緊急情況下的去向,以此來提高公共安全的。另一個項目是怎樣用手機數(shù)據來了解疾病的傳播。事實上,推特已在海地霍亂爆發(fā)時成功運用了該項功能。
美國國家安全局的Prism項目就是依賴大數(shù)據分析而運行的。這個項目將手機通話記錄、電子郵件來往、即時通訊聊天、社交媒體等數(shù)據元導出,并進行處理。
政府官員支持這個項目,因為他們認為大數(shù)據分析是關鍵的防御措施。如果某人被認定為恐怖組織的嫌疑人,他的通話記錄可以顯示出其他的行蹤,幫助國土安全部的官員鎖定最有可能即將被襲擊的目標。
當今,大數(shù)據分析市場仍處于起步階段。SoftwareAG、Oracle、IBM、Microsoft,SAP、EMC、HP等大型軟件公司互相爭搶充滿生機的新企業(yè),如Datameer、AlpineDataLabs、SiSense、Cloudmeter。
大型公司花費數(shù)十億美元,收購數(shù)據管理和分析的軟件公司,如Apema、Jacada、MoreITResources、Vertica、Vivisimo等,這些新公司都是依靠風險投資基金得以運行的。
更為復雜的是,一些老公司在市場中也有一席之位,其中包括Pentaho、Splunk、Jaspersoft公司。
許多研究大數(shù)據分析的新型企業(yè)也有其市場定位,如分別定位于社會營銷(DataSift)、電視廣告購物(RocketFuel),應用性能(Cloudmeter)、求職招聘(Bright.com)等領域。
根據Wikibon的調查,2012年大數(shù)據市場總額將達到114億美元。2013年則將達到181億美元,比2012年增長61%。到2017年,總額將達470億美元。以上數(shù)字意味著,在2012-2017年,大數(shù)據市場總額在以年均31%的速度增長。
顯然,投資商們還有很大空間,因為市場領域仍是商家搶占的地盤。他們希望,在不久的將來,有更多數(shù)據能被整合。
這就是大數(shù)據的目標,我們追求的不只是初始數(shù)據,而是分析數(shù)據的技術。圖2所示是大數(shù)據分析的主要分布。
圖2大數(shù)據分析的企業(yè)分布(圖片來源于:DataLanscape.com)
展望未來一一大數(shù)據的趨勢
(1)開放源代碼
大數(shù)據獲得動力,關鍵在于開放源代碼,幫助分解和分析數(shù)據。Hadoop和NoSQL數(shù)據庫便是其中的贏家,他們讓其他技術商望而卻步、處境很被動。
畢竟,我們需要清楚怎樣創(chuàng)建一個平臺,既能解開所有的數(shù)據,克服數(shù)據相互獨立的障礙,又能將數(shù)據重新上鎖。
(2)市場細分
當今,許多通用的大數(shù)據分析平臺已投入市場,人們同時期望更多平臺的出現(xiàn),可以運用在特殊領域,如藥物創(chuàng)新、客戶關系管理、應用性能的監(jiān)控和使用。若市場逐步成熟,在通用分析平臺之上,開發(fā)特定的垂直應用將會實現(xiàn)。但現(xiàn)在的技術有限,除非考慮利用潛在的數(shù)據庫技術作為通用平臺(如Hadoop、NoSQL)。
人們期望更多特定的垂直應用出現(xiàn),把目標定為特定領域的數(shù)據分析,這些特定領域包括航運業(yè)、銷售業(yè)、網上購物、社交媒體用戶的情緒分析等。
同時,其他公司正在研發(fā)小規(guī)模分析引擎的軟件套件。比如,社交媒體管理工具,這些工具以數(shù)據分析做為基礎。
(3)預測分析
建模、機器學習、統(tǒng)計分析和大數(shù)據經常被聯(lián)系起來,用以預測即將發(fā)生的事情和行為。有些事情是很容易被預測的,比如壞天氣可以影響選民的投票率,但是有些卻很難被準確預測。例如,中間選民改變投票決定的決定性因素。
但是,當數(shù)據累加時,我們基本上有能力可以大規(guī)模嘗試一個連續(xù)的基礎。網上零售商重新設計購物車,來探索何種設計方式能使銷售利潤最大化。根據病人的飲食、家族史和每天的運動量,醫(yī)生有能力預測未來疾病的風險。
當然,在人類歷史的開端,我們就已經有各種預測。但是,在過去,許多預測都是基于直覺,沒有依靠完整的數(shù)據集,或者單單靠的是常識。
當然,即便有大量數(shù)據支撐你的預測,也不表明那些預測都是準確的。2007年和2008年,許多對沖基金經理和華爾街買賣商分析市場數(shù)據,認為房地產泡沫將不會破滅。根據歷史的數(shù)據,可以預測出房地產泡沫即將破裂,但是許多分析家堅持原有的觀點。
另一方面,預測分析在許多領域流行起來,例如欺詐發(fā)現(xiàn)(比如在外省使用信用卡時會接到的電話),保險公司和顧客維系的風險管理。
重新聚焦于人為決策?
機器學習能力不斷提升,逐步成為分析套件里的必要工具。此時,不要驚訝,人類因素正漸漸淡化。
企業(yè)主經常嘗試限制人為誤差。任何網絡安全專家,通過詳細討論后指出,安全漏洞是由人為誤差而引起的,比如過度依賴弱口令,不慎進入釣魚網站或其他安全系數(shù)低的網站。
然而,即使機器學習能力不斷提升,機器也只能提問我們事先設定的問題。這會給我們帶來很大限制:若依賴于機器,我們究竟可以得到多少。
人為因素對大數(shù)據的出現(xiàn)十分關鍵。大數(shù)據領域最有名的兩位預言家和先驅者是BillyBeane和NateSilver。Beane曾推廣一個想法:將各種各樣的數(shù)據聯(lián)系起來,這些數(shù)據都是關于被低估的運動員的特質。接著把這些運動員召集起來,組成一支棒球隊上場比賽。這支較為經濟的團隊竟能與實力雄厚的隊伍(比如洋基隊)進行抗衡。
有部分人不相信NateSilver的預測,開發(fā)出不依賴于數(shù)據分析的軟件,比如UnskewedPolls(中文譯為非傾斜民意調查,但其實不然)。因為許多人認為Silver只是數(shù)據庫輪詢方面的專家,但實際上他在大數(shù)據分析領域也十分在行。
在不同情況下,最重要的不是機器搜集數(shù)據、得到初始數(shù)據,而是人為頂端分析,只有人為因素才使這些數(shù)據有意義。人們可以將民意調查的數(shù)據視為羅夏墨跡測驗的結果。
Silver則不然,他輸入大量數(shù)據,觀察各種民意調查在不同階段的情況,并參考影響差誤范圍的因素,最后他能做出驚人的準確預測。
相似地,每個棒球隊經理十分看重占壘率和其他得分統(tǒng)計,但是很少能像Beane領導的As隊伍一樣,他用如此少的資金就能抗衡實力雄厚的球隊。尋找被低估的運動員比尋找天才球員更需要投入精力。你需要知道怎樣合理地和其他球隊經紀人協(xié)商、交易,你還需要思考,究竟哪一位球員能適應新創(chuàng)建的隊伍。
當大數(shù)據分析逐漸成為主流,它將會變得和其他早期的技術一樣普遍。大數(shù)據分析也會逐步成為一種日常工具,但關鍵還在于人為操作。
20211023_6172f069d13ee__大數(shù)據分析概要