www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當前位置:首頁 > 物聯(lián)網 > 《物聯(lián)網技術》雜志
[導讀]摘要:當大數(shù)據分析逐漸成為主流時,它將會變得和其他早期的技術一樣普遍,大數(shù)據分析也會逐步成為一種日常工具。文中分析了大數(shù)據分析面臨的主要挑戰(zhàn),以及數(shù)據從累積到分析的分析學體系,同時分析了大數(shù)據分析市場的未來趨勢,給出了大數(shù)據分析的關鍵還在于人為操作的結論。

大數(shù)據分析面臨的主要挑戰(zhàn)

大數(shù)據是一項艱巨的挑戰(zhàn)。眾所周知,當今時代,數(shù)據正以爆炸式的速度增長,世界上總共有多少數(shù)據,沒人能給出確切的答案。

谷歌前首席執(zhí)行官埃里克?施密特稱,“我們現(xiàn)在創(chuàng)造出來的信息量相當于過去整個人類歷史創(chuàng)造出來的文明。從數(shù)字時代開始到2003年,我們只創(chuàng)造出5艾字節(jié)的信息。但是,我們現(xiàn)在每兩天就能創(chuàng)造出5艾字節(jié)的信息,而且信息增長的速度還在不斷加快?!?

這個數(shù)據似乎有些言過其實。RJMetrics首席執(zhí)行官RobertJ.Moore,在最近的TEDx演講欄目中提到,2002年,只有23艾字節(jié)的信息被記錄和復制,但我們現(xiàn)在每七天就能更新和轉移這么多數(shù)據。

Gartner稱,企業(yè)數(shù)據在未來5年內將增長650%。IDC的說法是,全世界的信息在一年半內即可翻一倍。IDC稱,2011年,我們創(chuàng)造了1.8澤字節(jié)(1.8兆GBs)的信息,若要將這些信息儲存在電子設備中,則需要575億臺規(guī)格為32G的iPad,將如此多的iPad連接起來,長度是萬里長城的兩倍。

數(shù)據的創(chuàng)造腳步勢必加快,尤其是當今機器對機器通訊技術的成本降低,人們獲取技術更為便捷。試想一下,所有傳感器網絡、防盜警報器、車輛遠程通訊系統(tǒng)等加在一起,將會創(chuàng)造出多么龐大的數(shù)據。

IBM稱,我們每一天都能創(chuàng)造出2.519字節(jié)的信息。數(shù)據正在指數(shù)式增長,并且,當今世界上90%的數(shù)據都是在過去兩年內創(chuàng)造出來的。這些數(shù)據來自各個地方,比如傳感器收集氣象信息上傳到社交網站,數(shù)字圖像和數(shù)字視頻,電子商務交易記錄,GPS坐標等等。

當然,在早期人類歷史上,像推特之類的簡短信息并沒有記錄下來,所以對比只能到此為止。實際生活中,每一天我們都在創(chuàng)造如下數(shù)據:

?超過2.04億封電子郵件消息;

?超過200萬的谷歌查詢;

48小時更新的YouTube視頻;

68.4萬條分享在Facebook上的內容;

?10萬余條推特;

?27.2萬美元的電子商務投資;

3600張分享在Instagram新照片;

?將近350篇新發(fā)布的WordPress博客。

圖1所示是人們每天所創(chuàng)造的數(shù)據示意圖。

大數(shù)據分析概要

圖1每天所創(chuàng)造的數(shù)據示意圖(圖片來源于:DOMO)

大數(shù)據面臨的挑戰(zhàn)在于,不同系統(tǒng)中到處都能儲存數(shù)據。打破相互獨立的數(shù)據系統(tǒng),標準化操作是當今面臨的主要任務。另外一個主要任務是創(chuàng)建大數(shù)據平臺,可以存儲結構化數(shù)據和非結構化數(shù)據。

當你進入大數(shù)據這塊領域時,你會發(fā)現(xiàn)更多神秘的挑戰(zhàn)。比如,傳統(tǒng)數(shù)據庫最初并沒有用到多核處理器。因此,它們在

處理數(shù)據的時候速度較慢。這導致“快速數(shù)據”概念的出現(xiàn),像ParStream之類的小型公司正試圖克服數(shù)據庫遺留的問題。

從累積到分析

我們需要處理許多數(shù)據。積累數(shù)據是一回事,而處理數(shù)據則是另外一回事。收集報紙、吞拿魚空罐子和小野貓的人,不會被人們視作為一個有辨別力的收集者。想象一下,你也不會到廢物囤積者家中學習歷史,因為那兒可用的信息不多。相反,我們一般會去從古董收藏家那獲得知識。

盡管有了數(shù)據,這個世界上還是有很多囤積者。當今數(shù)字儲存價格低廉,因此人們把所有數(shù)據都儲存起來。確切地說,他們從不會自找麻煩,刪除數(shù)據。網絡存儲方面也是一樣,在開始低收費之前,在線存儲供應商甚至還會定期免費放出幾個GB的數(shù)據,供客戶使用。

當今,許多企業(yè)正在努力處理無止境擴張的數(shù)據,因為如果不這么做的話,企業(yè)將失去競爭力。

IBM稱,數(shù)據的指數(shù)化增長將給許多企業(yè)留下嚴重的盲點。IBM研究發(fā)現(xiàn),企業(yè)領導經常許可一些無數(shù)據支撐的決策,或者他們的決策是基于置信度不高的信息之上。更令人驚訝的是,半數(shù)企業(yè)領導者表示,他們尚未找到可以讓工作效率變高的信息途徑。

雖然大多數(shù)企業(yè)領導者和有關人員知道,與工作相關的數(shù)據確實存在,但不知道哪里可以獲得這些數(shù)據。即使他們已經有一個大致的想法,他們還不清楚如何將想法提煉,應用到實際生活中。他們試圖尋找這些相關數(shù)據,但始終沒法確定數(shù)據的實時性和準確性。

大數(shù)據分析旨在處理上述問題。我們追求的不只是原始數(shù)據,而是分析這些數(shù)據的技術。

大數(shù)據分析體系

當技術達到能將數(shù)據獨立性打破、數(shù)據分析能力提高時,商業(yè)即可轉換成各種形式。分析大數(shù)據技術的進步能讓研究人員在數(shù)分鐘之內解碼人體DNA,這項技術讓基因公司(如23andme公司)成功運轉。

同時,研究人員能夠預測預謀的襲擊地點,特定的疾病是由哪種基因引起,分析你在Facebook上最有可能回復的廣告內容。

事實上,由PNAS發(fā)布的最新研究顯示,你在Facebook上點擊“贊”的內容表明了自己的性格特征,比如你的智力、性別、性取向、政治傾向或者其他個人信息。

然而,部分商業(yè)觀察并沒有令人驚訝,比如喜歡"小商業(yè)星期六”的人可能比典型Facebook用戶的年齡要大;有些商業(yè)觀察讓人困惑,比如喜歡油條與智商高有關。當然,關聯(lián)并不等于因果關系,這有可能是隨機的統(tǒng)計噪聲。但是,大數(shù)據分析能識別統(tǒng)計噪聲。

經營大數(shù)據的商業(yè)案例比喜歡油條更有說服力。例如,為提高最近熱門劇集《紙牌屋》的收視率,網飛公司(Netflix)挖掘用戶數(shù)據,從中加入一些必要的因素。運用用戶數(shù)據,同樣促使他們的情景喜劇《發(fā)展受阻》起死回生。

另外一個例子是來自世界上最大的移動運營商之

法國電信,該運營商發(fā)布了DataforDevelopment項目,為象牙海岸的客戶提供用戶數(shù)據。數(shù)據有共計25億條匿名記錄,包括500萬人之間的通話記錄和互通短信。

許多研究人員訪問數(shù)據集,給法國電信發(fā)出建議,認為這些數(shù)據可以成為公司發(fā)展項目的基礎。在所提議的項目中,有一項是通過追蹤手機數(shù)據,了解人們在緊急情況下的去向,以此來提高公共安全的。另一個項目是怎樣用手機數(shù)據來了解疾病的傳播。事實上,推特已在海地霍亂爆發(fā)時成功運用了該項功能。

美國國家安全局的Prism項目就是依賴大數(shù)據分析而運行的。這個項目將手機通話記錄、電子郵件來往、即時通訊聊天、社交媒體等數(shù)據元導出,并進行處理。

政府官員支持這個項目,因為他們認為大數(shù)據分析是關鍵的防御措施。如果某人被認定為恐怖組織的嫌疑人,他的通話記錄可以顯示出其他的行蹤,幫助國土安全部的官員鎖定最有可能即將被襲擊的目標。

大數(shù)據分析市場


當今,大數(shù)據分析市場仍處于起步階段。SoftwareAG、Oracle、IBM、Microsoft,SAP、EMC、HP等大型軟件公司互相爭搶充滿生機的新企業(yè),如Datameer、AlpineDataLabs、SiSense、Cloudmeter。

大型公司花費數(shù)十億美元,收購數(shù)據管理和分析的軟件公司,如Apema、Jacada、MoreITResources、Vertica、Vivisimo等,這些新公司都是依靠風險投資基金得以運行的。

更為復雜的是,一些老公司在市場中也有一席之位,其中包括Pentaho、Splunk、Jaspersoft公司。

許多研究大數(shù)據分析的新型企業(yè)也有其市場定位,如分別定位于社會營銷(DataSift)、電視廣告購物(RocketFuel),應用性能(Cloudmeter)、求職招聘(Bright.com)等領域。

根據Wikibon的調查,2012年大數(shù)據市場總額將達到114億美元。2013年則將達到181億美元,比2012年增長61%。到2017年,總額將達470億美元。以上數(shù)字意味著,在2012-2017年,大數(shù)據市場總額在以年均31%的速度增長。

顯然,投資商們還有很大空間,因為市場領域仍是商家搶占的地盤。他們希望,在不久的將來,有更多數(shù)據能被整合。

這就是大數(shù)據的目標,我們追求的不只是初始數(shù)據,而是分析數(shù)據的技術。圖2所示是大數(shù)據分析的主要分布。

大數(shù)據分析概要

圖2大數(shù)據分析的企業(yè)分布(圖片來源于:DataLanscape.com)

展望未來一一大數(shù)據的趨勢

(1)開放源代碼

大數(shù)據獲得動力,關鍵在于開放源代碼,幫助分解和分析數(shù)據。Hadoop和NoSQL數(shù)據庫便是其中的贏家,他們讓其他技術商望而卻步、處境很被動。

畢竟,我們需要清楚怎樣創(chuàng)建一個平臺,既能解開所有的數(shù)據,克服數(shù)據相互獨立的障礙,又能將數(shù)據重新上鎖。

(2)市場細分

當今,許多通用的大數(shù)據分析平臺已投入市場,人們同時期望更多平臺的出現(xiàn),可以運用在特殊領域,如藥物創(chuàng)新、客戶關系管理、應用性能的監(jiān)控和使用。若市場逐步成熟,在通用分析平臺之上,開發(fā)特定的垂直應用將會實現(xiàn)。但現(xiàn)在的技術有限,除非考慮利用潛在的數(shù)據庫技術作為通用平臺(如Hadoop、NoSQL)。

人們期望更多特定的垂直應用出現(xiàn),把目標定為特定領域的數(shù)據分析,這些特定領域包括航運業(yè)、銷售業(yè)、網上購物、社交媒體用戶的情緒分析等。

同時,其他公司正在研發(fā)小規(guī)模分析引擎的軟件套件。比如,社交媒體管理工具,這些工具以數(shù)據分析做為基礎。

(3)預測分析

建模、機器學習、統(tǒng)計分析和大數(shù)據經常被聯(lián)系起來,用以預測即將發(fā)生的事情和行為。有些事情是很容易被預測的,比如壞天氣可以影響選民的投票率,但是有些卻很難被準確預測。例如,中間選民改變投票決定的決定性因素。

但是,當數(shù)據累加時,我們基本上有能力可以大規(guī)模嘗試一個連續(xù)的基礎。網上零售商重新設計購物車,來探索何種設計方式能使銷售利潤最大化。根據病人的飲食、家族史和每天的運動量,醫(yī)生有能力預測未來疾病的風險。

當然,在人類歷史的開端,我們就已經有各種預測。但是,在過去,許多預測都是基于直覺,沒有依靠完整的數(shù)據集,或者單單靠的是常識。

當然,即便有大量數(shù)據支撐你的預測,也不表明那些預測都是準確的。2007年和2008年,許多對沖基金經理和華爾街買賣商分析市場數(shù)據,認為房地產泡沫將不會破滅。根據歷史的數(shù)據,可以預測出房地產泡沫即將破裂,但是許多分析家堅持原有的觀點。

另一方面,預測分析在許多領域流行起來,例如欺詐發(fā)現(xiàn)(比如在外省使用信用卡時會接到的電話),保險公司和顧客維系的風險管理。

重新聚焦于人為決策?

機器學習能力不斷提升,逐步成為分析套件里的必要工具。此時,不要驚訝,人類因素正漸漸淡化。

企業(yè)主經常嘗試限制人為誤差。任何網絡安全專家,通過詳細討論后指出,安全漏洞是由人為誤差而引起的,比如過度依賴弱口令,不慎進入釣魚網站或其他安全系數(shù)低的網站。

然而,即使機器學習能力不斷提升,機器也只能提問我們事先設定的問題。這會給我們帶來很大限制:若依賴于機器,我們究竟可以得到多少。

人為因素對大數(shù)據的出現(xiàn)十分關鍵。大數(shù)據領域最有名的兩位預言家和先驅者是BillyBeane和NateSilver。Beane曾推廣一個想法:將各種各樣的數(shù)據聯(lián)系起來,這些數(shù)據都是關于被低估的運動員的特質。接著把這些運動員召集起來,組成一支棒球隊上場比賽。這支較為經濟的團隊竟能與實力雄厚的隊伍(比如洋基隊)進行抗衡。

有部分人不相信NateSilver的預測,開發(fā)出不依賴于數(shù)據分析的軟件,比如UnskewedPolls(中文譯為非傾斜民意調查,但其實不然)。因為許多人認為Silver只是數(shù)據庫輪詢方面的專家,但實際上他在大數(shù)據分析領域也十分在行。

在不同情況下,最重要的不是機器搜集數(shù)據、得到初始數(shù)據,而是人為頂端分析,只有人為因素才使這些數(shù)據有意義。人們可以將民意調查的數(shù)據視為羅夏墨跡測驗的結果。

Silver則不然,他輸入大量數(shù)據,觀察各種民意調查在不同階段的情況,并參考影響差誤范圍的因素,最后他能做出驚人的準確預測。

相似地,每個棒球隊經理十分看重占壘率和其他得分統(tǒng)計,但是很少能像Beane領導的As隊伍一樣,他用如此少的資金就能抗衡實力雄厚的球隊。尋找被低估的運動員比尋找天才球員更需要投入精力。你需要知道怎樣合理地和其他球隊經紀人協(xié)商、交易,你還需要思考,究竟哪一位球員能適應新創(chuàng)建的隊伍。

當大數(shù)據分析逐漸成為主流,它將會變得和其他早期的技術一樣普遍。大數(shù)據分析也會逐步成為一種日常工具,但關鍵還在于人為操作。

20211023_6172f069d13ee__大數(shù)據分析概要

本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內容真實性等。需要轉載請聯(lián)系該專欄作者,如若文章內容侵犯您的權益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或將催生出更大的獨角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉型技術解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關鍵字: 汽車 人工智能 智能驅動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據媒體報道,騰訊和網易近期正在縮減他們對日本游戲市場的投資。

關鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據產業(yè)博覽會開幕式在貴陽舉行,華為董事、質量流程IT總裁陶景文發(fā)表了演講。

關鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數(shù)據產業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權最終是由生態(tài)的繁榮決定的。

關鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經營業(yè)績穩(wěn)中有升 落實提質增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領增長 以科技創(chuàng)新為引領,提升企業(yè)核心競爭力 堅持高質量發(fā)展策略,塑強核心競爭優(yōu)勢...

關鍵字: 通信 BSP 電信運營商 數(shù)字經濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術學會聯(lián)合牽頭組建的NVI技術創(chuàng)新聯(lián)盟在BIRTV2024超高清全產業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術創(chuàng)新聯(lián)...

關鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關鍵字: BSP 信息技術
關閉
關閉