解析大數(shù)據(jù)的定義與特征
大數(shù)據(jù)研究專家維克托·邁爾-舍恩伯格曾經(jīng)說過:世界的本質(zhì)是數(shù)據(jù)。在他看來,認識大數(shù)據(jù)之前,世界原本就是一個數(shù)據(jù)時代;認識大數(shù)據(jù)之后,世界不可避免地分為大數(shù)據(jù)時代、小數(shù)據(jù)時代。
隨著社會不斷發(fā)展的腳步,各類數(shù)據(jù)不斷累積,如果說小數(shù)據(jù)時代的各類分析調(diào)研更多的是靠樣本采集,那么現(xiàn)在,不管從數(shù)據(jù)的維度還是層次來看,數(shù)據(jù)體量的累積已經(jīng)到了一個非常夯實的階段。
在這兩個時代的過渡中,人們也自然而然的從先前的樣本思維轉(zhuǎn)變成大數(shù)據(jù)時代需要具備的整體思維,以更好的運用大數(shù)據(jù),或者說,抽樣調(diào)查將成為過去時,對所有數(shù)據(jù)進行分析處理才是大數(shù)據(jù)時代應有的思維方式。
大數(shù)據(jù)的多種定義
對于大數(shù)據(jù)的具體定義和價值,大多數(shù)人都停留在知其然而不知其所以然的階段。
但這也并不妨礙大數(shù)據(jù)這一詞匯在大眾心中的高度,它代表著先進,代表著高科技,代表著不可預知但可以預見的未來世界。
麥肯錫最早提出了大數(shù)據(jù)時代的到來:“數(shù)據(jù),已經(jīng)滲透到當今每一個行業(yè)和業(yè)務職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對于海量數(shù)據(jù)的挖掘和運用,預示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來?!?/p>
對于大數(shù)據(jù)的定義,權(quán)威機構(gòu)們給出了不同的表述:
世界知名咨詢企業(yè)Gartner給出的定義是:“大數(shù)據(jù)”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應海量、高增長率和多樣化的信息資產(chǎn)。
麥肯錫全球研究所給出的定義是:一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低四大特征。
還有一些是這樣表述的,大數(shù)據(jù)是指“無法用現(xiàn)有的軟件工具提取、存儲、搜索、共享、分析和處理的海量的、復雜的數(shù)據(jù)集合?!?/p>
不管是信息資產(chǎn)還是數(shù)據(jù)集合,這些定義無不在昭示著大數(shù)據(jù)對于人們未來社會的價值。
大數(shù)據(jù)的特征
大數(shù)據(jù)(BigData)是指「無法用現(xiàn)有的軟件工具提取、存儲、搜索、共享、分析和處理的海量的、復雜的數(shù)據(jù)集合?!箻I(yè)界通常用4個V(即Volume、Variety、Value、Velocity)來概括大數(shù)據(jù)的特征。
Volume,數(shù)據(jù)體量巨大。如果單單從存儲量方面來考量的話,從最小的數(shù)據(jù)存儲單位bit開始,按順序往上Byte、KB、MB、GB、TB、PB、EB……那么截至目前,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量可達數(shù)百PB,而歷史上有記載開始人類說過的所有的話的數(shù)據(jù)量大約要以EB來衡量。截至目前,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB,而歷史上全人類說過的所有的話的數(shù)據(jù)量大約是5EB(1EB=210PB)。
Variety,數(shù)據(jù)類型繁多。類型的多樣性讓數(shù)據(jù)被分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。相對于以往便于存儲的以文本為主的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)越來越多,包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等,這些多類型的數(shù)據(jù)對數(shù)據(jù)的處理能力提出了更高要求。
Value,價值密度低。價值密度的高低與數(shù)據(jù)總量的大小成反比。數(shù)據(jù)總量越大,無效冗余的數(shù)據(jù)則越多,如何通過強大的機器算法迅速地完成數(shù)據(jù)的價值“提純”是目前大數(shù)據(jù)背景下亟待解決的難題。
Velocity,處理速度快。這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘的最顯著特征,根據(jù)IDC“數(shù)字宇宙”的報告,預計到2020年,全球數(shù)據(jù)使用量將達到35.2ZB。在如此海量的數(shù)據(jù)面前,處理數(shù)據(jù)的效率就是企業(yè)的生命。
大數(shù)據(jù)的類型大致可分為三類:
傳統(tǒng)企業(yè)數(shù)據(jù)(Traditional enterprise data):包括 CRM systems的消費者數(shù)據(jù),傳統(tǒng)的ERP數(shù)據(jù),庫存數(shù)據(jù)以及賬目數(shù)據(jù)等。
機器和傳感器數(shù)據(jù)(Machine-generated /sensor data):包括呼叫記錄(Call Detail Records),智能儀表,工業(yè)設(shè)備傳感器,設(shè)備日志(通常是Digital exhaust),交易數(shù)據(jù)等。
社交數(shù)據(jù)(Social data):包括用戶行為記錄,反饋數(shù)據(jù)等。如Twitter,F(xiàn)acebook這樣的社交媒體平臺。