大數(shù)據(jù)技術(shù)需要面對(duì)的現(xiàn)實(shí)
掃描二維碼
隨時(shí)隨地手機(jī)看文章
對(duì)于很多企業(yè)來(lái)說(shuō),大數(shù)據(jù)只是一個(gè)模糊的目標(biāo),而不是現(xiàn)實(shí)。然而,這是一個(gè)目標(biāo),越來(lái)越多的企業(yè)正在推動(dòng)他們的首要任務(wù)清單。正如Gartner的調(diào)查所顯示的那樣,每個(gè)人都熱衷于加入大數(shù)據(jù)的大潮,但真正理解其中原因的人卻相對(duì)較少。大數(shù)據(jù)包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)越來(lái)越成為數(shù)據(jù)的主要部分。正如Gartner的分析師Svetlana Sicular所指出的,阻礙大數(shù)據(jù)采用的迷思取決于企業(yè)采用大數(shù)據(jù)的曲線在哪里。2014年,許多愚蠢的大數(shù)據(jù)神話將被數(shù)據(jù)驅(qū)動(dòng)應(yīng)用程序的經(jīng)驗(yàn)增長(zhǎng)所取代。沒(méi)有人能一下子從大數(shù)據(jù)新手變成久經(jīng)世故的人。這就是為什么對(duì)大數(shù)據(jù)項(xiàng)目的敏捷方法如此重要的原因,正如我在這里寫(xiě)的和之前在Strata會(huì)議上介紹的。失敗是必然的。關(guān)鍵是最小化失敗的成本,這就是為什么像Hadoop這樣的開(kāi)源技術(shù)對(duì)大數(shù)據(jù)的成功如此關(guān)鍵。
Sicular以以下方式展示了大數(shù)據(jù)的成功之路:
她指出,在這個(gè)過(guò)程中,阻礙我們進(jìn)步改變的神話。Sicular識(shí)別出的第一組大數(shù)據(jù)神話可以歸結(jié)為對(duì)大數(shù)據(jù)含義的核心誤解,以及隨之而來(lái)的對(duì)工作所需的正確技術(shù)的困惑。例如,Sicular識(shí)別出的第一個(gè)大數(shù)據(jù)神話是一個(gè)根深蒂固的信念,即大數(shù)據(jù)是一個(gè)數(shù)據(jù)量的問(wèn)題。她發(fā)現(xiàn),現(xiàn)實(shí)要微妙得多:大數(shù)據(jù)是高容量、高速度和高多樣性的信息資產(chǎn),需要成本效益高、創(chuàng)新的信息處理形式,以增強(qiáng)洞察力和決策能力。事實(shí)上,包括來(lái)自新華帝合作伙伴的研究(如右圖所示)在內(nèi)的多項(xiàng)研究都表明,對(duì)于大多數(shù)大數(shù)據(jù)項(xiàng)目來(lái)說(shuō),數(shù)據(jù)的速度和多樣性是最重要的特征。
因此,另一個(gè)長(zhǎng)期存在的神話——大數(shù)據(jù)就是hadoop——阻止企業(yè)探索更符合實(shí)際的大數(shù)據(jù)使用的技術(shù),比如NoSQL技術(shù)(用于不同數(shù)據(jù)類型的實(shí)時(shí)處理)和“邏輯數(shù)據(jù)倉(cāng)庫(kù)”,完成Sicular的技術(shù)棧促使企業(yè)考慮這些技術(shù)。一旦企業(yè)已經(jīng)超越了這些新手的錯(cuò)誤,他們就準(zhǔn)備好處理更高級(jí)的神話。在這個(gè)“意識(shí)到”階段,企業(yè)有更好的理解,數(shù)據(jù)很重要,如何處理它,但他們錯(cuò)誤的認(rèn)為可以解決他們所有的問(wèn)題如果有足夠多的數(shù)據(jù),并錯(cuò)誤地認(rèn)為同齡人遠(yuǎn)遠(yuǎn)領(lǐng)先于他們。
因此,Sicular將大數(shù)據(jù)問(wèn)題與那些“業(yè)務(wù)問(wèn)題”隔離開(kāi)來(lái),這些業(yè)務(wù)問(wèn)題的問(wèn)題是事先不知道的,回答這些問(wèn)題的數(shù)據(jù)類型可能會(huì)有所不同,而且可能需要非結(jié)構(gòu)化的數(shù)據(jù)。換句話說(shuō),當(dāng)你想先存儲(chǔ)數(shù)據(jù),然后再查詢數(shù)據(jù)時(shí),大數(shù)據(jù)是有用的。如果您知道應(yīng)該對(duì)事務(wù)性收銀機(jī)數(shù)據(jù)提出什么問(wèn)題,而這些數(shù)據(jù)恰好適合關(guān)系數(shù)據(jù)庫(kù),那么您可能就不會(huì)遇到大數(shù)據(jù)問(wèn)題。如果您存儲(chǔ)的是相同的數(shù)據(jù),以及一系列天氣、社交和其他數(shù)據(jù),以試圖找到可能影響銷售的趨勢(shì),那么您可能需要這樣做。
這并不是說(shuō)唯一重要的數(shù)據(jù)是企業(yè)外部的非結(jié)構(gòu)化數(shù)據(jù)。事實(shí)上,事實(shí)可能恰恰相反。正如“黑暗數(shù)據(jù)”所假設(shè)的那樣。對(duì)于所有研究大數(shù)據(jù)機(jī)遇的企業(yè)來(lái)說(shuō),最大的興趣在于如何利用現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù)中的未充分利用的數(shù)據(jù)。當(dāng)被問(wèn)及目前哪些數(shù)據(jù)企業(yè)在分析時(shí),事務(wù)性數(shù)據(jù)和日志數(shù)據(jù)是最受歡迎的兩個(gè)回答。許多最有趣的數(shù)據(jù)已經(jīng)存在于大型機(jī)和企業(yè)內(nèi)的關(guān)系數(shù)據(jù)庫(kù)中,但是在過(guò)去管理不善。大數(shù)據(jù)項(xiàng)目通常應(yīng)該從已有的數(shù)據(jù)開(kāi)始,但沒(méi)有得到有效利用。
Sicular的第三階段是企業(yè)積極試驗(yàn)他們的數(shù)據(jù),但仍然因?yàn)槿狈夹g(shù)和不成熟的技術(shù)而感到困惑。在這個(gè)階段,企業(yè)轉(zhuǎn)向神秘的數(shù)據(jù)科學(xué)家,發(fā)現(xiàn)她很難找到,而且也不一定是這個(gè)工作的合適人選。Sicular并沒(méi)有把重點(diǎn)放在尋找“數(shù)據(jù)科學(xué)家”上,而是敦促企業(yè)組建一個(gè)“擁有多種技能的多學(xué)科團(tuán)隊(duì),以迎接技術(shù)挑戰(zhàn),解決采用大數(shù)據(jù)的復(fù)雜業(yè)務(wù)問(wèn)題。”考慮到對(duì)數(shù)據(jù)提出正確問(wèn)題的重要性,這一點(diǎn)至關(guān)重要。語(yǔ)境很重要,不同的人對(duì)如何看待自己的數(shù)據(jù)有不同的看法。大數(shù)據(jù)的后階段采用充滿了一些意想不到的現(xiàn)實(shí)——Hadoop是不像一些希望,廉價(jià)的實(shí)現(xiàn),企業(yè)往往不是利用商品硬件和購(gòu)買昂貴的機(jī)器,和更多的,但也有一些不錯(cuò)的驚喜,像這樣一個(gè)事實(shí):大數(shù)據(jù)技術(shù)相對(duì)容易的程序。有趣的是,企業(yè)走得越遠(yuǎn),就越意識(shí)到結(jié)構(gòu)化數(shù)據(jù)是多么寶貴的財(cái)富。雖然非結(jié)構(gòu)化數(shù)據(jù)可能占到數(shù)據(jù)總量的80%,但目前還不到大數(shù)據(jù)價(jià)值的80%。正如Sicular指出的那樣,“結(jié)構(gòu)化數(shù)據(jù)經(jīng)過(guò)了改進(jìn),其密度和質(zhì)量都比同等數(shù)量的非結(jié)構(gòu)化數(shù)據(jù)高得多。”
據(jù)IDC的調(diào)查報(bào)告顯示:企業(yè)中80%的數(shù)據(jù)都是非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)每年都按指數(shù)增長(zhǎng)60%。大數(shù)據(jù)就是互聯(lián)網(wǎng)發(fā)展到現(xiàn)今階段的一種表象或特征而已,沒(méi)有必要神話它或?qū)λ3志次分?,在以云?jì)算為代表的技術(shù)創(chuàng)新大幕的襯托下,這些原本看起來(lái)很難收集和使用的數(shù)據(jù)開(kāi)始容易被利用起來(lái)了,通過(guò)各行各業(yè)的不斷創(chuàng)新,大數(shù)據(jù)會(huì)逐步為人類創(chuàng)造更多的價(jià)值。“隨著大數(shù)據(jù)技術(shù)在管理/訂購(gòu)非結(jié)構(gòu)化數(shù)據(jù)方面變得越來(lái)越好,這種情況可能會(huì)隨著時(shí)間的推移而改變,但這在今天已經(jīng)成為現(xiàn)實(shí)。”所有這些都提醒我們,我們所相信的大數(shù)據(jù)可能并不真實(shí)。因此,以謙遜的態(tài)度對(duì)待大數(shù)據(jù)項(xiàng)目是至關(guān)重要的。