從《大數(shù)據(jù)時(shí)代》尋找大數(shù)據(jù)思維
大數(shù)據(jù)(big data),IT行業(yè)術(shù)語(yǔ),是指無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。大數(shù)據(jù)這個(gè)概念聽(tīng)說(shuō)過(guò)挺久的了,但一直沒(méi)有系統(tǒng)了解,由于工作需要,想做點(diǎn)深入了解,于是翻了關(guān)于大數(shù)據(jù)的經(jīng)典之作《大數(shù)據(jù)時(shí)代》,猛然發(fā)現(xiàn)這本書(shū)出版于2012年,已是七年前的著作了。
與大數(shù)據(jù)對(duì)應(yīng)的是小數(shù)據(jù),在小數(shù)據(jù)時(shí)代,由于技術(shù)條件的限制,人類無(wú)法獲取大量的數(shù)據(jù),即便獲取了,也無(wú)法快速處理那些數(shù)據(jù),為了解決這一難題,聰明的人類發(fā)明了隨機(jī)采樣法。在隨機(jī)采樣中,由于一切都是隨機(jī)的,它本身就綜合了各種因素,又排除了人為因素,所以它的結(jié)論也大致滿足需求。但是在大數(shù)據(jù)時(shí)代,樣本=總體。要所有數(shù)據(jù),不管這數(shù)據(jù)是對(duì)的還是錯(cuò)的,有意的或無(wú)意的,有用的還是無(wú)用的,全要。一個(gè)最簡(jiǎn)單的例子是翻譯軟件的發(fā)展,在最開(kāi)始的版本中,翻譯學(xué)家想要把一切語(yǔ)言規(guī)則都內(nèi)置到軟件中,他們認(rèn)為這樣軟件就會(huì)實(shí)現(xiàn)自動(dòng)翻譯,結(jié)果他們發(fā)現(xiàn)自己得到了一坨屎。
《大數(shù)據(jù)時(shí)代》這部書(shū)算是易懂的,因?yàn)樗菑暮暧^的角度講了大數(shù)據(jù)時(shí)代帶來(lái)的思維變革,還有很多豐富詳實(shí)的案例,但并不涉及數(shù)據(jù)處理細(xì)節(jié)那些瑣碎的東西,所以對(duì)于非專業(yè)人士來(lái)講讀起來(lái)并不困難甚至可以說(shuō)是有趣的。當(dāng)下的翻譯軟件則不然,它的“師傅們”不再是一堆語(yǔ)言規(guī)則,而是全世界人民!首先,開(kāi)發(fā)人員先把館藏雙語(yǔ)對(duì)照的書(shū)籍植入計(jì)算機(jī)中,其次每個(gè)人每天在網(wǎng)絡(luò)上發(fā)的雙語(yǔ)對(duì)話都會(huì)被計(jì)算機(jī)記錄并學(xué)習(xí),目前的計(jì)算機(jī)已經(jīng)可以實(shí)現(xiàn)深度學(xué)習(xí),即不要內(nèi)置規(guī)則,它根據(jù)大量的輸入自己學(xué)習(xí)規(guī)則。
在這個(gè)簡(jiǎn)單的例子中已經(jīng)彰顯出大數(shù)據(jù)的三個(gè)特點(diǎn):
更多:不是隨機(jī)樣本,而是全部數(shù)據(jù);
更雜:不是精確性,而是混雜性;
更好:不是因果關(guān)系,而是相關(guān)關(guān)系。
數(shù)據(jù)主義即只認(rèn)數(shù)據(jù),唯數(shù)據(jù)是從,極端情況就類似于電影《少數(shù)派報(bào)告》所展現(xiàn)的場(chǎng)景了,在電影里有三個(gè)人具備預(yù)知能力,警方用他們的超能力實(shí)施罪前打擊,當(dāng)一個(gè)人想要犯罪還沒(méi)有犯罪的當(dāng)口抓住他,而在數(shù)據(jù)時(shí)代,當(dāng)一個(gè)人奉數(shù)據(jù)為圭臬時(shí),他可能六親不認(rèn)只認(rèn)數(shù)據(jù),當(dāng)數(shù)據(jù)預(yù)測(cè)到某人要犯罪時(shí),是直接抓他坐牢還是坐等他犯罪?這是個(gè)問(wèn)題。
首先第一點(diǎn)“要全部數(shù)據(jù)”很好理解,本來(lái)就是大數(shù)據(jù)嘛,其次第二點(diǎn)“不是精確性而是混雜性”這點(diǎn)也容易理解,這個(gè)世界本來(lái)就是混亂的,想要秩序不過(guò)是人類的一廂情愿而已,從混亂的世界中得到的數(shù)據(jù)自然也是混亂的、不精確的,但這樣的數(shù)據(jù)才能更真實(shí)地反映世界的本來(lái)面目,何必追求精確呢?在翻譯軟件的例子中,當(dāng)計(jì)算機(jī)去識(shí)別網(wǎng)絡(luò)上的語(yǔ)句時(shí),它是無(wú)法保證每個(gè)人寫(xiě)的都是正確的,但正是這種多樣性的存在才更能賦予計(jì)算機(jī)翻譯的智能性。最不好理解也最有爭(zhēng)議的就是第三點(diǎn),用相關(guān)關(guān)系替代因果關(guān)系。相關(guān)關(guān)系顧名思義,當(dāng)一種現(xiàn)象發(fā)生變化時(shí),另一種現(xiàn)象隨之改變,這說(shuō)明兩種現(xiàn)象是相關(guān)的,但這里并不強(qiáng)調(diào)二者之間有什么邏輯上的因果性,因果關(guān)系則不然。
在心理學(xué)上有個(gè)第三變量問(wèn)題,說(shuō)當(dāng)兩個(gè)現(xiàn)象具有相關(guān)關(guān)系時(shí),人們往往會(huì)把它誤當(dāng)作因果關(guān)系,而忽略第三變量。一個(gè)典型的例子是說(shuō)私立學(xué)校和公立學(xué)校教育水平問(wèn)題,一般來(lái)講,人們只看到私立學(xué)校教出來(lái)的學(xué)生更優(yōu)秀就認(rèn)為他們的教育水平更好,而往往忽略上私立學(xué)校的孩子家庭條件更好,父母的受教育程度更好,而這才是影響孩子學(xué)習(xí)成績(jī)的關(guān)鍵因素。
從大數(shù)據(jù)的角度來(lái)講,取消因果關(guān)系是明智的,因?yàn)楫?dāng)數(shù)據(jù)龐大了以后,想要分析因果關(guān)系勢(shì)必登天,因?yàn)樗鼱砍兜囊蛩靥嗔?,根本無(wú)法分析,更重要的是,人們需要因果關(guān)系嗎?人們只需要知道這件事發(fā)生了以后接下來(lái)會(huì)發(fā)生什么就足夠了,至于為什么會(huì)發(fā)生,誰(shuí)關(guān)心呢?上帝嗎?關(guān)心這個(gè)問(wèn)題的大概都是哲學(xué)家。哲學(xué)家們會(huì)擔(dān)心,沒(méi)有了因果關(guān)系,人在計(jì)算機(jī)面前就會(huì)像傻子一樣任人擺布,這是一種墮落。但不管如何,大數(shù)據(jù)時(shí)代的特點(diǎn)就是這樣,接受它你就邁入了大數(shù)據(jù)時(shí)代。在這樣的背景下,數(shù)據(jù)開(kāi)始值錢了,但也不是說(shuō)誰(shuí)有數(shù)據(jù)誰(shuí)就能雄霸天下。有的公司空有一堆數(shù)據(jù)但不會(huì)處理,有的公司知道怎么處理數(shù)據(jù)但卻缺少創(chuàng)新思維,不知道拿來(lái)何用。最好的是那些既有數(shù)據(jù)又知道怎么處理數(shù)據(jù)還具備創(chuàng)新思維的公司,但這樣的公司又極易淪為數(shù)據(jù)主義。