人工智能需要什么樣的大數(shù)據(jù)?
當(dāng)今,隨著物聯(lián)網(wǎng)、云計算、5G等新一代高新技術(shù)的快速發(fā)展,人工智能和大數(shù)據(jù)技術(shù)也得到了很大的發(fā)展。然而,隨著人工智能的不斷發(fā)展,我們不得不面臨一些問題,例如:我們真的準(zhǔn)備好與人工智能共同發(fā)展了嗎?我們該如何規(guī)劃人工智能時代的未來生活?等。
本月底,2019世界人工智能大會將在黃浦江畔揭開序幕。李開復(fù)、王詠剛將著作《人工智能》精編為系列短文,試析與AI相關(guān)的若干關(guān)鍵問題。
目前的深度學(xué)習(xí)主要是建立在大數(shù)據(jù)的基礎(chǔ)上,即對大數(shù)據(jù)進行訓(xùn)練,并從中歸納出可以被計算機運用在類似數(shù)據(jù)上的知識或規(guī)律。那么,到底什么是大數(shù)據(jù)呢?
人們經(jīng)常籠統(tǒng)地說,大數(shù)據(jù)就是大規(guī)模的數(shù)據(jù)。
這個說法并不準(zhǔn)確。“大規(guī)模”只是指數(shù)據(jù)的量而言。數(shù)據(jù)量大,并不代表著數(shù)據(jù)一定有可以被深度學(xué)習(xí)算法利用的價值。例如,地球繞太陽運轉(zhuǎn)的過程中,每一秒鐘記錄一次地球相對太陽的運動速度、位置,這積累多年,得到的數(shù)據(jù)量不可謂不大,但是,如果只有這樣的數(shù)據(jù),其實并沒有太多可以挖掘的價值,因為地球圍繞太陽運轉(zhuǎn)的物理規(guī)律,人們已經(jīng)研究得比較清楚了,不需要由計算機再次總結(jié)出萬有引力定律或廣義相對論來。
那么.大數(shù)據(jù)到底是什么?大數(shù)據(jù)是如何產(chǎn)生的?什么樣的數(shù)據(jù)才最有價值,最適合作為計算機的學(xué)習(xí)對象呢?
根據(jù)馬丁•希爾伯特(Martin Hilbert)的總結(jié),今天我們常說的大數(shù)據(jù)其實是在2010年后,因為信息交換、信息存儲、信息處理三個方面能力的大幅增長而產(chǎn)生的數(shù)據(jù)。
從應(yīng)用角度來說,今天的大數(shù)據(jù)越來越多地呈現(xiàn)出以下一種特性:
大數(shù)據(jù)越來越多地來源于生產(chǎn)或服務(wù)過程的副產(chǎn)品,但在價值上卻往往超過了為了特定目的專門采集的數(shù)據(jù)。
例如,谷歌的大數(shù)據(jù)雖然主要從搜索引擎的日常使用中獲得,但如果深入挖掘,這些數(shù)據(jù)往往具有非常高的價值。谷歌曾利用全球用戶查詢中,涉及流行性感冒的關(guān)鍵詞的出現(xiàn)頻率變化情況,對2003年到2008年全球季節(jié)性流感的分布和傳播進行跟蹤與預(yù)測。這一預(yù)測的覆蓋規(guī)模和價值甚至超出了各國衛(wèi)生部門專門收集相關(guān)數(shù)據(jù)所做的預(yù)測。
大數(shù)據(jù)往往可以取代傳統(tǒng)意義上的抽樣調(diào)查。例如,按照傳統(tǒng)方式,電視臺某個節(jié)目的收視率往往要由專業(yè)調(diào)查公司通過抽樣調(diào)查的方式,通過電話拜訪等渠道獲得抽樣數(shù)據(jù),再估算收視率。現(xiàn)在,有了微博或類似的社交網(wǎng)絡(luò),我們可以直接利用微博上每時每刻產(chǎn)生的大數(shù)據(jù),對電視節(jié)目、電影、網(wǎng)絡(luò)節(jié)目的熱門程度進行分析,其準(zhǔn)確性往往超過傳統(tǒng)的抽樣調(diào)查方式。
許多大數(shù)據(jù)都可以實時獲取。例如,每年雙十一,在阿里的淘寶、天貓這樣的電子商務(wù)平臺上,每時每刻都有成千上萬筆交易正在進行,所有這些交易數(shù)據(jù)在阿里交易平臺的內(nèi)部,都可以實時匯總,供人們對雙十一當(dāng)天的交易情況進行監(jiān)控、管理或分析、匯總。一部分?jǐn)?shù)據(jù)的時效性非常強,如果不能實時利用,則數(shù)據(jù)的附加值會大幅降低。大數(shù)據(jù)的實時性為大數(shù)據(jù)的應(yīng)用提供了更多的選擇,為大數(shù)據(jù)更快產(chǎn)生應(yīng)用價值提供了基礎(chǔ)。
大數(shù)據(jù)往往混合了來自多個數(shù)據(jù)源的多維度信息。一份微博用戶的ID列表雖然很有價值,但并不容易轉(zhuǎn)換成商業(yè)應(yīng)用所需要的完整信息。假如能利用用戶ID,將用戶在微博上的社交行為,和用戶在電子商務(wù)平臺如淘寶、京東等的購買行為關(guān)聯(lián)起來,通過對不同來源的大數(shù)據(jù)的整合,采集到更多維度的數(shù)據(jù),就可以向微博用戶更準(zhǔn)確地推薦他最喜歡的商品。聚合更多數(shù)據(jù)源,增加數(shù)據(jù)維度,這是提高大數(shù)據(jù)價值的好辦法。
有大數(shù)據(jù)就有人工智能的機會
人工智能時代,深度學(xué)習(xí)和大數(shù)據(jù)成了密不可分的一對兒。深度學(xué)習(xí)可以從大數(shù)據(jù)中挖掘出以往難以想象的有價值的數(shù)據(jù)、知識或規(guī)律。簡單來說,有足夠的數(shù)據(jù)作為深度學(xué)習(xí)的輸入,計算機就可以學(xué)會以往只有人類才能理解的概念或知識,然后再將這些概念或知識應(yīng)用到之前從來沒有看見過的新數(shù)據(jù)上。
谷歌的圍棋程序AlphaGo已經(jīng)達到了人類圍棋選手無法達到的境界,沒有人可以與之競爭,這是因為AlphaGo在不斷進行學(xué)習(xí)。AlphaGo不但從人員專業(yè)選手以往的數(shù)百萬份棋譜中學(xué)習(xí),還可以從自己和自己的對弈棋譜中學(xué)習(xí)。
基于大數(shù)據(jù)的深度學(xué)習(xí)到底如何在現(xiàn)實生活中發(fā)揮作用呢?一個非常好的例子是,計算機可以通過預(yù)先學(xué)習(xí)成千上萬張脫敏的人臉圖片,掌握認識和分辨人臉的基本規(guī)律。然后,計算機可以記住全國所有通緝犯的長相。沒有一個單獨的人類警察可以做到這一點。這樣一來,全國的安防系統(tǒng)只要接入了這套會識別通緝犯相貌的計算機程序,通緝犯在公共場合一露面,計算機就可以通過監(jiān)控攝像頭采集的圖像將通緝犯辨認出來。大數(shù)據(jù)和深度學(xué)習(xí)一起,可以完成以前也許需要數(shù)萬名人類警察才能完成的任務(wù)
任何擁有大數(shù)據(jù)的領(lǐng)域,我們都可以找到深度學(xué)習(xí)一展身手的空間,都可以做出高質(zhì)量的人工智能應(yīng)用。任何有大數(shù)據(jù)的領(lǐng)域,在合法合規(guī)的前提下,都有創(chuàng)業(yè)的機會。