大數(shù)據與人工智能密不可分 大數(shù)據的發(fā)展離不開人工智能的助力
關于數(shù)據
這些年人類生產的數(shù)據呈爆發(fā)式增長,從十幾年前移動智能設備的興起,到如今人們身上穿戴的各種傳感器設備,都在24小時不斷產生大量數(shù)據。這些數(shù)據包括文本、語音、圖像、視頻等等。
大數(shù)據
大數(shù)據這個詞最早出現(xiàn)在20世紀90年代,當時只是用來描述數(shù)據量很大,但并沒有給出明確的定義和概念意思。出現(xiàn)后沒有受到多少人的關注,直到2012年后大數(shù)據得到了各行各業(yè)的關注重視,很多學科和行業(yè)都會涉及大數(shù)據,大數(shù)據一時風光無兩。
在技術方面,大數(shù)據包含的數(shù)據量一般都超出了單臺計算機的內存容量,甚至大成百上千倍,所以在技術上就必須要有專門處理海量數(shù)據的工具。谷歌提出的MapReduc可以說是這方面的開山之作,以至于后來有了開源的Hadoop,屬于經典的大數(shù)據處理工具。
大數(shù)據最早在大型互聯(lián)網和電商領域公司發(fā)展起來,2008年左右,這些公司收集到的數(shù)據大到傳統(tǒng)技術手段已經無法處理,很難滿足業(yè)務的發(fā)展,于是大數(shù)據相關的理念和技術被相繼提出來。2010年隨著Web2.0的到來以及智能終端的普及,產生的數(shù)據量更進一步猛增,此時大數(shù)據已經融入人類社會生活。2012年大數(shù)據成為全球最熱門領域之一,國內外很多公司都提出大數(shù)據相關戰(zhàn)略。2015年大數(shù)據正式進入國家發(fā)展戰(zhàn)略,此后一直發(fā)展快速。
大數(shù)據
大數(shù)據的核心工作就是預測,通過數(shù)學模型算法與海量數(shù)據從而達到預測事務發(fā)生的可能性。
大數(shù)據特征
大容量,數(shù)據量超級大。
多種類,數(shù)據類型包括結構化數(shù)據、半結構化數(shù)據和非結構化數(shù)據。
真實性,大數(shù)據應具有真實性,否則沒有價值。
時效性,大數(shù)據一般具有時效性。
數(shù)據工程
當我們收集到數(shù)據后為了能產生業(yè)務收益,我們會以工程化角度進行數(shù)據處理、分析得到有價值的信息,這個過程就是數(shù)據工程。數(shù)據工程一般流程為:
數(shù)據獲取,從不同數(shù)據源收集數(shù)據獲取數(shù)據到統(tǒng)一裝置中。
數(shù)據存儲,借助存儲介質將收集到的數(shù)據持久化保存,比如硬盤。
數(shù)據清洗,將不符合規(guī)范的數(shù)據進行特定處理,使得數(shù)據達到準確完整一致等要求。
數(shù)據建模,定義滿足業(yè)務所需要的數(shù)據要求的過程,一般需要業(yè)務建模師參與。
數(shù)據處理,對數(shù)據的采集、存儲、檢索、加工、變換、傳輸?shù)炔僮鳎瑥暮A繑?shù)據中抽取提取有價值的數(shù)據。
數(shù)據分析,使用數(shù)據挖掘技術從海量數(shù)據中獲取有價值的信息。
數(shù)據可視化,將數(shù)據以直觀的可視化方式展示給用戶。
人工智能
1956年人工智能在達特茅斯正式被提出,它研究的事如何制造智能機器或模擬人類智能行為。人工智能學科介紹和發(fā)展可以參考前面的《一文了解人工智能——學科介紹、發(fā)展史、三大學派》文章。
AI主要領域
模式識別,通過計算機對數(shù)據樣本進行特征提取從而學習到模型,然后根據模型進行判別。
機器學習,讓機器具有學習的能力,使機器具有智能,涉及認知科學、神經心理學、邏輯學等。
機器翻譯,通過計算機將某種自然語言轉換成另一種自然語言,它是計算語言學的一個分支,涉及到語言學、計算機、認知科學、信息論等學科。
自然語言處理,讓機器能理解自然語言,能夠像人類一樣生成和理解自然語言。
計算機視覺,使計算機能通過圖像來認知環(huán)境信息的能力,比如識別環(huán)境找那個物體的形狀、位置、姿勢、運動等,進一步還需要對其進行理解。
專家系統(tǒng),一種具有名特定領域大量知識和經驗的系統(tǒng),就像人類某方面的專家具有豐富的專業(yè)知識和經驗,能夠快速解決相應領域的問題。
大數(shù)據與AI
大數(shù)據與人工智能是密不可分的,大數(shù)據的發(fā)展離不開人工智能,沒有人工智能的加持大數(shù)據就無法擁有智能。而人工智能的發(fā)展又離不開數(shù)據的支持,它需要海量數(shù)據作為思考決策的基矗一般認為人工智能三大基礎是數(shù)據、算法和算力,算力則是另外一個維度的基礎了,如果沒有硬件的迅猛發(fā)展以及并行運算等就不會有這一輪的人工智能浪潮。因為算法就算再好,如果沒有算力加持,它也是沒有實際應用價值的算法。
機器學習vs人工智能
總體上來說,機器學習屬于人工智能的子集,是實現(xiàn)人工智能的一種方式。而談到機器學習就必會牽涉到近些年大火的深度學習,深度學習又是機器學習的子集。所以它們的關系就像是俄羅斯套娃,一層套一層。
機器學習
機器學習的起點是研究如何不使用明確的指令編碼完成某任務,而是讓機器從數(shù)據中學習從而獲得相應能力。機器學習從已知的數(shù)據特征出發(fā),利用概率統(tǒng)計等數(shù)學方法來得到某種規(guī)律,然后利用該規(guī)律完成某個預測任務。如果用一句話來簡單描述就是:使用某個數(shù)據特征的數(shù)學表達式來表征某個事物。
機器學習的正式定義為:“對于某類任務T和性能度量P,如果一個計算機程序在T上以P衡量的性能隨著經驗E而自我完善,那么我們稱這個計算機程序從經驗E中學習?!薄?/p>
機器學習
機器學習關注的是如何通過編程讓機器自己從以往的數(shù)據樣本里面學習某些規(guī)律,從而能夠對未來進行預測或決策,即實現(xiàn)一個可以根據經驗(數(shù)據)并以某種規(guī)范為指導來進行自我優(yōu)化的任務執(zhí)行程序。比如我們收集很多貓和狗的不同照片,機器根據這些照片自己學習到規(guī)律,從而實現(xiàn)了貓和狗的識別能力。