機器學(xué)習(xí)與深度學(xué)習(xí)之間有什么異同
在本文中,我闡述了數(shù)據(jù)科學(xué)家的各種角色,以及數(shù)據(jù)科學(xué)如何與機器學(xué)習(xí),深度學(xué)習(xí),人工智能,統(tǒng)計學(xué),物聯(lián)網(wǎng),運籌學(xué)和應(yīng)用數(shù)學(xué)等相關(guān)領(lǐng)域進行比較和重疊。 由于數(shù)據(jù)科學(xué)是一門廣泛的學(xué)科,我首先描述在任何商業(yè)環(huán)境中可能遇到的不同類型的數(shù)據(jù)科學(xué)家:您甚至可能發(fā)現(xiàn)自己是一名數(shù)據(jù)科學(xué)家,而不知道它。 與任何科學(xué)學(xué)科一樣,數(shù)據(jù)科學(xué)家可以借用相關(guān)學(xué)科的技術(shù),盡管我們已經(jīng)開發(fā)了自己的工具庫,特別是技術(shù)和算法,以自動方式處理非常大的非結(jié)構(gòu)化數(shù)據(jù)集,即使沒有人工交互,也可以實時執(zhí)行交易 或者做出預(yù)測。
1.不同類型的數(shù)據(jù)科學(xué)家
要開始并獲得一些歷史觀點,您可以閱讀我在2014年發(fā)表的關(guān)于9種數(shù)據(jù)科學(xué)家的文章,或者我的文章,其中我將數(shù)據(jù)科學(xué)與16個分析學(xué)科進行了比較,也發(fā)表于2014年。
在同一時期發(fā)布的以下文章仍然有用:
數(shù)據(jù)科學(xué)家與數(shù)據(jù)架構(gòu)師
數(shù)據(jù)科學(xué)家與數(shù)據(jù)工程師
數(shù)據(jù)科學(xué)家與統(tǒng)計學(xué)家
數(shù)據(jù)科學(xué)家與業(yè)務(wù)分析師
最近(2016年8月)Ajit Jaokar討論了Type A(Analytics)與B類(Builder)數(shù)據(jù)科學(xué)家:
A型數(shù)據(jù)科學(xué)家可以很好地編碼以處理數(shù)據(jù),但不一定是專家。 A型數(shù)據(jù)科學(xué)家可能是實驗設(shè)計,預(yù)測,建模,統(tǒng)計推斷或統(tǒng)計部門通常教授的其他事項的專家。一般而言,數(shù)據(jù)科學(xué)家的工作產(chǎn)品不是“p值和置信區(qū)間”,因為學(xué)術(shù)統(tǒng)計有時似乎表明(例如,有時對于在制藥行業(yè)工作的傳統(tǒng)統(tǒng)計學(xué)家而言)。在谷歌,A型數(shù)據(jù)科學(xué)家被稱為統(tǒng)計學(xué)家,定量分析師,決策支持工程分析師或數(shù)據(jù)科學(xué)家,可能還有一些。
B型數(shù)據(jù)科學(xué)家:B代表建筑。 B類數(shù)據(jù)科學(xué)家與A類有一些統(tǒng)計背景,但他們也是非常強大的編碼員,可能是訓(xùn)練有素的軟件工程師。 B類數(shù)據(jù)科學(xué)家主要關(guān)注“在生產(chǎn)中”使用數(shù)據(jù)。他們構(gòu)建與用戶互動的模型,通常提供推薦(產(chǎn)品,您可能知道的人,廣告,電影,搜索結(jié)果)。來源:點擊這里。
我還寫了關(guān)于業(yè)務(wù)流程優(yōu)化的ABCD,其中D代表數(shù)據(jù)科學(xué),C代表計算機科學(xué),B代表商業(yè)科學(xué),A代表分析科學(xué)。數(shù)據(jù)科學(xué)可能涉及也可能不涉及編碼或數(shù)學(xué)實踐,您可以在我的關(guān)于低級別數(shù)據(jù)科學(xué)與高級數(shù)據(jù)科學(xué)的文章中閱讀。在創(chuàng)業(yè)公司中,數(shù)據(jù)科學(xué)家通常會戴上幾個帽子,如執(zhí)行,數(shù)據(jù)挖掘,數(shù)據(jù)工程師或架構(gòu)師,研究員,統(tǒng)計學(xué)家,建模師(如預(yù)測建模)或開發(fā)人員。
雖然數(shù)據(jù)科學(xué)家通常被描述為在R,Python,SQL,Hadoop和統(tǒng)計數(shù)據(jù)方面經(jīng)驗豐富的編碼器,但這只是冰山一角,受數(shù)據(jù)營的歡迎,專注于教授數(shù)據(jù)科學(xué)的某些元素。但就像實驗室技術(shù)人員可以稱自己為物理學(xué)家一樣,真正的物理學(xué)家遠不止于此,她的專業(yè)領(lǐng)域也各不相同:天文學(xué),數(shù)學(xué)物理學(xué),核物理學(xué)(邊緣化學(xué)),力學(xué),電氣工程,信號處理(也是數(shù)據(jù)科學(xué)的一個子領(lǐng)域)等等。關(guān)于數(shù)據(jù)科學(xué)家也可以這樣說:生物信息學(xué),信息技術(shù),模擬和質(zhì)量控制,計算金融,流行病學(xué),工業(yè)工程,甚至數(shù)論都是各種各樣的領(lǐng)域。
就我而言,在過去的十年中,我專注于機器對機器和設(shè)備到設(shè)備的通信,開發(fā)系統(tǒng)來自動處理大型數(shù)據(jù)集,執(zhí)行自動交易:例如,購買互聯(lián)網(wǎng)流量或自動生成內(nèi)容。它意味著開發(fā)適用于非結(jié)構(gòu)化數(shù)據(jù)的算法,它處于AI(人工智能)IoT(物聯(lián)網(wǎng))和數(shù)據(jù)科學(xué)的交叉點。這被稱為深度數(shù)據(jù)科學(xué)。它是相對無數(shù)學(xué)的,它涉及相對較少的編碼(主要是API),但它是相當(dāng)數(shù)據(jù)密集型(包括構(gòu)建數(shù)據(jù)系統(tǒng))并基于專門為此上下文設(shè)計的全新統(tǒng)計技術(shù)。
在此之前,我實時進行了信用卡欺詐檢測。在我的職業(yè)生涯早期(大約1990年),我從事圖像遙感技術(shù),除了其他方面,以確定衛(wèi)星圖像中的圖案(或形狀或特征,例如湖泊)和執(zhí)行圖像分割:當(dāng)時我的研究被標(biāo)記為計算統(tǒng)計數(shù)據(jù),但人們在我家大學(xué)隔壁的計算機科學(xué)系做同樣的事情,稱他們研究人工智能。今天,它被稱為數(shù)據(jù)科學(xué)或人工智能,子域是信號處理,計算機視覺或物聯(lián)網(wǎng)。
此外,數(shù)據(jù)科學(xué)家可以在數(shù)據(jù)科學(xué)項目的生命周期,數(shù)據(jù)收集階段或數(shù)據(jù)探索階段的任何地方找到,一直到統(tǒng)計建模和維護現(xiàn)有系統(tǒng)。
2.機器學(xué)習(xí)與深度學(xué)習(xí)在深入研究數(shù)據(jù)科學(xué)與機器學(xué)習(xí)之間的聯(lián)系之前,讓我們簡要討論機器學(xué)習(xí)和深度學(xué)習(xí)。機器學(xué)習(xí)是一組算法,它們訓(xùn)練數(shù)據(jù)集以進行預(yù)測或采取行動以優(yōu)化某些系統(tǒng)。例如,基于歷史數(shù)據(jù),監(jiān)督分類算法用于根據(jù)貸款目的將潛在客戶分類為好的或壞的潛在客戶。對于給定任務(wù)(例如,監(jiān)督聚類)所涉及的技術(shù)是變化的:樸素貝葉斯,SVM,神經(jīng)網(wǎng)絡(luò),集合,關(guān)聯(lián)規(guī)則,決策樹,邏輯回歸或許多的組合。有關(guān)算法的詳細(xì)列表,請單擊此處。有關(guān)機器學(xué)習(xí)問題的列表,請單擊此處。
所有這些都是數(shù)據(jù)科學(xué)的一個子集。當(dāng)這些算法自動化時,如自動駕駛或無駕駛汽車,它被稱為AI,更具體地說,深度學(xué)習(xí)。點擊此處查看另一篇文章,將機器學(xué)習(xí)與深度學(xué)習(xí)進如果收集的數(shù)據(jù)來自傳感器,并且如果它是通過互聯(lián)網(wǎng)傳輸?shù)模敲礄C器學(xué)習(xí)或數(shù)據(jù)科學(xué)或深度學(xué)習(xí)應(yīng)用于物聯(lián)網(wǎng)。
有些人對深度學(xué)習(xí)有不同的定義。他們認(rèn)為深度學(xué)習(xí)是具有更深層的神經(jīng)網(wǎng)絡(luò)(機器學(xué)習(xí)技術(shù))。最近在Quora上提出了這個問題,下面是一個更詳細(xì)的解釋(來源:Quora)
AI(人工智能)是計算機科學(xué)的一個子領(lǐng)域,創(chuàng)建于20世紀(jì)60年代,它關(guān)注的是解決對人類而言容易但對計算機來說很難的任務(wù)。特別是,所謂的強人工智能將是一個可以做任何事情的系統(tǒng)(也許沒有純粹的物理事物)。這是非常通用的,包括各種任務(wù),例如計劃,在世界各地移動,識別對象和聲音,說話,翻譯,進行社交或商業(yè)交易,創(chuàng)造性工作(制作藝術(shù)或詩歌)等。
NLP(自然語言處理)只是人工智能的一部分,與語言(通常是書面的)有關(guān)。
機器學(xué)習(xí)關(guān)注的一個方面是:給定一些可以用離散術(shù)語描述的AI問題(例如,從一組特定的動作中,哪一個是正確的動作),并給出關(guān)于世界的大量信息,圖什么是“正確”的行動,沒有程序員編程。通常需要一些外部過程來判斷行動是否正確。在數(shù)學(xué)術(shù)語中,它是一個函數(shù):你輸入一些輸入,并且你希望它產(chǎn)生正確的輸出,所以整個問題只是以某種自動的方式建立這個數(shù)學(xué)函數(shù)的模型。為了區(qū)分AI,如果我能編寫一個非常聰明的程序,它具有類似人類的行為,它可以是AI,但除非它的參數(shù)是從數(shù)據(jù)中自動學(xué)習(xí)的,否則它不是機器學(xué)習(xí)。
深度學(xué)習(xí)是一種現(xiàn)在非常流行的機器學(xué)習(xí)。它涉及一種特定類型的數(shù)學(xué)模型,可以被認(rèn)為是某種類型的簡單塊(函數(shù)組合)的組合,并且其中一些塊可以被調(diào)整以更好地預(yù)測最終結(jié)果。
機器學(xué)習(xí)和統(tǒng)計學(xué)有什么區(qū)別?
本文試圖回答這個問題。作者寫道,統(tǒng)計數(shù)據(jù)是機器學(xué)習(xí),其中包含預(yù)測或估計量的置信區(qū)間。我傾向于不同意,因為我建立了工程友好的置信區(qū)間,不需要任何數(shù)學(xué)或統(tǒng)計知識。
3.數(shù)據(jù)科學(xué)與機器學(xué)習(xí)機器學(xué)習(xí)和統(tǒng)計是數(shù)據(jù)科學(xué)的一部分。機器學(xué)習(xí)中的單詞學(xué)習(xí)意味著算法依賴于一些數(shù)據(jù),用作訓(xùn)練集,以微調(diào)一些模型或算法參數(shù)。這包括許多技術(shù),例如回歸,樸素貝葉斯或監(jiān)督聚類。但并非所有技術(shù)都適用于此類別。例如,無監(jiān)督聚類 - 統(tǒng)計和數(shù)據(jù)科學(xué)技術(shù) - 旨在檢測聚類和聚類結(jié)構(gòu),而無需任何先驗知識或訓(xùn)練集來幫助分類算法。需要人來標(biāo)記發(fā)現(xiàn)的聚類。一些技術(shù)是混合的,例如半監(jiān)督分類。一些模式檢測或密度估計技術(shù)適合此類別。
數(shù)據(jù)科學(xué)不僅僅是機器學(xué)習(xí)。數(shù)據(jù)科學(xué)中的數(shù)據(jù)可能來自也可能不來自機器或機械過程(調(diào)查數(shù)據(jù)可以手動收集,臨床試驗涉及特定類型的小數(shù)據(jù)),它可能與我剛剛討論過的學(xué)習(xí)無關(guān)。但主要區(qū)別在于數(shù)據(jù)科學(xué)涵蓋了整個數(shù)據(jù)處理范圍,而不僅僅是算法或統(tǒng)計方面。特別是,數(shù)據(jù)科學(xué)也包括在內(nèi)
數(shù)據(jù)集成
分布式架構(gòu)
自動化機器學(xué)習(xí)
數(shù)據(jù)可視化
儀表板和BI
數(shù)據(jù)工程
在生產(chǎn)模式下部署
自動化,數(shù)據(jù)驅(qū)動的決策
當(dāng)然,在許多組織中,數(shù)據(jù)科學(xué)家只關(guān)注這一過程的一部分