自動化機器學(xué)習(xí)是什么情況
說到人工智能,我們經(jīng)常都會連帶看到另一個詞“機器學(xué)習(xí)”,另外留心的網(wǎng)友近年來或許還關(guān)注到一個新詞“自動化機器學(xué)習(xí)技術(shù)(AutoML)”,那這個概念又是什么意思呢?本文將做一個簡要介紹。
人工智能的官方發(fā)源時間被定為1956年,即“人工智能”這個詞被正式提出的元年。作為試圖將人類的認(rèn)知能力在計算機層面進行模仿,并輔助人類執(zhí)行一些較為復(fù)雜的任務(wù)的研究領(lǐng)域,人工智能研究主要分為了兩個流派,即根據(jù)人類已有知識在計算機中進行重構(gòu)的符號主義者和主張讓機器在經(jīng)驗世界中自己學(xué)習(xí)的機器學(xué)習(xí)流派。
由于人類世界的開放性很強,即便在一個相對固定的環(huán)境中也如此,同時也因為很多時候人們做出判斷的依據(jù)不太能夠清晰的總結(jié)為規(guī)則以供計算機執(zhí)行,所以符號主義流派逐漸衰落,而機器學(xué)習(xí)流派搶占了高地。對于機器學(xué)習(xí)自身內(nèi)部而言,主要又分為三個研究范式,即監(jiān)督、非監(jiān)督和半監(jiān)督學(xué)習(xí)任務(wù)。所謂監(jiān)督,其實很好理解,以老師教學(xué)場景為例,老師在課堂上就一個問題給出相應(yīng)的答案,讓同學(xué)以這個標(biāo)準(zhǔn)答案為參考,學(xué)習(xí)相應(yīng)的得到這個答案的方法。從這個例子可以看到,其實監(jiān)督學(xué)習(xí)的核心就是給學(xué)習(xí)的主體一個標(biāo)準(zhǔn)的答案,比如告訴機器說圖片A是一只貓,然后讓機器通過一系列數(shù)學(xué)方法來不斷試錯,目的是調(diào)整自己內(nèi)部的各種參數(shù),使得能夠看到這個圖片A以后,經(jīng)過一系列計算能夠得出它是一只貓的結(jié)論。
相應(yīng)的,非監(jiān)督學(xué)習(xí)就是指機器在學(xué)習(xí)的時候不給它標(biāo)準(zhǔn)答案,讓他根據(jù)一個人們設(shè)定的目標(biāo),在學(xué)習(xí)環(huán)境中自己尋找方法,不斷提升自己的性能;對于半監(jiān)督學(xué)習(xí)而言,就是結(jié)合了監(jiān)督學(xué)習(xí)與非監(jiān)督學(xué)習(xí)二者優(yōu)勢的一種研究范式。
那近來經(jīng)??吹降淖詣踊瘷C器學(xué)習(xí)又是什么呢,機器不就是在自動化的學(xué)習(xí)嗎?要理解這個還需對人工智能算法研究有一個簡單的概念。機器學(xué)習(xí)的技術(shù)非常復(fù)雜,機器學(xué)習(xí)的研發(fā)項目比傳統(tǒng)的開發(fā)項目復(fù)雜很多,一個簡單的項目,周期也要幾周到幾個月的時間,實際企業(yè)中的項目即便是有一個比較成熟的團隊,一般也要幾個月到半年、一年的時間這都很正常。機器學(xué)習(xí)項目的最大不確定性在于不知道多長時間后才能達到設(shè)定的目標(biāo),就是模型能夠真正可用。否則就無法實際商用,不能形成銷售收入。模型無法達到目標(biāo)精度很大程度是因為算法很難對最后效果進行一個準(zhǔn)確的預(yù)測,所以我們采用迭代式的改進方法,就是不斷的把開發(fā)過程重復(fù),等最后模型做出來之后,分析模型結(jié)果,分析模型性能,然后進一步改進算法,在整個迭代過程中很多步驟都必須重新做,導(dǎo)致開發(fā)效率比較低。風(fēng)險更高的是很多人工智能項目即便投入大量時間,投入大量人力之后還是會失敗。來自權(quán)威機構(gòu)Gartner的統(tǒng)計,60%的人工智能項目都以失敗告終。
據(jù)它的調(diào)查顯示,人工智能項目失敗有兩種原因:一方面,技術(shù)要求不達標(biāo),如很多人工智能項目中機器學(xué)習(xí)算法最后的準(zhǔn)確度不夠好;另一方面,項目進展緩慢,部分項目實施時時間越來越長,但是進展不明顯,雖然有進展,但是距離項目目標(biāo)很遠??赡苁枪こ痰脑颍部赡苁撬惴ǖ脑?。大部分企業(yè)對人工智能投入還是有限的,到一定程度還沒有進展,或者成本開銷過大,都會被叫停,最后導(dǎo)致項目失敗。項目失敗的事情,即便在有豐富經(jīng)驗的人工智能團隊的公司里,也會經(jīng)常發(fā)生,因為進展不夠快。
以上機器學(xué)習(xí)發(fā)展中遇到的問題,一個核心因素是人,而機器學(xué)習(xí)的工作又有大量的人工干預(yù),如特征提取、模型選擇、參數(shù)調(diào)節(jié)等機器學(xué)習(xí)的各個方面。對此,自動化機器學(xué)習(xí)技術(shù)(AutoML)正好可以解決這些問題。讓機器學(xué)習(xí)重要步驟自動化,使它無需人工干預(yù)。ICM(International Conference on Machine Learning)國際機器學(xué)習(xí)大會給了機器學(xué)習(xí)一個定義:“progressive automaTIon of machine learning”,這個定義非常廣泛,意思是任何能把現(xiàn)在機器學(xué)習(xí)的某一部分技術(shù)自動化都可以稱之為AutoML。因為很多技術(shù)和平臺符合這個定義,所以都宣稱是AutoML。
不過,一個好的AutoML技術(shù)要完成的目標(biāo)目前在工業(yè)界還是形成了共識的,即在有限的人力參與和計算資源約束下,AutoML的目標(biāo)是最大化模型的性能,設(shè)計出與人類科學(xué)家設(shè)計的模型性能相當(dāng),甚至更好的模型。
此項技術(shù)雖然還處在發(fā)展的早期,但已經(jīng)成為國際學(xué)術(shù)界、工業(yè)界研究的一個新重點,因為AutoML可以為企業(yè)節(jié)省大量成本,打造出性能非凡的人工智能系統(tǒng)。
國內(nèi)目前有一大批領(lǐng)先人工智能公司聯(lián)動學(xué)術(shù)界在該領(lǐng)域展開了研究,提出了不僅在學(xué)術(shù)界,而且同時已經(jīng)能商用化的重要算法模型。
以極有可能成為AI第一股的計算機視覺巨頭曠視為例。作為一家基于計算機視覺的人工智能物聯(lián)網(wǎng)公司,曠視需要將大量先進的算法植入各類硬件設(shè)備,使它們智能化。然而考慮到生活中很多設(shè)備無法具備強大的計算能力,因此需要將各種視覺理解算法小型化,即讓它們能夠在廣泛的物聯(lián)網(wǎng)場景下適用。
對此曠視在之前已經(jīng)開發(fā)了一系列經(jīng)典的輕量級模型(如ShuffleNet、DoreFa-Net),并且將其部署在了各類物聯(lián)網(wǎng)設(shè)備上,賦予了這些設(shè)備AI的力量。但隨著技術(shù)進一步發(fā)展,如何在那么多不同種類的設(shè)備上設(shè)計最優(yōu)的算法,如何進一步提升性能、降低計算成本就成了AIoT時代各家公司關(guān)注的重點。其中,曠視對此已經(jīng)做出了一系列研究,并已將成果應(yīng)用于實際業(yè)務(wù)。
曠視于今年在各大AI學(xué)術(shù)頂級會議上連發(fā)三篇與AutoML相關(guān)的重要論文,針對的就是當(dāng)前該領(lǐng)域最火熱的被稱為NAS(自動化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜)的技術(shù)。在該項技術(shù)的幫助下,神經(jīng)網(wǎng)絡(luò)能夠自己設(shè)計自己的結(jié)構(gòu),實現(xiàn)性能、效率匹敵甚至超越人類科學(xué)家設(shè)計的網(wǎng)絡(luò)。
這些由曠視NAS技術(shù)推出的網(wǎng)絡(luò)目前已經(jīng)在手機等各類邊端小型設(shè)備上廣泛使用,同時也助力曠視在全球AI學(xué)術(shù)競賽上多次奪冠,它們的出現(xiàn)并非會讓人類失業(yè),而是幫助人類拓寬思路,設(shè)計出更多造福社會的AI系統(tǒng)。