自我監(jiān)督學習將是AI技術(shù)的未來發(fā)展方向
(文章來源:科技行者)
盡管深度學習已經(jīng)在人工智能領域做出重大貢獻,但這項技術(shù)本身仍存在一項致命缺陷:需要大量數(shù)據(jù)的加持。深度學習領域的先驅(qū)者乃至批評者已經(jīng)就此達成共識——事實上,正是由于可用數(shù)據(jù)量有限加上處理大規(guī)模數(shù)據(jù)的計算能力不足,才導致深度學習直到最近幾年才成為AI層面的前沿技術(shù)。因此,減少深度學習對數(shù)據(jù)的依賴性,已經(jīng)成為AI研究人員最重要的探索方向之一。
在AAAI大會的主題演講中,計算機科學家Yann LeCun討論了當前深度學習技術(shù)的局限性,同時提出“自我監(jiān)督學習”的發(fā)展藍圖——這是他為解決深度學習數(shù)據(jù)問題而構(gòu)建的路線圖。作為深度學習領域的教父級人物之一,LeCun正是卷積神經(jīng)網(wǎng)絡(CNN)的發(fā)明者,而該網(wǎng)絡也成為過去十年內(nèi)推動人工智能革命的一大核心因素。
自我監(jiān)督學習,可謂當前提升人工智能系統(tǒng)數(shù)據(jù)利用效率的多種嘗試之一。目前我們還很難斷言哪種具體嘗試能夠成功掀起下一輪AI革命(也許我們最終會采取完全不同的政策),但LeCun的規(guī)劃與思路仍然值得我們認真了解。首先,LeCun強調(diào)稱,深度學習技術(shù)面對的局限性實際上正是監(jiān)督學習技術(shù)的局限性。所謂監(jiān)督學習,屬于一類需要對訓練數(shù)據(jù)進行標記才能正常完成學習的算法。例如,如果希望創(chuàng)建圖像分類模型,則必須為系統(tǒng)提供經(jīng)過適當分類標記的大量圖像,由模型在其中完成充分訓練。
LeCun在AAAI主題演講中提到,“深度學習并不是監(jiān)督學習,也不只是神經(jīng)網(wǎng)絡?;旧?,深度學習是將參數(shù)化的模塊組裝到計算圖中以構(gòu)建起AI系統(tǒng)。它的優(yōu)勢在于,我們不需要對系統(tǒng)進行直接編程——我們只需要定義架構(gòu)并調(diào)整參數(shù)。不過其中需要調(diào)整的參數(shù)可能多達數(shù)十億之巨?!盠eCun同時補充道,深度學習適用于多種不同學習范式,包括監(jiān)督學習、強化學習以及無監(jiān)督/自我監(jiān)督學習等。
但目前人們對于深度學習以及監(jiān)督學習的抱怨并非空穴來風。當下,大部分能夠?qū)嶋H應用的深度學習算法都基于監(jiān)督學習模型,這也充分暴露出現(xiàn)有AI系統(tǒng)的缺點所在。我們?nèi)粘J褂玫膱D像分類器、人臉識別系統(tǒng)、語音識別系統(tǒng)以及眾多其他AI應用都需要利用數(shù)百萬個帶有標記的示例進行充分訓練。到目前為止,強化學習與無監(jiān)督學習只能算是在理論上存在的其他機器學習算法類型,還極少在實踐場景中得到應用。
監(jiān)督深度學習為我們帶來多種非常實用的應用方案,特別是在計算機視覺與自然語言處理等特定領域。深度學習已經(jīng)在癌癥檢測等敏感應用中扮演越來越重要的角色,而且事實證明,其確實能夠在部分人類無法解決的問題中發(fā)揮核心作用。例如,社交媒體巨頭們正紛紛利用這類技術(shù)審核并通報用戶在平臺上發(fā)布的大量內(nèi)容。
LeCun表示,“如果把深度學習元素從Facebook、Instagram以及YouTube等廠商中剝離出來,他們的業(yè)務會瞬間崩潰。事實上,他們的業(yè)務完全圍繞深度學習構(gòu)建而成。”
但正如前文所述,監(jiān)督學習只適用于具備充足高質(zhì)量數(shù)據(jù)、且數(shù)據(jù)內(nèi)容足以涵蓋所有可能情況的場景。一旦經(jīng)過訓練的深度學習模型遇到不同于訓練示例的全新狀況,它們的表現(xiàn)將徹底失去控制。在某些情況下,單是從稍有區(qū)別的角度展示對象,就有可能令神經(jīng)網(wǎng)絡將其誤判為其他物體。
深度強化學習則在游戲與模擬場景中表現(xiàn)出強大能力。過去幾年以來,強化學習已經(jīng)征服了眾多以往人工智能無法攻克的游戲項目。當下,AI程序在《星際爭霸2》、《Dota》以及具有悠久歷史的圍棋領域?qū)⑷祟愴敿膺x手殺得片甲不留。
但是,這些AI程序在摸索解決問題的方法方面,與人類完全不同。基本上,強化學習代理就是一張白紙,我們只為其提供在特定環(huán)境中能夠執(zhí)行的一組基本操作。接下來,AI會不斷自行嘗試,通過反復試驗來學習如何獲取最高獎勵(例如盡可能在游戲中取勝)。
當問題空間比較簡單,而且我們擁有充足的計算能力以運行更多不斷重復的試驗性會話時,這類模型就能正常起效。在大多數(shù)情況下,強化學習代理要耗費大量時間以掌握游戲精髓,而巨大的成本也意味著這類技術(shù)只能存在于高科技企業(yè)內(nèi)部或者由其資助的研究實驗室當中。
強化學習系統(tǒng)的另一大短板體現(xiàn)在遷移學習方面。如果要游玩《魔獸爭霸3》,那么即使是已經(jīng)精通了《星際爭霸2》的代理,也需要從零開始接受訓練。實際上,即使對《星際爭霸2》游戲環(huán)境做出一點點微小發(fā)動,亦會嚴重影響AI的實際表現(xiàn)。相反,人類非常擅長從一款游戲中提取抽象概念,并快速將其遷移至新的游戲當中。
強化學習在解決無法準確模擬的現(xiàn)實問題時,同樣顯示出強烈的局限性。LeCun提到,“如果想要訓練一輛無人駕駛汽車,我們該怎么辦?”這類使用場景確實很難準確模擬,因此為了開發(fā)出一臺真正具備無人駕駛能力的汽車,“我們恐怕得撞毀很多很多汽車?!倍遗c模擬環(huán)境不同,我們無法在現(xiàn)實場景中快速進行實驗,更遑論由現(xiàn)實實驗帶來的巨大成本。
首先,我們需要開發(fā)出能夠利用更少樣本或者更少試驗學習完成訓練的AI系統(tǒng)。LeCun指出,“我的建議是使用無監(jiān)督學習,我個人更傾向于稱其為自我監(jiān)督學習,因為其中用到的算法仍然類似于監(jiān)督學習,只是監(jiān)督學習的作用主要在于填補空白。總而言之,在學習任務之前,系統(tǒng)需要首先了解這個世界。嬰兒或者小動物都是這樣成長的。我們首先接觸這個世界、理解其運作規(guī)律,而后才考慮如何解決具體任務。只要能看懂這個世界,那么學習新任務就只需要很少的試驗與樣本量。”
嬰兒在出生后的前幾個月內(nèi),會快速建立起關(guān)于引力、尺寸與物體性狀的概念。雖然研究人員還無法確定其中有多少屬性與大腦建立起硬連接、又存在多少具體認知,但可以肯定的是,我們?nèi)祟愂紫扔^察周邊世界、而后才實際行動并與之交互。
第二項挑戰(zhàn)在于構(gòu)建起具備推理能力的深度學習系統(tǒng)。眾所周知,現(xiàn)有深度學習系統(tǒng)的推理與推理能力相當捉急,因此需要大量數(shù)據(jù)才能解決那些最簡單的任務。LeCun指出,“問題在于,我們要如何超越現(xiàn)有前饋計算與系統(tǒng)1?我們要如何讓推理與基于梯度的學習方式相兼容?我們要如何在推理中實現(xiàn)差異性?這些都是最基本的問題?!?/p>
系統(tǒng)1是指那些不需要主動思考的學習任務,例如在已知區(qū)域內(nèi)導航或者進行少量計算。系統(tǒng)2則代表一種較為活躍的思維方式,需要推理能力的支持。作為AI領域的經(jīng)典方案,象征性人工智能已經(jīng)在推理與抽象領域帶來廣受好評的能力提升。
但LeCun并不建議人們廣泛采用這些備受科學家推崇的象征性AI或者混合人工智能系統(tǒng)。對于AI未來的發(fā)展愿景,他的思路與另一位深度學習先驅(qū)Yoshua Bengio更為接近。他在NeurIPS 2019大會上介紹了系統(tǒng)2深度學習的概念,并在AAAI 2020大會上做出進一步討論。但LeCun也坦言,在實現(xiàn)深度學習系統(tǒng)的推理能力方面,“并不存在一種完美的答案”。
第三大挑戰(zhàn)在于如何建立深度學習系統(tǒng),確保其能夠?qū)W習并規(guī)劃復雜的行動序列,進而將任務拆分為多個子任務。深度學習系統(tǒng)擅長為問題提供端到端解決方案,但卻很難將其分解為可解釋且可修改的特定步驟。目前,業(yè)界已經(jīng)在AI系統(tǒng)對圖像、語音及文本的分解方面取得一定進展,由Geoffry Hinton發(fā)明的膠囊網(wǎng)絡成功解決了其中一部分難題。
但學習復雜的推理任務仍然遠超現(xiàn)有AI的能力上限。LeCun承認,“我們不知道要如何實現(xiàn)這種能力?!弊晕冶O(jiān)督學習的基本思路,是開發(fā)出一種能夠填補上述空白的深度學習系統(tǒng)。LeCun解釋道,“我們只需要向此類系統(tǒng)展示輸入、文本、視頻甚至是圖像,而后剔除出其中一部分,由經(jīng)過訓練的神經(jīng)網(wǎng)絡或者您選定的類或模型預測這些缺失的部分。預測對象可以是視頻內(nèi)容的后續(xù)走向,也可以是文本中缺少的詞匯?!?/p>
目前市面上最接近自我監(jiān)督學習系統(tǒng)的當數(shù)Transformers,這是一種在自然語言處理領域大放異彩的架構(gòu)方案。Transformers不需要標記數(shù)據(jù),它們可以通過維基百科等資料進行大規(guī)模非結(jié)構(gòu)化文本訓練。而且事實證明,與之前的同類系統(tǒng)相比,Transformers在生成文本、組織對話以及建立回復內(nèi)容方面擁有更好的表現(xiàn)。(但它們?nèi)匀粺o法真正理解人類語言。)
Transformers已經(jīng)相當流行,并成為幾乎一切最新語言模型的基礎技術(shù),具體包括谷歌的BERT、Facebook的RoBERTa、OpenAI的GPT2以及谷歌的Meena聊天機器人。最近,AI研究人員還證明,Transformers能夠進行積分運算并求解微分議程——換言之,它已經(jīng)展現(xiàn)出解決符號處理問題的能力。這可能暗示著Transformers的發(fā)展最終有望推動神經(jīng)網(wǎng)絡突破模式識別與近似任務統(tǒng)計等傳統(tǒng)應用的樊籬。
截至目前,Transformers已經(jīng)證明了自己在處理離散數(shù)據(jù)(例如單詞與數(shù)學符號)方面的價值。LeCun指出,“訓練這類系統(tǒng)比較簡單,因為雖然單詞遺漏可能造成一定程度的不確定性,但我們可以利用完整詞典中的巨大概率矢量來表達這種不確定性,所以問題不大?!?/p>
但Transformers還沒能將自己的威力引入視覺數(shù)據(jù)領域。LeCun解釋稱,“事實證明,在圖像與視頻中表達不確定性并做出預測,其難度要遠高于文本層面的不確定性表達與預測。這是因為圖像與視頻內(nèi)容并非離散存在。我們可以根據(jù)詞典生成所有單詞的分布情況,但卻不可能表達所有潛在視頻幀的分布情況?!?/p>
對于每個視頻片段,都存在著無數(shù)種可能的后續(xù)情況。這就導致AI系統(tǒng)很難預測出特定結(jié)果,例如視頻內(nèi)接下來幾幀所展示的畫面。神經(jīng)網(wǎng)絡只能計算出可能結(jié)果的平均值,并據(jù)此輸出非常模糊的影像。LeCun指出,“如果要將自我監(jiān)督學習應用于視頻等多種形式,首先得解決這個核心技術(shù)問題。”
LeCun個人最偏好的監(jiān)督學習方法,是所謂“基于能量的潛在變量模型”。其中的核心思路在于引入一個潛在變量Z,該變量用于計算變量X(視頻中的當前幀)與預測Y(視頻的未來幀)之間的兼容性,并選擇具有最佳兼容性得分的結(jié)果。LeCun也在演講中進一步闡述了基于能量的模型與自我監(jiān)督學習的實現(xiàn)方法。
? ? ?