當前位置：首頁 > 公眾號精選 > AI科技大本營

DeepMind?的新強化學習系統(tǒng)是邁向通用?AI?的一步嗎？

時間：2021-10-14 17:03:22

關(guān)鍵字： AI

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀]作者|?BenDickson來源?|數(shù)據(jù)實戰(zhàn)派這篇文章是我們對AI研究論文評論的一部分，這是一系列探索人工智能最新發(fā)現(xiàn)的文章。對于已經(jīng)精通圍棋、星際爭霸2和其他游戲的深度強化學習模型來說，人工智能系統(tǒng)的主要挑戰(zhàn)之一是它們無法將其能力泛化到訓(xùn)練領(lǐng)域之外。這種限制使得將這些系統(tǒng)應(yīng)用到...

作者 | Ben Dickson

來源 | 數(shù)據(jù)實戰(zhàn)派

這篇文章是我們對 AI 研究論文評論的一部分，這是一系列探索人工智能最新發(fā)現(xiàn)的文章。

對于已經(jīng)精通圍棋、星際爭霸 2 和其他游戲的深度強化學習模型來說，人工智能系統(tǒng)的主要挑戰(zhàn)之一是它們無法將其能力泛化到訓(xùn)練領(lǐng)域之外。這種限制使得將這些系統(tǒng)應(yīng)用到現(xiàn)實世界中變得非常困難，在現(xiàn)實世界中，情況比訓(xùn)練 AI 模型的環(huán)境復(fù)雜得多且不可預(yù)測。

最近，DeepMind 人工智能研究實驗室的科學家根據(jù)一篇新的“開放式學習”倡議的博客文章中，聲稱已經(jīng)采取了“初步來訓(xùn)練一個能夠在不需要人類交互數(shù)據(jù)的情況下，玩許多不同游戲的代理”。他們的新項目包括一個具有真實動態(tài)的 3D 環(huán)境和可以學習解決各種挑戰(zhàn)的深度強化學習代理。

根據(jù) DeepMind 的人工智能研究人員的說法，新系統(tǒng)是“創(chuàng)建更通用的代理邁出的重要一步，該代理具有在不斷變化的環(huán)境中快速適應(yīng)的靈活性?！?/span>

該論文的發(fā)現(xiàn)表明，在將強化學習應(yīng)用于復(fù)雜問題方面取得了一些令人印象深刻的進步。但它們也提醒人們，當前的系統(tǒng)距離實現(xiàn)人工智能社區(qū)幾十年來直夢寐以求的通用智能能力還有多遠。

深度強化學習的脆弱性

強化學習的主要優(yōu)勢在于可以在執(zhí)行動作和獲得反饋來發(fā)展行為的能力，類似于人類和動物通過與環(huán)境互動來學習的方式類似。一些科學家將強化學習描述為“首個智能計算理論”。

強化學習和深度神經(jīng)網(wǎng)絡(luò)的結(jié)合，稱為深度強化學習，是包括 DeepMind 著名的 AlphaGo 和 AlphaStar 模型在內(nèi)的許多強化 AI 的核心。在這兩種情況下，人工智能系統(tǒng)都能夠在各自的比賽中擊敗人類世界冠軍。

但強化學習系統(tǒng)的靈活性不足也是眾所周知的缺陷。例如，可以在專家級別玩星際爭霸 2 的強化學習模型將無法在任何能力級別玩具有類似機制的游戲（例如，魔獸爭霸 3）。即使對原始游戲稍有改動，也會大大降低 AI 模型的性能。

“這些智能體通常被限制只能玩他們接受過訓(xùn)練的游戲，雖然游戲的布局、初始條件、對手可能會變化，智能體必須滿足的目標在訓(xùn)練和測試之間保持不變。偏離這一點可能會導(dǎo)致代理的災(zāi)難性失敗，”DeepMind 的研究人員在一篇論文中寫道，該論文提供了有關(guān)其開放式學習的全部細節(jié)。另一方面，人類非常擅長跨領(lǐng)域轉(zhuǎn)移知識。

XLand 環(huán)境

DeepMind 新項目的目標是創(chuàng)建“一個人工智能，其行為的概括超出了它所訓(xùn)練的游戲集?！?/span>

為此，該團隊創(chuàng)建了 XLand，這是一個可以生成由靜態(tài)拓撲和可移動對象組成的 3D 環(huán)境的引擎。游戲引擎模擬了剛體物理學，并允許玩家以各種方式使用對象（例如，創(chuàng)建斜坡、塊路徑等）。

XLand 是一個豐富的環(huán)境，可以在其中訓(xùn)練代理執(zhí)行幾乎無限數(shù)量的任務(wù)。XLand 的主要優(yōu)勢之一是能夠使用程序化規(guī)則自動生成大量環(huán)境和挑戰(zhàn)來訓(xùn)練 AI 代理。這解決了機器學習系統(tǒng)的主要挑戰(zhàn)之一，該系統(tǒng)通常需要大量手動策劃的訓(xùn)練數(shù)據(jù)。

根據(jù)博客文章，研究人員“在 XLand 中創(chuàng)建了數(shù)十億個任務(wù)，跨越不同的游戲、世界和玩家?！边@些游戲包括非常簡單的目標，例如在更復(fù)雜的設(shè)置中尋找對象，其中 AI 代理會權(quán)衡不同獎勵的收益和權(quán)衡。一些游戲包括涉及多個代理的合作或競爭元素。

深度強化學習

DeepMind 使用深度強化學習和一些聰明的技巧來創(chuàng)建可以在 XLand 環(huán)境中茁壯成長的 AI 代理。

每個代理的強化學習模型接收世界的第一人稱視角、代理的物理狀態(tài)（例如，是否持有對象）及其當前目標。每個代理微調(diào)其策略神經(jīng)網(wǎng)絡(luò)的參數(shù)，以最大限度地提高當前任務(wù)的回報。神經(jīng)網(wǎng)絡(luò)架構(gòu)包含一個注意力機制，以確保代理可以平衡完成主要目標所需的子目標的優(yōu)化。

一旦代理掌握了當前的挑戰(zhàn)，計算任務(wù)生成器就會為代理創(chuàng)建一個新的挑戰(zhàn)。每個新任務(wù)都是根據(jù)代理的訓(xùn)練歷史生成的，并有助于在各種挑戰(zhàn)中分配代理的技能。

DeepMind 還使用其龐大的計算資源對大量代理進行并行培訓(xùn)，并在不同的代理之間傳輸學習參數(shù)，以提高強化學習系統(tǒng)的一般能力。

DEEPMind使用多步驟和基于人群的機制來培訓(xùn)許多強化學習代理

強化學習代理的性能是根據(jù)它們完成未經(jīng)訓(xùn)練的各種任務(wù)的一般能力來評估的。一些測試任務(wù)包括眾所周知的挑戰(zhàn)，例如“奪旗”和“捉迷藏”。

根據(jù) DeepMind 的說法，每個代理在 XLand 的 4,000 個獨特世界中玩了大約 700,000 個獨特的游戲，并在 340 萬個獨特任務(wù)中經(jīng)歷了 2000 億個訓(xùn)練步驟（在論文中，研究人員寫道，1 億個步驟相當于大約 30 分鐘的訓(xùn)練） .

AI 研究人員寫道：“此時，我們的代理已經(jīng)能夠參與每一個程序生成的評估任務(wù)，除了少數(shù)甚至對人類來說都是不可能的?！?“而且我們看到的結(jié)果清楚地展示了整個任務(wù)空間的一般零樣本行為?！?/span>

零樣本機器學習模型可以解決訓(xùn)練數(shù)據(jù)集中不存在的問題。在 XLand 等復(fù)雜空間中，零樣本學習可能意味著代理已經(jīng)獲得了有關(guān)其環(huán)境的基本知識，而不是記住特定任務(wù)和環(huán)境中的圖像幀序列。

當研究人員試圖為新任務(wù)調(diào)整它們時，強化學習代理進一步表現(xiàn)出廣義學習的跡象。根據(jù)他們的發(fā)現(xiàn)，對新任務(wù)進行 30 分鐘的微調(diào)，足以在使用新方法訓(xùn)練的強化學習代理中產(chǎn)生令人印象深刻的改進。相比之下，在相同時間內(nèi)從頭開始訓(xùn)練的代理在大多數(shù)任務(wù)上的性能接近于零。

高級行為

根據(jù) DeepMind 的說法，強化學習代理表現(xiàn)出“啟發(fā)式行為”的出現(xiàn)，例如工具使用、團隊合作和多步計劃。如果得到證實，這可能是一個重要的里程碑。深度學習系統(tǒng)經(jīng)常因?qū)W習統(tǒng)計相關(guān)性而不是因果關(guān)系而受到批評。如果神經(jīng)網(wǎng)絡(luò)能夠開發(fā)出高級概念，例如使用對象來創(chuàng)建斜坡或?qū)е抡趽?，它可能會對機器人和自動駕駛汽車等領(lǐng)域產(chǎn)生重大影響，而這些領(lǐng)域目前深度學習正在苦苦掙扎。

但這些都是重要的假設(shè)，DeepMind 的研究人員對就他們的發(fā)現(xiàn)得出結(jié)論持謹慎態(tài)度。他們在博文中寫道：“鑒于環(huán)境的性質(zhì)，很難確定意圖——我們看到的行為經(jīng)?？雌饋硎桥既坏?，但我們?nèi)匀豢吹剿鼈兪冀K如一地發(fā)生?！?/span>

但是他們相信他們的強化學習代理“了解他們身體的基本知識和時間的流逝，并且他們了解他們遇到的游戲的高級結(jié)構(gòu)。”

這種基本的自學技能是人工智能社區(qū)備受追捧的另一個目標。

智力理論

DeepMind 的一些頂尖科學家最近發(fā)表了一篇論文，其中他們假設(shè)單一獎勵和強化學習足以最終實現(xiàn)通用人工智能 (AGI)?？茖W家們認為，一個具有正確激勵機制的智能代理可以開發(fā)各種能力，例如感知和自然語言理解。

盡管 DeepMind 的新方法仍然需要在多個工程獎勵上訓(xùn)練強化學習代理，但這符合他們通過強化學習實現(xiàn) AGI 的一般觀點。

Pathmind 的首席執(zhí)行官 Chris Nicholson 告訴 TechTalks：“DeepMind 在這篇論文中表明，單個 RL 代理可以開發(fā)智能以實現(xiàn)多個目標，而不僅僅是一個目標，” “它在完成一件事時學到的技能可以推廣到其他目標。這與人類智能的應(yīng)用方式非常相似。例如，我們學習抓取和操縱物體，這是實現(xiàn)從敲錘子到鋪床的目標的基礎(chǔ)?！?/span>

Nicholson 還認為，該論文發(fā)現(xiàn)的其他方面暗示了通向智能的進展?！凹议L們會認識到，開放式探索正是他們的孩子學會在世界中穿行的方式。他們從柜子里拿出一些東西，然后把它放回去。他們發(fā)明了自己的小目標——這對成年人來說可能毫無意義——然后他們掌握了這些目標，”他說。“DeepMind 正在以編程方式為其代理在這個世界上設(shè)定目標，而這些代理正在學習如何一一掌握它們?！?/span>

Nicholson 說，強化學習代理也顯示出在他們自己的虛擬世界中開發(fā)具身智能的跡象，就像人類一樣。“這又一次表明，人們學習穿越和操縱的豐富而可塑的環(huán)境有利于通用智能的出現(xiàn)，智能的生物學和物理類比可以指導(dǎo)人工智能的進一步工作，”他說。

南加州大學計算機科學副教授 Sathyanaraya Raghavachary 對 DeepMind 論文中的主張持懷疑態(tài)度，尤其是關(guān)于本體感覺、時間意識以及對目標和環(huán)境的高級理解的結(jié)論。

“即使我們?nèi)祟愐矝]有完全意識到我們的身體，更不用說那些 VR 代理了，” Raghavachary 在對 TechTalks 的評論中說，并補充說，對身體的感知需要一個集成的大腦，該大腦被共同設(shè)計以實現(xiàn)合適的身體意識和空間位置。“與時間的流逝一樣——這也需要一個對過去有記憶的大腦，以及與過去相關(guān)的時間感。他們（論文作者）的意思可能與代理跟蹤由他們的行為（例如，由于移動紫色金字塔）導(dǎo)致的環(huán)境中的漸進變化，底層物理模擬器將產(chǎn)生的狀態(tài)變化有關(guān)。

Raghavachary 還指出，如果代理能夠理解他們?nèi)蝿?wù)的高層結(jié)構(gòu)，他們就不需要 2000 億步的模擬訓(xùn)練來達到最佳結(jié)果。

“底層架構(gòu)缺乏實現(xiàn)他們在結(jié)論中指出的這三件事（身體意識、時間流逝、理解高級任務(wù)結(jié)構(gòu)）所需的東西，”他說?！翱偟膩碚f，XLand 只是‘大同小異’?！?/span>

模擬與現(xiàn)實世界的差距

簡而言之，這篇論文證明，如果你能夠創(chuàng)建一個足夠復(fù)雜的環(huán)境，設(shè)計正確的強化學習架構(gòu)，并讓你的模型獲得足夠的經(jīng)驗（并且有很多錢可以花在計算資源上），你將能夠泛化到同一環(huán)境中的各種任務(wù)。這基本上就是自然進化賦予人類和動物智能的方式。

事實上，DeepMind 已經(jīng)對 AlphaZero 做了類似的事情，AlphaZero 是一種強化學習模型，能夠掌握多個兩人回合制游戲。XLand 實驗通過添加零樣本學習元素將相同的概念擴展到更高的水平。

但是，雖然我認為 XLand 訓(xùn)練的代理的經(jīng)驗最終會轉(zhuǎn)移到現(xiàn)實世界的應(yīng)用中，例如機器人和自動駕駛汽車，但我認為這不會是一個突破。您仍然需要做出妥協(xié)（例如創(chuàng)建人為限制以降低現(xiàn)實世界的復(fù)雜性）或創(chuàng)建人為增強（例如將先驗知識或額外傳感器注入機器學習模型）。

DeepMind 的強化學習代理可能已經(jīng)成為虛擬 XLand 的主人。但是他們的模擬世界甚至沒有真實世界的一小部分復(fù)雜性。在很長一段時間內(nèi)，這種差距仍將是一個挑戰(zhàn)。

參考鏈接：

https://bdtechtalks.com/2021/08/02/deepmind-xland-deep-reinforcement-learning/

本站聲明：本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點，本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系本站刪除。

換一批

阿維塔、賽力斯已入股！華為引望可能成“中國博世”

9月2日消息，不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司，隨著阿維塔和賽力斯的入局，華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字：阿維塔塞力斯華為

[美通社全球TMT]

Trianz與AWS達成戰(zhàn)略合作協(xié)議，徹底改變云采用和管理方式

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布，該公司與Amazon Web Services （AWS）簽訂了...

關(guān)鍵字： AWS AN BSP 數(shù)字化

[美通社全球TMT]

人工智能驅(qū)動工具SODA V將顛覆汽車市場，使汽車開發(fā)時間和成本降低90%

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V，這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具，可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字：汽車人工智能智能驅(qū)動 BSP

[美通社全球TMT]

從容應(yīng)對未知風險----解密亞馬遜云科技的韌性之道

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行，同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風險，如企業(yè)系統(tǒng)復(fù)雜性的增加，頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性，提升韌性，成...

關(guān)鍵字：亞馬遜解密控制平面 BSP

[通信先鋒]

中國游戲市場開始復(fù)蘇！騰訊、網(wǎng)易等巨頭縮減在日本投資

8月30日消息，據(jù)媒體報道，騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字：騰訊編碼器 CPU

[通信先鋒]

獨立自主！華為董事：致力打造不依賴西方的技術(shù)

8月28日消息，今天上午，2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行，華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字：華為 12nm EDA 半導(dǎo)體

[通信先鋒]

華為張平安：數(shù)字世界話語權(quán)最終由生態(tài)繁榮決定！

8月28日消息，在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上，華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱，數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字：華為 12nm 手機衛(wèi)星通信

[美通社全球TMT]

中國通信服務(wù)公布2024年中期業(yè)績

要點：有效應(yīng)對環(huán)境變化，經(jīng)營業(yè)績穩(wěn)中有升落實提質(zhì)增效舉措，毛利潤率延續(xù)升勢戰(zhàn)略布局成效顯著，戰(zhàn)新業(yè)務(wù)引領(lǐng)增長以科技創(chuàng)新為引領(lǐng)，提升企業(yè)核心競爭力堅持高質(zhì)量發(fā)展策略，塑強核心競爭優(yōu)勢...

關(guān)鍵字：通信 BSP 電信運營商數(shù)字經(jīng)濟

[美通社全球TMT]

NVI技術(shù)創(chuàng)新聯(lián)盟成立！自主生態(tài)將帶動產(chǎn)業(yè)鏈高速發(fā)展

北京2024年8月27日 /美通社/ -- 8月21日，由中央廣播電視總臺與中國電影電視技術(shù)學會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字： VI 傳輸協(xié)議音頻 BSP

[美通社全球TMT]