人工智能是否能看懂地圖
地圖是人類構造的。通過地圖這一媒介,人們可以通過空間的表現(xiàn)方式來認識空間。地圖中的符號和描述語言都是通用的,因此人類在熟悉的或者陌生的地方都可以使用地圖來導航。這是一項重要的技能,目前軍方仍然在使用指南針和地圖訓練導航能力。
試想一下,如果人工智能能以同樣的方式閱讀和跟蹤地圖會怎么樣呢?
《街道導航的跨視角政策學習》DeepMind(一家總部位于英國的人工智能公司,與谷歌同屬于Alphabet)6月13日發(fā)表了名為《街道導航的跨視角政策學習》(Cross-View Policy Learning for Street Navigation)的一份報告。這份報告是對一項實驗的評估,目的是測試人工智能能否通過使用地圖來訓練導航,而不需要像自主導航工具那樣為其繪制大量路線。
報告作者指出,“目標驅動的街道導航代理到目前為止還不能在沒有經過大量再培訓的情況下轉移到不可見的區(qū)域,而且依賴模擬并不是一個可擴展的解決方案,由于航空圖像很容易在全球范圍內獲取,因此我們建議對地面和空中視圖訓練一種多模式的方法,然后利用空中視圖觀測將地面視圖方法轉移到城市中不可見的(目標)部分。”
這種方法與自動駕駛汽車導航算法訓練方式的不同之處在于,它增加了自上向下的地圖作為參考點,并且在導航模型中使用了全新的信息。傳統(tǒng)的自主導航算法是通過已經繪制好的圖像來運行的,這些圖像是儲存在機器人大腦中的掃描數(shù)據(jù),用來教它如何在熟悉的道路上行駛。
研究人員寫道:“人類通過閱讀地圖就能快速了解一個新城市,這一發(fā)現(xiàn)啟發(fā)了我們,我們試圖將類似的自上而下的視覺信息整合到導航代理的訓練過程中,以幫助它們推廣到以前從未見過的街道上。我們沒有使用人類繪制的地圖,而是選擇了航空圖像,因為它在世界各地都很容易獲得。此外,一旦人們熟悉了一個環(huán)境就可以不用地圖了。這種人類的多樣性激發(fā)了我們對靈活的RL代理的培訓工作,這些代理既可以使用第一人稱視圖,也可以使用自上向下的視圖來執(zhí)行?!?/p> 測試過程
為了測試這種新方法,人工智能在一個陌生的地方模擬運行,選擇向前走、向左或向右轉、向左或向右轉到更大程度。人工智能使用全景街景圖像對周圍的環(huán)境導航,有時使用地圖視圖運行。在實驗中,使用地圖視圖的人工智能比不使用地圖視圖的人工智能更容易成功地導航到它需要到達的地方。
對于可使用精確數(shù)據(jù)的陌生區(qū)域,使用這樣的算法指導軍用車輛是很有用的。盡管在地球上幾乎所有地方都能獲得一些高質量的衛(wèi)星影像,但街道級的影像——尤其是用激光雷達繪制的街道級影像,以及用驅動算法迭代的影像,則要少得多。與預先精確模擬的路徑相比,基于自己的傳感器和地圖來教機器人在太空中行走的工作量要小得多,而且更匹配大多數(shù)遠程控制和自主系統(tǒng)目前的能力。從本質上講,它只是實現(xiàn)了人類在GPS下拉菜單上選擇路徑點的功能,唯一的好處是,人工智能可以自己導航,而且是獨立于GPS設計的。DARPA正在尋找能夠基于精確數(shù)據(jù)提供軍事用途的人工智能,DeepMind的地圖學習導航工具可能會滿足類似的需求。
DeepMind的研究人員在論文的開頭和結尾都講了件趣事:歐內斯特·沙克爾頓(Ernest Shackleton)的團隊如何首先使用一張地圖,然后當?shù)貓D失效時,用地圖的記憶繪制一條從廢墟中出來的道路。
對于沙克爾頓來說,地圖的記憶是一種逃避未知的工具。對于五角大樓來說,能夠讀取地圖的人工智能則可能是一種挑戰(zhàn)未知的方式。