機器有大腦嗎?當然沒有,即便有,也是人類植入的,它始終還是需要人類操控。但是,一旦它們掌握了人類的某種能力,其爆發(fā)出來的潛能將是不可限量和估計的。近日,美國麻省理工學院的AI科學家,發(fā)明了一個系統(tǒng),使得機器人能夠像人類一樣模擬接下來可能發(fā)生的事情,并自動生成一個短視頻,其真實程度比人類自己在大腦中想象的還要逼真。
一種新的人工智能系統(tǒng)能夠用靜態(tài)圖像生成短視頻,這些視頻能夠模擬接下來發(fā)生的事,這就好像人類想象接下來將會看到的情景一樣。
人類能夠直覺地理解世界運作的方式。這使得人比機器更容易預測事件接下來將如何發(fā)展。一張靜態(tài)圖像中的物體可以用多種不同方式運動,或者和其他物體發(fā)生作用,這讓機器很難做出類似的預測。不過,一種新型的深度學習系統(tǒng)(deep-learning system)創(chuàng)造出的短視頻卻能夠讓人信以為真。和真實的視頻片段相比,在20%的情況下,人類更相信它創(chuàng)造出的視頻。
該深度學習系統(tǒng)的發(fā)明者是麻省理工學院(MIT)的研究人員。他們讓兩種神經(jīng)網(wǎng)絡互相競爭,其中一個要區(qū)分真實的視頻和機器創(chuàng)造的視頻,而另一個則要創(chuàng)造出能夠打敗第一個系統(tǒng)的近乎真實的視頻。
這種方法叫做“生成式對抗網(wǎng)絡”(generative adversarial network,GAN),兩個系統(tǒng)互相競爭,生成了愈發(fā)真實的視頻。當研究人員讓亞馬遜的Mechanical Turk網(wǎng)絡眾包平臺上征集的人員從兩種視頻中挑選真實的視頻時,這些人在20%的情況下挑選了機器合成的,而不是真實的視頻。
早期的問題
但是,剛剛?cè)胄械碾娪皩а葸€不用擔心這種機器會搶了自己的飯碗,因為這些視頻的長度只有1~1.5秒,而且像素只有64 x 64。研究人員認為,這種方法最終能夠幫助機器人和自動駕駛汽車在復雜的環(huán)境中導航,也能幫助它們和人類互動,或者讓Facebook為視頻自動添加描述內(nèi)容的標簽。
“我們的算法會預測未來,然后生成極為真實的視頻。這說明在某種程度上它能夠理解現(xiàn)在發(fā)生的事,”該研究的主要負責人,MIT計算機科學和人工智能實驗室的博士研究生 Carl Vondrick 表示,“我們的研究是一項振奮人心的進步,它說明計算機科學家能夠讓機器具有更高級的情境理解能力。”
研究人員表示,這種系統(tǒng)還可以在沒有人指導的情況下進行學習。這意味著該系統(tǒng)進行訓練所用的200萬個視頻(大約等于一年的長度)并不需要人類的標記。這能極大地減少訓練所需的時間,并能讓其適應新數(shù)據(jù)。
在西班牙巴塞羅那召開的神經(jīng)信息處理系統(tǒng)大會(Conference and Workshop on Neural Information Processing Systems)上,研究人員展示了他們的研究成果,解釋了他們是怎樣用海灘、火車站、醫(yī)院和高爾夫球場的視頻對該系統(tǒng)進行訓練的。
“我們發(fā)現(xiàn),早期的原型系統(tǒng)面臨的難點在于,模型預測視頻的背景將要變形扭曲,” Vondrick 表示。為了克服這個問題,他們調(diào)整了設計,讓系統(tǒng)學習獨立的靜態(tài)背景模型和動態(tài)前景模型,然后再把它們合起來制成視頻。
“這個計算機模型對世界是沒有任何預設的,它必須學習人的樣子、物體移動的方式和結(jié)果,”Vondrick表示,“我們的模型還沒有完全學成。如果能擴充它理解如物體之類的高級概念的能力,那么生成的視頻質(zhì)量將會顯著提高。”
Vondrick表示,未來的另一個挑戰(zhàn)是生成更長的視頻,因為這就需要系統(tǒng)花更長的時間去追蹤場景物體之間的更多關系。
“要完成這一任務,可能需要人類的輸入來幫助系統(tǒng)理解場景中的元素,因為讓它自己學習會比較艱難。”