Facebook CTO:人工智能對VR發(fā)展至關(guān)重要
北京時間11月14日消息,現(xiàn)在我們已經(jīng)可以將神經(jīng)網(wǎng)絡(luò)放在掌中使用。上周,F(xiàn)acebook推出一個新工具,叫作“Style Transfer”,它可以實時為手機(jī)視頻添加視覺效果。處理之后,視頻的風(fēng)格與《辛普森一家》、凡高畫作有些類似,新工具正是利用AI(人工智能)技術(shù)才能做到這點,一般來說,AI需要大理服務(wù)器才能運(yùn)行。去年,谷歌為“谷歌翻譯”程序引進(jìn)了神經(jīng)網(wǎng)絡(luò)技術(shù),現(xiàn)在Facebook已經(jīng)開發(fā)了一個名為 “Caffe2Go”的深度學(xué)習(xí)系統(tǒng),該系統(tǒng)高度濃縮,可以在iOS、Android移動APP上運(yùn)行。
最近,F(xiàn)acebook CTO邁克·斯拉洛普夫(Mike Schroepfer)接受了《新科學(xué)人》的采訪,他談到了公司AI技術(shù)的發(fā)展,AI對溝通的影響,F(xiàn)acebook News Feed(信息流)受到了AI的影響,VR也受到了AI的影響。
下面是對話全文:
問:要讓神經(jīng)網(wǎng)絡(luò)在移動設(shè)備上運(yùn)行,需要足夠高的效率,如何才能做到呢?
答:神經(jīng)網(wǎng)絡(luò)是一系列步驟的結(jié)果,在每一個步驟都會處理信息,為下一個步驟提供內(nèi)容,站在算法角度看,我們擁有一個目標(biāo):得到同樣的結(jié)果,但是要將步驟的數(shù)量降到最小。開發(fā)更小的模型,生成相似的結(jié)果,這就是算法所面臨的挑戰(zhàn)。
專門針對移動設(shè)備優(yōu)化算法,這是第二部分。即使擁有更小的神經(jīng)網(wǎng)絡(luò)模型,如果直接拿過來植入移動手機(jī),效果也不好。我們必須讓科學(xué)家配對,一些人尋找辦法壓縮模型,一些人擅長在芯片層面做優(yōu)化,一些人嘗試了許多不同的技術(shù),優(yōu)化各個部分,讓算法在手機(jī)上跑得更快,我們要將這些人配對。
問:修改視頻,讓它變得更像藝術(shù)品,這樣做的確有趣,我們還能用AI做其它事情嗎?
答:看起來似乎只是為了好玩,甚至有些愚蠢,實際不是的,我們之所以關(guān)注這一點有一個重要的原因:當(dāng)你開發(fā)一些新東西,延遲會將有趣的東西變成難以處理的東西。因為時間延遲的不同,產(chǎn)品要么有趣,要么有創(chuàng)造力,或者干脆無法使用。
除此之外還有其它一些原因。我們制作了一些演示樣本,在樣本中,你可以將應(yīng)用程序與目標(biāo)偵測結(jié)合起來,如果想為視頻的前景和背景添加不同的效果,你完全可以做到。
問:Facebook訓(xùn)練的神經(jīng)網(wǎng)絡(luò)還用在什么地方?
答:用在許多不同的地方。比如用在翻譯中,每天用戶上傳幾十億張圖片,我們用神經(jīng)網(wǎng)絡(luò)給圖片添加題注,如果你的視力有問題,希望圖片可以告訴你它是什么,神經(jīng)網(wǎng)絡(luò)可以實現(xiàn)。在信息流排序時,我們也用到了神經(jīng)網(wǎng)絡(luò),你看到的故事可能會有成千上萬條,但真正閱讀的只有10條、20條或者30條,我們要向你展示最好的故事。我們還用神經(jīng)網(wǎng)絡(luò)偵測垃圾郵件,如果有人在Facebook分享一個鏈接,這個鏈接已經(jīng)失效,我們可以發(fā)現(xiàn),然后刪除它。
問:你之前曾經(jīng)表示,VR將會在社交互動中扮演重要角色。Facebook AI能夠幫上忙嗎?
答:要讓VR實用,AI是一門關(guān)鍵技術(shù)。在真實世界中,我們需要搞清頭部、手的位置,將它們的位置在VR世界中繪制出來,這就涉及到計算機(jī)視覺與VR的問題。如果沒有它們,系統(tǒng)無法運(yùn)行。今天我們已經(jīng)可以實現(xiàn),但在10年與20年之前,你很難做到。
我們不妨思考一個更深入的問題:如何將真實的替身放進(jìn)VR世界。舉個例子,我們與某個人呆在VR世界,他在笑,我必須偵測到他的笑,VR中的替身也應(yīng)該笑。當(dāng)某人講話時,我們應(yīng)該分析語言表情,讓VR替身的嘴看起來跟真的一樣,和真人講話一樣,而不是毫無反應(yīng),沒有動作。如果在整個過程中VR替身很冷漠,我們就會缺少“存在感”。
從長遠(yuǎn)來看,未來所有的系統(tǒng)都會建立在智能代理之上,它們就是信息機(jī)器人,或者是家中可以交流的東西。將這些功能放在VR環(huán)境中再合適不過,因為它們可以為你導(dǎo)航,讓你穿過眾多的虛擬世界。你可以說:“嗨,帶我去火星。”或者說:“帶我去看看我的朋友Joe。”虛擬代理聽到命令就會帶你去,不需要點擊菜單,不需要移動按鈕。對于虛擬助手來說,VR是一個很適合的存在地,只是要實現(xiàn)有些遙遠(yuǎn)。
問:怎樣才能實現(xiàn)這一目標(biāo)?
答:在AI領(lǐng)域,語音識別的問題已經(jīng)得到了很好的解決,該技術(shù)已經(jīng)很不錯了,但是在AI領(lǐng)域還有一個更大的挑戰(zhàn):提高自然語言理解能力,消除歧義。當(dāng)我下達(dá)命令說:“帶我去火星。”到底是什么意思?它是某一款游戲嗎?是不是《火星救援》中的拖車?我說的到底是什么意思?對于AI來說這是一個難題。
如果系統(tǒng)很實用,知道我想要的到底是什么,那就顯得相當(dāng)強(qiáng)大,像魔法一樣。如果給出的答案是錯誤的,就會讓人很沮喪。正因如此,我們要開發(fā)一套系統(tǒng),讓它更實用,否則人們就不想要它。對于AI而言,這是一個問題:開發(fā)一套系統(tǒng),讓它可以按人類的方式理解語言。
問:等到某一天如果我們可以將神經(jīng)網(wǎng)絡(luò)裝進(jìn)口袋,那時會怎樣呢?你能描繪一下嗎?
答:有一種資源很寶貴,一但失去無法再獲得,它就是時間。日復(fù)一日,年復(fù)一年,時間不斷流逝,再也無法回來。有了AI,我們可以將時間用在自己更關(guān)注的事情上。我可以花時間多學(xué)3種語言,從而與家人更好溝通;如果有一套系統(tǒng),它可以自動翻譯,我就沒有必要學(xué)習(xí),我會有更多的時間與家人相處,我也可以將時間利用起來創(chuàng)作音樂,追求個人愛好,或者工作,做什么事情都行。
我有一個希望,讓人們不再將時間浪費(fèi)在無關(guān)重要的事情上,因為我們擁有一套系統(tǒng),它可以照看我們,讓我們專注于自己最關(guān)心的事情。(編譯/虎濤)