一反過(guò)往的保密傳統(tǒng),蘋果旗下的人員可以自由投稿自己的AI研究成果
蘋果在月初曾表示,將會(huì)公開(kāi)發(fā)表他們的 AI 研究成果。而首份論文也在日前亮相,主題是電腦的“視覺(jué)辨識(shí)”。
這篇名為“Learning from Simulated and Unsupervised Images through Adversarial Training”的論文,內(nèi)容闡述了蘋果對(duì)圖片辨識(shí)的看法。傳統(tǒng)上讓電腦“學(xué)習(xí)”辨識(shí)影像,通常會(huì)使用電玩照之類的合成圖,而不是真實(shí)照片,原因是合成圖會(huì)編上預(yù)設(shè)的標(biāo)簽,比如“狗”。相比之下,直接看真實(shí)影像,電腦就需要先透過(guò)人工重新對(duì)照片中的物件下標(biāo)簽,再?gòu)囊黄尘袄锱袛喑?ldquo;狗”。這會(huì)導(dǎo)致辨識(shí)的效率下降很多。
不過(guò)這么一來(lái)也有個(gè)缺點(diǎn)。由于電腦平時(shí)“學(xué)習(xí)”看的圖片是合成影像,但事后要拿去辨識(shí)的卻是真實(shí)照片,導(dǎo)致這一類圖像辨識(shí)的演算法效果都差強(qiáng)人意。因此,蘋果的研究員在這篇論文想出的辦法,是讓合成圖更逼近真實(shí)。
這個(gè)方法首先是先建立兩組 AI 神經(jīng)網(wǎng)絡(luò),一組負(fù)責(zé)資料輸入(generator),另一組則是辨識(shí)器(discriminator),負(fù)責(zé)辨識(shí) generator 產(chǎn)制的資料,以及一般“學(xué)習(xí)用”的圖像,最后再讓兩組 AI 互相對(duì)抗,逼生更接近真實(shí)的影像。實(shí)際上,這樣的資料處理方式,就是 GeneraTIve Adversarial Networks(GANs)的基礎(chǔ)手法。
有趣的是,這批研究員有的是蘋果收購(gòu)來(lái)的新創(chuàng)公司成員,有的則來(lái)自大學(xué)。例如論文的共同作者 Joss Susskind,就是 EmoTIent 的創(chuàng)辦人。它們的技術(shù)是透過(guò) AI,從表情辨識(shí)人的情緒,但在今年一月時(shí)被蘋果收購(gòu)。蘋果的研究員亦表示,他們希望接下來(lái)可以從圖片進(jìn)展到影片辨識(shí)。
這篇論文是由康乃爾大學(xué)出版。蘋果在日前的宣布中,也開(kāi)放旗下的研究員或?qū)W者,可以自由投稿自己的 AI 研究成果,一反過(guò)往的保密傳統(tǒng)。
注:由于已經(jīng)公開(kāi)發(fā)布,短期內(nèi)應(yīng)該沒(méi)有引進(jìn)商用產(chǎn)品的想法。