蘋果在月初曾表示,將會公開發(fā)表他們的 AI 研究成果。而首份論文也在日前亮相,主題是電腦的“視覺辨識”。
這篇名為“Learning from Simulated and Unsupervised Images through Adversarial Training”的論文,內(nèi)容闡述了蘋果對圖片辨識的看法。傳統(tǒng)上讓電腦“學(xué)習(xí)”辨識影像,通常會使用電玩照之類的合成圖,而不是真實照片,原因是合成圖會編上預(yù)設(shè)的標簽,比如“狗”。相比之下,直接看真實影像,電腦就需要先透過人工重新對照片中的物件下標簽,再從一片背景里判斷出“狗”。這會導(dǎo)致辨識的效率下降很多。
不過這么一來也有個缺點。由于電腦平時“學(xué)習(xí)”看的圖片是合成影像,但事后要拿去辨識的卻是真實照片,導(dǎo)致這一類圖像辨識的演算法效果都差強人意。因此,蘋果的研究員在這篇論文想出的辦法,是讓合成圖更逼近真實。
這個方法首先是先建立兩組 AI 神經(jīng)網(wǎng)絡(luò),一組負責(zé)資料輸入(generator),另一組則是辨識器(discriminator),負責(zé)辨識 generator 產(chǎn)制的資料,以及一般“學(xué)習(xí)用”的圖像,最后再讓兩組 AI 互相對抗,逼生更接近真實的影像。實際上,這樣的資料處理方式,就是 GeneraTIve Adversarial Networks(GANs)的基礎(chǔ)手法。
有趣的是,這批研究員有的是蘋果收購來的新創(chuàng)公司成員,有的則來自大學(xué)。例如論文的共同作者 Joss Susskind,就是 EmoTIent 的創(chuàng)辦人。它們的技術(shù)是透過 AI,從表情辨識人的情緒,但在今年一月時被蘋果收購。蘋果的研究員亦表示,他們希望接下來可以從圖片進展到影片辨識。
這篇論文是由康乃爾大學(xué)出版。蘋果在日前的宣布中,也開放旗下的研究員或?qū)W者,可以自由投稿自己的 AI 研究成果,一反過往的保密傳統(tǒng)。
注:由于已經(jīng)公開發(fā)布,短期內(nèi)應(yīng)該沒有引進商用產(chǎn)品的想法。