谷歌研發(fā)深度學習系統(tǒng)模擬攝影師工作,獲得了專業(yè)評價
機器學習(ML)在許多目標明確的領(lǐng)域有優(yōu)秀的表現(xiàn)。具有明確正誤答案區(qū)分的任務將有助于訓練,而且能讓算法實現(xiàn)預設(shè)的目標,比如準確地從圖像中識別物體,或者合理的將語言進行翻譯。然而,也有許多領(lǐng)域的任務是很難客觀評價的,在諸如評價一張照片美麗與否這種太主觀的問題上時這與每個人的審美有關(guān),就不太適合用機器學習來解決了。
圖:賈斯珀國家公園的一張專業(yè)攝影照
為了研究機器學習是如何學習主觀概念的,Google針對藝術(shù)性的創(chuàng)作引入了一種試驗性的深度學習系統(tǒng)。這個系統(tǒng)會模仿專業(yè)攝影師來展開工作。它的工作流程如下:從谷歌街景中瀏覽景觀圖,分析出最佳的構(gòu)圖,然后進行各種后期處理,從而創(chuàng)造出一幅賞心悅目的圖像。
這位虛擬攝影師通過瀏覽阿爾卑斯山、加拿大的班夫及賈斯珀國家公園、加州BigSur和黃石國家公園等地的4萬張全景照片,創(chuàng)作了許多令人印象深刻的作品,其中一些甚至達到了專業(yè)水準專業(yè)攝影師如此評價到。
訓練模型雖然照片中的美感可以用類似AVA系統(tǒng)中的數(shù)據(jù)集來模擬,但是就這么直接的用AVA系統(tǒng)來處理照片,可能會在美感上有部分方面的缺失,比如做出的照片過飽和。再者,如果想通過監(jiān)督學習適當?shù)貜亩鄠€方面來學習美感,所需的標簽數(shù)據(jù)集會很難收集,所以這也不是一個好方法。
他們的方法只需要一些高質(zhì)量的照片,不需要后期前后圖像的對比或額外的標簽。這個系統(tǒng)能自動將照片中的美感解析成不同方面,每一方面都能通過相反的圖像操作產(chǎn)生的負面例子來單獨學習。
通過使圖像處理半正交化,可以找到快速和獨立的最優(yōu)化步驟,從構(gòu)圖、飽和度/HDR水平和明暗的張力上對圖像進行美化:
圖:圖(a)是全景圖,圖(b)將圖(a)進行裁切,圖(c)是對圖(b)進行飽和度和HDR優(yōu)化處理,圖(d)是應用戲劇張力蒙版之后的效果。
他們用傳統(tǒng)的圖像濾波器生成了包括飽和度、HDR細節(jié)和構(gòu)圖的負面例子,還引入了一種名為戲劇張力蒙版(dramaTIcmask)的特殊操作,它是在學習明暗張力概念的過程中一同產(chǎn)生的。
這些負面例子是這樣生成的:應用一組圖像濾波器,隨機地調(diào)整高質(zhì)量照片的亮度,將圖片的質(zhì)量變差。在訓練中,他們使用生成對抗網(wǎng)絡(GAN),在這種模式下,生成網(wǎng)絡會創(chuàng)建一個蒙版來改善負面例子中的光線,判別網(wǎng)絡則試圖將光線改善后的照片與樣本照片進行區(qū)分。
與vignette這樣的固定形狀濾波器(shape-fixedfilter)不同,戲劇張力蒙版增加了內(nèi)容感知亮度調(diào)節(jié)部分。GAN訓練天然的競爭性極大地豐富了調(diào)節(jié)圖像特性的能力,在論文中可以看到更多的訓練細節(jié)。
結(jié)果
下面是這種系統(tǒng)基于Google街景的一些創(chuàng)作。如下圖所示,經(jīng)過訓練后能夠判斷美感的濾波器創(chuàng)造出了一些讓人驚嘆的照片(包括文中最初出現(xiàn)的照片):
圖:加拿大,賈斯珀國家公園
圖:瑞士,茵特拉肯
圖:意大利,ParcodelleOrobieBergamasche公園
圖:加拿大,賈斯珀國家公園
專業(yè)評估為了評價這個算法的效果如何,他們設(shè)計了一個類“圖靈測試”實驗:將這個系統(tǒng)創(chuàng)作出來的照片和其他不同質(zhì)量的照片摻雜在一起,然后把它們展示給幾個專業(yè)攝影師。他們要求這些攝影師為每張照片評分,分數(shù)是基于如下標準:
1分:傻瓜式拍照,照片沒有考慮構(gòu)圖以及光線等因素。
2分:沒有攝影基礎(chǔ)的一般大眾拍出來的照片,看起來還可以,但沒有明顯的藝術(shù)感。
3分:半專業(yè)。照片中展示出了明顯的藝術(shù)感,攝影師正朝著專業(yè)攝影師邁進。
4分:專業(yè)。
在下面的圖表中,曲線顯示了專業(yè)攝影師為已經(jīng)預估分數(shù)的圖片打的分數(shù)。對于他們預估的高分圖片,大約有40%收到了“半專業(yè)”或“專業(yè)”的評價。
未來的研究
街道全景圖為這個項目提供了一個測試平臺。有一天,這種技術(shù)甚至可以幫助我們現(xiàn)實世界中拍出更好看的照片。