首先我們來談一下什么是卷積神經網絡,相信在深度學習中這是最重要的概念,首先你可以把卷積想象成一種混合信息的手段。想象一下裝滿信息的兩個桶,我們把它們倒入一個桶中并且通過某種規(guī)則攪拌攪拌。也就是說卷積是一種混合兩種信息的流程。
卷積神經網絡是一個多層的神經網絡,每層由多個二維平面組成,而每個平面由多個獨立神經元組成。如下圖所示,當我們在圖像上應用卷積時,我們在兩個維度上執(zhí)行卷積——水平和豎直方向。我們混合兩桶信息:第一桶是輸入的圖像,由三個矩陣構成—— RGB 三通道,其中每個元素都是 0 到 255 之間的一個整數。第二個桶是卷積核(kernel),單個浮點數矩陣??梢詫⒕矸e核的大小和模式想象成一個攪拌圖像的方法。卷積核的輸出是一幅修改后的圖像,在深度學習中經常被稱作 feature map。對每個顏色通道都有一個 feature map。
談到這里,就不得不說一下卷積定理,它將時域和空域上的復雜卷積對應到了頻域中的元素間簡單的乘積。這個定理可以說是及其強悍,在包括圖像處理等許多科學領域中得到了廣泛應用。
什么,你說上面的公式你看不懂,那么小編在此解釋以下,第一個等式是一維連續(xù)域上兩個連續(xù)函數的卷積;第二個等式是二維離散域(圖像)上的卷積。這里的“離散”指的是數據由有限個變量構成(像素);一維指的是數據是一維的(時間),圖像則是二維的,視頻則是三維的。當然在實際工作中,我們根部不需要理解上面的公式是什么意思,畢竟沒有什么問題是調包解決不了的,如果有那就再調一次包(手動滑稽)。
在圖像識別問題中,輸入層的每一個神經元可能代表一個像素的灰度值。但這種神經網絡用于圖像識別有幾個問題,一是沒有考慮圖像的空間結構,識別性能會受到限制;二是每相鄰兩層的神經元都是全相連,參數太多,訓練速度受到限制。而卷積神經網絡就可以解決這些問題。卷積神經網絡使用了針對圖像識別的特殊結構,可以快速訓練。因為速度快,使得采用多層神經網絡變得容易,而多層結構在識別準確率上又很大優(yōu)勢。
還有一個問題等待我們解決,就是卷積神經網絡(CNN)如何提高圖片的識別精度呢?問題的關鍵在要在以上的基礎上再加上池化層和卷積層。和一個額外全連接層的結構,其實我們可以這么理解,卷積層和池化層學習輸入圖像中的局部空間結構,而后面的全連接層的作用是在一個更加抽象的層次上學習,包含了整個圖像中的更多的全局的信息。
以上,基本就是卷積神經網絡在圖像處理中的應用,我們可以看到在用 CNN 處理圖片中,涉及很多知識點和工具。圖像處理這個領域學習成本相對較高,如果一個新人沒人人引領入門往往不得其門而入,這樣會浪費大量的時間,為此,AICon 全球人工智能與機器學習技術大會特意邀請到了曠世 face++ 科技的高級研究員熊鵬飛老師,為大家深入淺出的講解深度學習在圖像處理中的應用。感興趣的小伙伴們掃描下面圖片中的二維碼了解詳細情況。