本文是對卷積神經網絡的基礎進行介紹,主要內容包括卷積神經網絡概念、卷積神經網絡結構、卷積神經網絡求解、卷積神經網絡LeNet-5結構分析、卷積神經網絡注意事項。
一、卷積神經網絡概念上世紀60年代,Hubel等人通過對貓視覺皮層細胞的研究,提出了感受野這個概念,到80年代,F(xiàn)ukushima在感受野概念的基礎之上提出了神經認知機的概念,可以看作是卷積神經網絡的第一個實現(xiàn)網絡,神經認知機將一個視覺模式分解成許多子模式(特征),然后進入分層遞階式相連的特征平面進行處理,它試圖將視覺系統(tǒng)模型化,使其能夠在即使物體有位移或輕微變形的時候,也能完成識別。
卷積神經網絡(ConvoluTIonal Neural Networks, CNN)是多層感知機(MLP)的變種。由生物學家休博爾和維瑟爾在早期關于貓視覺皮層的研究發(fā)展而來。視覺皮層的細胞存在一個復雜的構造。這些細胞對視覺輸入空間的子區(qū)域非常敏感,我們稱之為感受野,以這種方式平鋪覆蓋到整個視野區(qū)域。這些細胞可以分為兩種基本類型,簡單細胞和復雜細胞。簡單細胞最大程度響應來自感受野范圍內的邊緣刺激模式。復雜細胞有更大的接受域,它對來自確切位置的刺激具有局部不變性。
通常神經認知機包含兩類神經元,即承擔特征提取的采樣元和抗變形的卷積元,采樣元中涉及兩個重要參數(shù),即感受野與閾值參數(shù),前者確定輸入連接的數(shù)目,后者則控制對特征子模式的反應程度。卷積神經網絡可以看作是神經認知機的推廣形式,神經認知機是卷積神經網絡的一種特例。
CNN由紐約大學的Yann LeCun于1998年提出。CNN本質上是一個多層感知機,其成功的原因關鍵在于它所采用的局部連接和共享權值的方式,一方面減少了的權值的數(shù)量使得網絡易于優(yōu)化,另一方面降低了過擬合的風險。CNN是神經網絡中的一種,它的權值共享網絡結構使之更類似于生物神經網絡,降低了網絡模型的復雜度,減少了權值的數(shù)量。該優(yōu)點在網絡的輸入是多維圖像時表現(xiàn)的更為明顯,使圖像可以直接作為網絡的輸入,避免了傳統(tǒng)識別算法中復雜的特征提取和數(shù)據重建過程。在二維圖像處理上有眾多優(yōu)勢,如網絡能自行抽取圖像特征包括顏色、紋理、形狀及圖像的拓撲結構;在處理二維圖像問題上,特別是識別位移、縮放及其它形式扭曲不變性的應用上具有良好的魯棒性和運算效率等。
CNN本身可以采用不同的神經元和學習規(guī)則的組合形式。
CNN具有一些傳統(tǒng)技術所沒有的優(yōu)點:良好的容錯能力、并行處理能力和自學習能力,可處理環(huán)境信息復雜,背景知識不清楚,推理規(guī)則不明確情況下的問題,允許樣品有較大的缺損、畸變,運行速度快,自適應性能好,具有較高的分辨率。它是通過結構重組和減少權值將特征抽取功能融合進多層感知器,省略識別前復雜的圖像特征抽取過程。
CNN的泛化能力要顯著優(yōu)于其它方法,卷積神經網絡已被應用于模式分類,物體檢測和物體識別等方面。利用卷積神經網絡建立模式分類器,將卷積神經網絡作為通用的模式分類器,直接用于灰度圖像。
CNN是一個前潰式神經網絡,能從一個二維圖像中提取其拓撲結構,采用反向傳播算法來優(yōu)化網絡結構,求解網絡中的未知參數(shù)。
CNN是一類特別設計用來處理二維數(shù)據的多層神經網絡。CNN被認為是第一個真正成功的采用多層層次結構網絡的具有魯棒性的深度學習方法。CNN通過挖掘數(shù)據中的空間上的相關性,來減少網絡中的可訓練參數(shù)的數(shù)量,達到改進前向傳播網絡的反向傳播算法效率,因為CNN需要非常少的數(shù)據預處理工作,所以也被認為是一種深度學習的方法。在CNN中,圖像中的小塊區(qū)域(也叫做“局部感知區(qū)域”)被當做層次結構中的底層的輸入數(shù)據,信息通過前向傳播經過網絡中的各個層,在每一層中都由過濾器構成,以便能夠獲得觀測數(shù)據的一些顯著特征。因為局部感知區(qū)域能夠獲得一些基礎的特征,比如圖像中的邊界和角落等,這種方法能夠提供一定程度對位移、拉伸和旋轉的相對不變性。
CNN中層次之間的緊密聯(lián)系和空間信息使得其特別適用于圖像的處理和理解,并且能夠自動的從圖像抽取出豐富的相關特性。
CNN通過結合局部感知區(qū)域、共享權重、空間或者時間上的降采樣來充分利用數(shù)據本身包含的局部性等特征,優(yōu)化網絡結構,并且保證一定程度上的位移和變形的不變性。
CNN受視覺神經機制的啟發(fā)而設計,是為識別二維或三維信號而設計的一個多層感知器,這種網絡結構對平移、縮放、傾斜等變形具有高度不變性。