什么是支持向量機(jī) 什么是支持向量
支持向量機(jī),英文為Support Vector Machine,簡稱SV機(jī)(論文中一般簡稱SVM)。它是一 種監(jiān)督式學(xué)習(xí)的方法,它廣泛的應(yīng)用于統(tǒng)計分類以及回歸分析中。
支持向量機(jī)(Support Vector Machine)是一種十分常見的分類器,曾經(jīng)火爆十余年,分類能力強(qiáng)于NN,整體實力比肩LR與RF。核心思路是通過構(gòu)造分割面將數(shù)據(jù)進(jìn)行分離。
支持向量機(jī)屬于一般化線性分類器,他們也可以認(rèn)為是提克洛夫規(guī)范化(Tikhonov RegularizaTIon)方法的一個特例。這族分類器的特點是:他們能夠同時最小化經(jīng)驗誤差與最大化幾何邊緣區(qū),因此支持向量機(jī)也被稱為最大邊緣區(qū)分類器。在統(tǒng)計計算中,最大期望(EM) 算法是在概率(probabilisTIc)模型中尋找參數(shù)最大似然估計的算法,其中概率模型依賴于無 法觀測的隱藏變量(Latent Variabl)。最大期望經(jīng)常用在機(jī)器學(xué)習(xí)和計算機(jī)視覺的數(shù)據(jù)集聚 (Data Clustering)領(lǐng)域。
在支持向量機(jī)中,距離超平面最近的且滿足一定條件的幾個訓(xùn)練樣本點被稱為支持向量。
圖中有紅色和藍(lán)色兩類樣本點。黑色的實線就是最大間隔超平面。在這個例子中,A,B,C 三個點到該超平面的距離相等。
注意,這些點非常特別,這是因為超平面的參數(shù)完全由這三個點確定。該超平面和任何其他的點無關(guān)。如果改變其他點的位置,只要其他點不落入虛線上或者虛線內(nèi),那么超平面的參數(shù)都不會改變。A,B,C 這三個點被稱為支持向量(support vectors)。
一、應(yīng)用
SVM在各領(lǐng)域的模式識別問題中有廣泛應(yīng)用,包括人像識別(face recogniTIon) 、文本分類(text categorizaTIon) 、筆跡識別(handwriting recognition) 、生物信息學(xué) 等。
二、SVM 的優(yōu)點
1、高維度:SVM 可以高效的處理高維度特征空間的分類問題。這在實際應(yīng)用中意義深遠(yuǎn)。比如,在文章分類問題中,單詞或是詞組組成了特征空間,特征空間的維度高達(dá) 10 的 6 次方以上。
2、節(jié)省內(nèi)存:盡管訓(xùn)練樣本點可能有很多,但 SVM 做決策時,僅僅依賴有限個樣本(即支持向量),因此計算機(jī)內(nèi)存僅僅需要儲存這些支持向量。這大大降低了內(nèi)存占用率。
3、應(yīng)用廣泛:實際應(yīng)用中的分類問題往往需要非線性的決策邊界。通過靈活運用核函數(shù),SVM 可以容易的生成不同的非線性決策邊界,這保證它在不同問題上都可以有出色的表現(xiàn)(當(dāng)然,對于不同的問題,如何選擇最適合的核函數(shù)是一個需要使用者解決的問題)。