什么是機(jī)器學(xué)習(xí)的無監(jiān)督學(xué)習(xí)?如何通過包裹法實(shí)現(xiàn)特征選擇?
掃描二維碼
隨時隨地手機(jī)看文章
本文中,小編將對機(jī)器學(xué)習(xí)予以介紹,如果你想對它的詳細(xì)情況有所認(rèn)識,或者想要增進(jìn)對它的了解程度,不妨請看以下內(nèi)容哦。
一、機(jī)器學(xué)習(xí)之無監(jiān)督學(xué)習(xí)
監(jiān)督學(xué)習(xí)處理的是有標(biāo)簽的數(shù)據(jù),無監(jiān)督學(xué)習(xí)要處理的則是無標(biāo)簽的數(shù)據(jù)。正是因?yàn)闆]有了這個絕對的標(biāo)簽,所以會更側(cè)重與數(shù)據(jù)本身的信息和結(jié)構(gòu),對于模型所得結(jié)果的合理性,也會有更豐富和更精細(xì)的評估。以下主要介紹一些不同類型的聚類算法。
1.基于原型
基于原型的聚類,強(qiáng)調(diào)在數(shù)據(jù)中存在著某種確定性的結(jié)構(gòu),不同類別的結(jié)構(gòu),應(yīng)該是不一樣的。K-means是原型聚類中的經(jīng)典代表,它相信數(shù)據(jù)中存在著K個中心點(diǎn),通過迭代更新這K個中心點(diǎn)的位置,從而將所有樣本點(diǎn)劃分進(jìn)K個原型里面,直至迭代結(jié)束。
2.基于密度
基于密度的聚類,強(qiáng)調(diào)如果在數(shù)據(jù)中存在一個類別,那么這個類別里的樣本點(diǎn)之間,是存在一定的緊密程度的,如果不具有的話,那就是屬于其它類別。DBSCAN是這一類算法中的代表,它與K-means的不同在于,不預(yù)先假設(shè)K個中心,而是先尋找一個類別,獲取這個類別所有的樣本點(diǎn),再在剩余的數(shù)據(jù)集里,尋找下一個類別,直到所有樣本都找到類別。
3.基于層次
基于層次的聚類,則是從一個更為立體的角度,對樣本點(diǎn)進(jìn)行自底向上的逐層的劃分。AGENS是這一種算法里的代表,在第一層里,它將所有樣本點(diǎn)當(dāng)做是一個初始類別,通過計(jì)算類別之間的距離,不斷的進(jìn)行合并,從而在最后一層里保留下指定個數(shù)的類別。
相對于監(jiān)督學(xué)習(xí),無監(jiān)督學(xué)習(xí)沒有了標(biāo)簽的羈絆,反而成為了一個更為開放的場景,出現(xiàn)了一大批的形態(tài)各異的算法。但這些不同類型的聚類算法,仍要去討論一些共同的問題,比如如何去度量聚類結(jié)果的性能,這里又分為外部指標(biāo)和內(nèi)部指標(biāo);比如如何去計(jì)算樣本點(diǎn)之間的距離,基于不同維度,閔氏距離可以分為曼哈頓距離,歐氏距離,和切比雪夫距離。
二、包裹法實(shí)現(xiàn)機(jī)器學(xué)習(xí)特征選擇
過濾法是從特征重要性高低的角度來加以排序,從而完成目標(biāo)特征選擇或者低效特征濾除的過程。其最大的弊端之一在于因?yàn)椴灰蕾嚾魏文P?,所以無法針對性的選擇出相應(yīng)模型最適合的特征體系。同時,其還存在一個隱藏的問題:即特征選擇保留比例多少的問題,實(shí)際上這往往是一個超參數(shù),一般需要人為定義或者進(jìn)行超參尋優(yōu)。
與之不同,包裹法將特征選擇看做是一個黑盒問題:即僅需指定目標(biāo)函數(shù)(這個目標(biāo)函數(shù)一般就是特定模型下的評估指標(biāo)),通過一定方法實(shí)現(xiàn)這個目標(biāo)函數(shù)最大化,而不關(guān)心其內(nèi)部實(shí)現(xiàn)的問題。進(jìn)一步地,從具體實(shí)現(xiàn)的角度來看,給定一個含有N個特征的特征選擇問題,可將其抽象為從中選擇最優(yōu)的K個特征子集從而實(shí)現(xiàn)目標(biāo)函數(shù)取值最優(yōu)。易見,這里的K可能是從1到N之間的任意數(shù)值,所以該問題的搜索復(fù)雜度是指數(shù)次冪:O(2^N)。
當(dāng)然,對于這樣一個具有如此高復(fù)雜度的算法,聰明的前輩們是不可能去直接暴力嘗試的,尤其是考慮這個目標(biāo)函數(shù)往往還是足夠expensive的(即模型在特定的特征子集上的評估過程一般是較為耗時的過程),所以具體的實(shí)現(xiàn)方式一般有如下兩種:
序貫選擇。美其名曰序貫選擇,其實(shí)就是貪心算法。即將含有K個特征的最優(yōu)子空間搜索問題簡化為從1->K的遞歸式選擇(Sequential Feature Selection, SFS)或者從N->K的遞歸式消除(Sequential Backward Selection, SBS)的過程,其中前者又稱為前向選擇,后者相應(yīng)的稱作后向選擇。
啟發(fā)式搜索。啟發(fā)式搜索一般是應(yīng)用了進(jìn)化算法,例如在優(yōu)化領(lǐng)域廣泛使用的遺傳算法。在具體實(shí)現(xiàn)中,需要考慮將特征子空間如何表達(dá)為種群中的一個個體(例如將含有N個特征的選擇問題表達(dá)為長度為N的0/1序列,其中1表示選擇該特征,0表示不選擇,序列中1的個數(shù)即為特征子空間中的特征數(shù)量),進(jìn)而可將模型在相應(yīng)特征子空間的效果定義為對應(yīng)個體在種群中的適應(yīng)度;其次就是定義遺傳算法中的主要操作:交叉、變異以及繁殖等進(jìn)化過程。
以上所有內(nèi)容便是小編此次為大家?guī)淼挠嘘P(guān)機(jī)器學(xué)習(xí)的所有介紹,如果你想了解更多有關(guān)它的內(nèi)容,不妨在我們網(wǎng)站或者百度、google進(jìn)行探索哦。