機器學(xué)習(xí)基本過程分5步!如何通過過濾法實現(xiàn)機器學(xué)習(xí)特征選擇?
在這篇文章中,小編將為大家?guī)?a href="/tags/機器學(xué)習(xí)" target="_blank">機器學(xué)習(xí)的相關(guān)報道。如果你對本文即將要講解的內(nèi)容存在一定興趣,不妨繼續(xù)往下閱讀哦。
一、機器學(xué)習(xí)的基本過程
1.確定目標
機器學(xué)習(xí)的目標并不在于機器學(xué)習(xí),而在于我們將這種方法應(yīng)用到現(xiàn)實場景,去解決現(xiàn)實的問題點。所以在工作開始之前,我們需要想清楚自己是要實現(xiàn)何種目標,比如是要對流失用戶進行風(fēng)險預(yù)警,對潛在付費用戶進行意愿評估,還是對信貸用戶進行欺詐識別。
2.診斷問題
因為明確了所要實現(xiàn)的目標,所以可以根據(jù)現(xiàn)實基礎(chǔ)來診斷問題。為了實現(xiàn)這個目標,需要機器學(xué)習(xí)給到怎樣的輸出,單純的0-1標簽即可,還是需要連續(xù)的風(fēng)險概率;目前的數(shù)據(jù)量是否能支撐這個項目,業(yè)務(wù)樣本的黑白比例是否不夠均衡,這些問題都是需要診斷的。
3.方案設(shè)計
明確了要實現(xiàn)的目標,也了解了現(xiàn)實基礎(chǔ)里存在的問題點,便可以展開方案設(shè)計。在這個細分的業(yè)務(wù)場景下,適合選用哪一類型的算法,不同算法往往是為不同領(lǐng)域而生的;在這個場景下,如果沒有明確的黑白樣本,需要基于何種方法來進行樣本定義。在方案設(shè)計的環(huán)節(jié),需要給出一個工作開展的大的方向,相當于把時間和精力限制在一個合適的框架中。
4.方案執(zhí)行
在方案執(zhí)行的過程中遇到問題時,如何進行解決,也是很重要的環(huán)節(jié)。機器學(xué)習(xí)算法的執(zhí)行,一般稱之為最優(yōu)化的過程,即在一個算法框架下,如何最快地達到最優(yōu)的結(jié)果。而針對整個方案的執(zhí)行,又會包括數(shù)據(jù)準備,特征工程,算法調(diào)試,模型評估等具體事項,每一個事項相互獨立,各有各的方法論,但又相互影響,上下游之間的執(zhí)行效果環(huán)環(huán)相扣。
5.評估迭代
評估的過程,其實就是一個目標量化的過程,因為有了量化,所以有了絕對意義上的效果優(yōu)劣。只是不同的業(yè)務(wù)目標,不同的模型框架,對應(yīng)的評估體系是不一樣的。建立一套合適的評估方式,機器學(xué)習(xí)項目也就實現(xiàn)了閉環(huán),可以在迭代中去逐步逼近要實現(xiàn)的業(yè)務(wù)目標。
二、基于過濾法實現(xiàn)機器學(xué)習(xí)特征選擇
基于過濾法(Filter)實現(xiàn)特征選擇是最為簡單和常用的一種方法,其最大優(yōu)勢是不依賴于模型,僅從特征的角度來挖掘其價值高低,從而實現(xiàn)特征排序及選擇。實際上,基于過濾法的特征選擇方案,其核心在于對特征進行排序——按照特征價值高低排序后,即可實現(xiàn)任意比例/數(shù)量的特征選擇或剔除。顯然,如何評估特征的價值高低從而實現(xiàn)排序是這里的關(guān)鍵環(huán)節(jié)。為了評估特征的價值高低,大體可分為如下3類評估標準:
基于特征所含信息量的高低:這種一般就是特征基于方差法實現(xiàn)的特征選擇,即認為方差越大對于標簽的可區(qū)分性越高;否則,即低方差的特征認為其具有較低的區(qū)分度,極端情況下當一列特征所有取值均相同時,方差為0,對于模型訓(xùn)練也不具有任何價值。當然,實際上這里倘若直接以方差大小來度量特征所含信息量是不嚴謹?shù)?,例如對于[100, 110, 120]和[1, 5, 9]兩組特征來說,按照方差計算公式前者更大,但從機器學(xué)習(xí)的角度來看后者可能更具有區(qū)分度。所以,在使用方差法進行特征選擇前一般需要對特征做歸一化
基于相關(guān)性:一般是基于統(tǒng)計學(xué)理論,逐一計算各列與標簽列的相關(guān)性系數(shù),當某列特征與標簽相關(guān)性較高時認為其對于模型訓(xùn)練價值更大。而度量兩列數(shù)據(jù)相關(guān)性的指標則有很多,典型的包括歐式距離、卡方檢驗、T檢驗等等
基于信息熵理論:與源于統(tǒng)計學(xué)的相關(guān)性方法類似,也可從信息論的角度來度量一列特征與標簽列的相關(guān)程度,典型的方法就是計算特征列與標簽列的互信息。當互信息越大時,意味著提供該列特征時對標簽的信息確定程度越高。這與決策樹中的分裂準則思想其實是有異曲同工之妙
當然,基于過濾法的特征選擇方法其弊端也極為明顯:
因為不依賴于模型,所以無法有針對性的挖掘出適應(yīng)模型的最佳特征體系;
特征排序以及選擇是獨立進行(此處的獨立是指特征與特征之間的獨立,不包含特征與標簽間的相關(guān)性計算等),對于某些特征單獨使用價值低、組合使用價值高的特征無法有效發(fā)掘和保留。
最后,小編誠心感謝大家的閱讀。你們的每一次閱讀,對小編來說都是莫大的鼓勵和鼓舞。希望大家對機器學(xué)習(xí)已經(jīng)具備了初步的認識,最后的最后,祝大家有個精彩的一天。