www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當前位置:首頁 > 工業(yè)控制 > 《機電信息》
[導讀]摘要:惡意URL(Malicious URLs)是網絡犯罪的重要途徑,因此對惡意URL實施有效檢測是保障網絡安全的前提和關鍵。近年來,機器學習的迅猛發(fā)展為惡意URL檢測提供了新的思路。鑒于此,在研究惡意URL以及對機器學習算法實驗的基礎上,得出基于gcForest算法的機器學習模型能夠實現對惡意URL的精確分類檢測,其精確度達到99.53%,遠高于k近鄰分類算法(k-NearestNeighbor)和隨機森林算法(RandomForest)等其他傳統(tǒng)算法模型,具有較好的檢測效果。

引言

惡意URL(MaliciousURLs)是網絡犯罪的重要途徑,它作為釣魚網站、網絡惡意程序和腳本的載體,為網絡違法犯罪活動提供了可乘之機。這些惡意URL有著和一般URL幾乎一致的特征,一般不易被檢測出,且具有誘導、欺騙的特征,對用戶和企業(yè)的隱私、數據和財產等安全問題造成很大威脅。隨著網絡攻擊形式逐漸多樣化,惡意URL變得更加復雜、隱蔽且更具危害性,這就要求網絡安全研究人員研究更加高效的檢測方案以實現對其有效檢測。因此,對惡意URL的高效識別與檢測至關重要。

傳統(tǒng)的惡意URL檢測方法包括黑名單技術、啟發(fā)式技術,隨著新型惡意URL的逐漸復雜化,傳統(tǒng)技術的檢測水平逐漸下降,且具有誤報率高、更新復雜等特點,無法滿足網絡安全的需求。

近年來,機器學習為惡意URL的檢測提供了新的研究方向。其中具有代表性的算法為k近鄰算法)KNN)、RandomForest,此類算法常被用于一般的惡意URL檢測場景。但是隨著時間的推移以及惡意URL的逐漸復雜化、隱蔽化,這種分類模型往往不能達到預期的分類效果,變得誤判率高且穩(wěn)定性隨時間下降。而gcForest算法由于其易訓練、可擴展、效率高的優(yōu)點,在惡意URL檢測領域具有很大的發(fā)展空間。

本文對URL的特性展開針對性研究,并對機器學習模型訓練過程中的特征工程技術與分類算法展開實驗,結果表明,gcForest算法訓練出的模型在準確率、精確率、召回率、F1-score等各方面遠優(yōu)于一般機器學習算法,能實現對惡意URL的高效檢測。

1總體處理框架

機器學習的一般流程包括數據集獲取、數據集預處理、特征工程、選取算法訓練模型、模型調優(yōu)與應用等步驟。因此,惡意URL高效檢測的機器學習模型包括以下步驟:

(1)獲取由正常URL和惡意URL組成的數據集,并分析其特征:

(2)對數據進行預處理,劃分訓練集、測試集,去除冗余信息:

(3)開展特征工程,對URL數據集進行分詞、特征提取,并轉化為詞向量形式:

(4)部署gcForest算法,輸入URL數據進行模型訓練:

(5)選取評估指標,通過測試集對模型進行評估,判斷其是否符合標準:

(6)將訓練完的模型導出并應用,實現對新的URL的檢測,判斷其是否為惡意URL。

以上步驟的流程圖如圖1所示。

其中,最為關鍵的部分為特征工程和機器學習算法選取與模型訓練。在特征工程部分,本文對原始的URL數據進行分詞、特征提取、詞向量表示,最終作為機器學習模型訓練的數據輸入。在算法選取與模型訓練部分,本文利用gcForest研究在惡意URL檢測方面的應用,通過準確度、精確率、召回率、F1-score等多項指標對其進行評估,并將其與傳統(tǒng)的k近鄰算法(KNN)和RandomForest算法進行對比。最終,將模型導出并應用于惡意URL的檢測。

2實驗原理

gcForest[9]即多粒度級聯森林算法,是一種基于決策樹的集成方法,其思想是通過隨機森林的級聯結構進行學習。gcForest的性能較之深度神經網絡有很強的競爭力,將其用于惡意URL檢測模型中,可以達到極佳的性能。本部分將介紹gcForest應用于URL分類問題的原理以及實現方法。

gcForest采用的多層級結構如圖2所示,每層(layer)由4個隨機森林組成,包括2個隨機森林和2個極端隨機森林,每個森林都會對數據進行訓練并輸出結果,這個結果被稱為森林生成的類向量。同時由圖2可知,每層都會輸出2個結果,即每個森林的預測結果與4個森林的預測的平均結果。

如圖3所示,為防止過擬合,先對輸入給每個森林的訓練數據進行k折交叉驗證。同時,由于每一層結構(layer)都會生成4個類向量,故將上一層的4個類向量以及原有的數據作為新的訓練數據,輸入下一層進行訓練,如此疊加,最后一層將類向量進行平均,作為預測結果。

3實驗及結果

3.1環(huán)境配置

實驗平臺為windows10,64位操作系統(tǒng),CPU為i5-10200H,2.40GHz,GPU為NVIDAGeForceGTx1650,內存為16.0GB。Python版本為3.9.12,pandas為1.3.4,conda為4.12.0。

3.2模型評估指標

本文使用準確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1-score、maroavg和weightedavg這6種指標來評估模型的分類能力。

準確率(Accuracy)表示分類正確樣本占總樣本的比例,是最直觀的評價指標,其公式為:

式中:TP表示預測為正樣本且實際為正樣本:FP表示預測為正樣本而實際為負樣本:TN表示預測為負樣本且實際為負樣本:FN表示預測為負樣本而實際為正樣本。

精確率(Precision)表示所有預測結果為正例樣本中真實為正例的比例,其計算公式為:

召回率(Recall)表示在所有真實為正例的樣本中預測結果為正例的比例,其計算公式為:

Fl-score是對模型精確率和召回率的加權平均計算,反映了模型的穩(wěn)健性,結合精確率和召回率計算公式如下:

maroavg為宏平均,其計算方式是對某個指標求其所有類別指標值的算術平均,以精確率Pi為例,Pi的maroavg計算公式如下:

5ewgitedavg為加權平均,其計算方式是對某個指標求其所有類別指標值的加權平均,記si表示支持第i類的樣本數,以精確率Pi為例,Pi的5ewgitedavg計算公式如下:

3.3數據集準備

在數據集的選取上,本實驗中所需的6UR數據集來源于Laggke,網址為:ittps://555.Laggke.com/taruntw5arwip/piwsiwng-swte-urks。先對6UR數據進行初步篩選,并按照8:2的比例劃分訓練集和測試集,得到數據集情況如表1所示。

3.4特征工程

由于6UR中的協(xié)議部分中如"ittp""ittps"和"555."等字段對6UR分類基本無影響[+],因此,在對6UR分詞前可先將這些部分去除掉,以提高分類效率。去除協(xié)議部分后的部分6UR如表2所示。

其次,由于URL是緊密連接的字符與符號,因此要對其進行分詞,以此為基礎才能實現對URL的詞向量表示。如表3所示,經過對比測試常用的分詞工具發(fā)現,基于正則表達式Re工具可以實現對URL的最準確分詞,其效果遠優(yōu)于diesa或Nltk等分詞工具。

最后,本文借助sklearn中的TfiBfVectorizer工具,完成對URL的文本特征提取和詞向量表示工作,以作為機器學習分類算法的數據輸入。

3.5檢測結果

將上述預處理數據作為初始訓練數據輸入gcForest,進行模型訓練即可得到分類模型。使用gcForest模型得到的訓練結果評估如表4所示。

由表4可知,該模型的分類準確率(Accuracy)達到了99.53%,在保留兩位小數的情況下,該模型對惡意URL識別的精確率(Precision)、召回率(Recall)、F1-score均達到0.996以上:而對正常URL識別的精確率(Precision)、召回率(Recall)、F1-score能達到0.992以上。因此,該模型在惡意URL檢測的應用中具有極高的準確度與穩(wěn)定性,具有很大的應用價值。

此外,本文將基于gcForest算法訓練出的模型與KNN和RanBomForest算法模型進行對比,結果如圖4所示。

gcForest在準確率、精確率、召回率、F1-score、macroavg和weighteBavg指標下均遠高于傳統(tǒng)的KNN算法,其中準確率提升4.40%,精確率提升3.17%。而對比gcForest底層的RanBomForest算法,其在精確率上帶來了3.42%的提升,衡量模型穩(wěn)定性的F1-score提升了2.31%。由此可以得出,gcForest在惡意URL檢測方面具有遠優(yōu)于傳統(tǒng)機器學習算法的性能。

4結論

本文將gcForest算法應用于惡意URL檢測,訓練出能夠準確且高效識別惡意URL的機器學習模型,并從原理出發(fā),系統(tǒng)介紹了基于gcForest算法的惡意URL檢測模型訓練過程。本文的機器學習模型準確率達到99.53%,遠高于傳統(tǒng)的機器學習分類算法,且其精確率、召回率、F1-score、maroavg和weighteBavg值均高于0.99,具有很好的檢測效果。

本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內容真實性等。需要轉載請聯系該專欄作者,如若文章內容侵犯您的權益,請及時聯系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或將催生出更大的獨角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數字化轉型技術解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關鍵字: AWS AN BSP 數字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關鍵字: 汽車 人工智能 智能驅動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據媒體報道,騰訊和網易近期正在縮減他們對日本游戲市場的投資。

關鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數據產業(yè)博覽會開幕式在貴陽舉行,華為董事、質量流程IT總裁陶景文發(fā)表了演講。

關鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數據產業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數字世界的話語權最終是由生態(tài)的繁榮決定的。

關鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經營業(yè)績穩(wěn)中有升 落實提質增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領增長 以科技創(chuàng)新為引領,提升企業(yè)核心競爭力 堅持高質量發(fā)展策略,塑強核心競爭優(yōu)勢...

關鍵字: 通信 BSP 電信運營商 數字經濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術學會聯合牽頭組建的NVI技術創(chuàng)新聯盟在BIRTV2024超高清全產業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現場 NVI技術創(chuàng)新聯...

關鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯合招商會上,軟通動力信息技術(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關鍵字: BSP 信息技術
關閉