压在透明的玻璃上c-国产精品国产一级A片精品免费-国产精品视频网-成人黄网站18秘 免费看|www.tcsft.com

網(wǎng)絡(luò)異常檢測領(lǐng)域概念漂移問題簡述

引言

隨著互聯(lián)網(wǎng)和大數(shù)據(jù)的快速發(fā)展,網(wǎng)絡(luò)異常檢測作為保護網(wǎng)絡(luò)安全和維護系統(tǒng)正常運行的手段變得越來越重要。網(wǎng)絡(luò)異常檢測往往依靠日志或流量等網(wǎng)絡(luò)數(shù)據(jù),而這些數(shù)據(jù)發(fā)生概念漂移會對網(wǎng)絡(luò)異常檢測的準確性和可靠性產(chǎn)生較為嚴重的影響。因此,近年來針對網(wǎng)絡(luò)異常檢測領(lǐng)域的概念漂移檢測研究也引起了廣泛關(guān)注。概念漂移(Concept Drift)是指隨著時間推移,流數(shù)據(jù)的分布發(fā)生變化的情況,這種變化可能由外部或內(nèi)部因素引起。網(wǎng)絡(luò)異常檢測領(lǐng)域常用到的數(shù)據(jù)有日志數(shù)據(jù)和流量數(shù)據(jù)等,本質(zhì)上也是流數(shù)據(jù)。因此,已有的針對流數(shù)據(jù)的概念漂移檢測方法也適用于網(wǎng)絡(luò)異常檢測領(lǐng)域。

1 概念漂移概述

概念漂移是指在數(shù)據(jù)生成過程中,數(shù)據(jù)的統(tǒng)計特性或關(guān)系隨時間發(fā)生變化的現(xiàn)象。然而,對于概念漂移的定義目前并不統(tǒng)一,存在多種觀點和說法。當前被普遍認同的定義是:在機器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域中,模型在時間或者環(huán)境改變的情況下,對于輸入數(shù)據(jù)的理解和預(yù)測能力發(fā)生變化的情況。這種變化可能是由于外部環(huán)境的變化、數(shù)據(jù)生成過程的演化、觀察偏差或噪聲引起的[1]。因此,在概念漂移的分析中,需要考慮各種類型的數(shù)據(jù)以及潛在的漂移原因。

數(shù)據(jù)發(fā)生概念漂移的原因可能有多種:

(1) 數(shù)據(jù)內(nèi)部變化(Internal Data Changes)[2],例如郵件系統(tǒng)、社交網(wǎng)絡(luò)中,用戶的行為可能會隨時間改變,導(dǎo)致數(shù)據(jù)分布發(fā)生變化。

(2) 外部環(huán)境變化(External Environmental Changes)[3],隨著時間的推移,數(shù)據(jù)生成的環(huán)境可能會發(fā)生變化,例如新的技術(shù)工具和平臺的出現(xiàn)、過濾器的改進等。

(3) 數(shù)據(jù)收集過程的變化(Changes in Data Collection Process)[4],數(shù)據(jù)的收集方式或過程發(fā)生變化,例如更換了不同的記錄系統(tǒng)、修改了數(shù)據(jù)抽取規(guī)則等。

概念漂移對模型造成影響主要是因為它引起了數(shù)據(jù)分布的變化,當數(shù)據(jù)分布發(fā)生變化時,模型在面對新的數(shù)據(jù)分布時可能無法有效地捕捉到新的異常模式或變化,這導(dǎo)致了以下幾個方面的影響:

(1) 模型退化(Model Degradation)

概念漂移意味著數(shù)據(jù)的統(tǒng)計特性和關(guān)系發(fā)生了變化。當數(shù)據(jù)分布發(fā)生變化時,模型在面對新的數(shù)據(jù)分布時可能無法捕捉到新的異常模式或變化,從而導(dǎo)致模型退化[5]。模型退化會使得模型的準確性下降,無法有效對新的網(wǎng)絡(luò)數(shù)據(jù)進行異常檢測和預(yù)測。

(2) 決策偏差(Decision Bias)

概念漂移還可能會引起模型的決策偏差[6]。當數(shù)據(jù)分布發(fā)生變化時,模型在進行決策時可能偏向于過去的數(shù)據(jù)分布,而忽視了新的數(shù)據(jù)分布中出現(xiàn)的新模式和異常行為。這種決策偏差可能增加模型在各種異常檢測任務(wù)中的誤報和漏報現(xiàn)象。

(3) 模型更新困難(Difficulty in Model Updating)

受概念漂移影響,模型更新變得困難[7]。當數(shù)據(jù)分布發(fā)生變化時,為了適應(yīng)新的數(shù)據(jù)分布,模型需要進行更新或重新訓(xùn)練。然而,在在線系統(tǒng)或?qū)崟r應(yīng)用中,模型更新需要在運行過程中進行,這可能會涉及到計算資源和時間的限制。此外,如果訓(xùn)練數(shù)據(jù)的標簽信息不完全或不準確,模型更新過程中的監(jiān)督學(xué)習(xí)可能會受到困擾。

2 概念漂移分類

(1)按概念漂移真?zhèn)涡苑诸?/p>

在研究概念漂移領(lǐng)域中,一種常見的分類方法是根據(jù)真?zhèn)胃拍钇茖ζ溥M行劃分,以更好地理解漂移的本質(zhì)和影響。真?zhèn)胃拍钇苹诰W(wǎng)絡(luò)數(shù)據(jù)中的變化是由真實的概念漂移引起,還是由噪聲、異常或誤差等非真實因素引起[8]進行分類。

圖1 基于真?zhèn)蔚膬煞N概念漂移抽象化描述

圖1給出基于真?zhèn)胃拍钇频某橄蠡枋觯梢钥闯稣鎸嵏拍钇剖怯捎谀繕烁拍畋旧碜兓鴮?dǎo)致的數(shù)據(jù)分布變化,而偽概念漂移是由于數(shù)據(jù)采樣或標注錯誤等因素引起的誤導(dǎo)性數(shù)據(jù)分布變化。了解真?zhèn)胃拍钇频膮^(qū)別可更準確地判斷網(wǎng)絡(luò)異常檢測中概念漂移的源頭,從而采取適當?shù)拇胧﹣響?yīng)對網(wǎng)絡(luò)數(shù)據(jù)不同類型的漂移,確保異常檢測模型的準確性和魯棒性。

(2)按漂移速度分類

概念漂移的變化方式和因素可以以不同的速度發(fā)生,這與數(shù)據(jù)的統(tǒng)計特性和關(guān)系的變化密切相關(guān)。這些不同類型的概念漂移由各種事件、行為、環(huán)境和因素引起,從而使得網(wǎng)絡(luò)異常檢測領(lǐng)域數(shù)據(jù)的統(tǒng)計特性和關(guān)系隨時間發(fā)生變化,進而影響機器學(xué)習(xí)模型在不同時間段的準確性和適應(yīng)性[9]。

突變漂移(Sudden Drift)指的是概念在某個時間點上突然發(fā)生變化的情況,導(dǎo)致數(shù)據(jù)的統(tǒng)計特性和關(guān)系在短時間內(nèi)突然改變。例如,網(wǎng)絡(luò)異常檢測中突然出現(xiàn)新的技術(shù)或突發(fā)事件可能導(dǎo)致不同類型的數(shù)據(jù)特征突然變化。

漸進漂移(Gradual Drift)是指數(shù)據(jù)分布的逐漸變化,主要強調(diào)變化的速度逐漸加快,可能是非線性的。例如,網(wǎng)絡(luò)系統(tǒng)升級、用戶群體變化、法規(guī)政策調(diào)整等因素可能導(dǎo)致各種類型數(shù)據(jù)特征發(fā)生偏移。

漸增漂移(Incremental Drift)也是指數(shù)據(jù)分布的逐漸變化,但與漸進漂移略有不同,漸增漂移變化是緩慢的、線性的,并且相對較為平緩。例如,隨著時間推移,發(fā)送者可能會逐漸改變其行為策略,采用新的方法或策略,導(dǎo)致各種類型數(shù)據(jù)特征分布逐漸變化。

復(fù)發(fā)式漂移(Seasonal Drift)指的是數(shù)據(jù)的概念變化與時間的變化相關(guān)。例如,在特定的季節(jié),如節(jié)假日季節(jié),人們使用網(wǎng)絡(luò)行為模式可能會發(fā)生變化,從而導(dǎo)致數(shù)據(jù)中對應(yīng)的特征分布發(fā)生變化。

圖2 基于速度的四種概念漂移抽象化描述

(3)按漂移的空間分布分類

根據(jù)漂移發(fā)生的空間特征,可以將漂移劃分為局部漂移與全局漂移,及連續(xù)漂移與非連續(xù)漂移。

局部漂移(Local Drift)僅發(fā)生在數(shù)據(jù)局部區(qū)域,而其他區(qū)域保持穩(wěn)定。這種漂移模式可能由特定數(shù)據(jù)子集變化引起,例如,在在線購物平臺中的局部漂移場景中,數(shù)據(jù)的局部區(qū)域可能會發(fā)生漂移,而其他區(qū)域保持穩(wěn)定。

全局漂移(Global Drift)發(fā)生在數(shù)據(jù)的整體分布上,涉及到整個數(shù)據(jù)集或大部分數(shù)據(jù)。這種漂移模式可能由整體環(huán)境的變化、數(shù)據(jù)源的更改或廣泛影響的外部因素引起。例如,在一個電子商務(wù)平臺上,某一時期整個平臺的用戶開始偏好購買環(huán)保和可持續(xù)發(fā)展的產(chǎn)品,而不再關(guān)注傳統(tǒng)的大品牌商品。

連續(xù)漂移(Continuous Drift)在空間上是連續(xù)的,即漂移發(fā)生區(qū)域之間沒有明顯的邊界或過渡區(qū)域。這種漂移模式可能由漸進性數(shù)據(jù)變化、復(fù)發(fā)式變化或漸進的系統(tǒng)演化引起。例如,在一個在線氣候數(shù)據(jù)收集系統(tǒng)中,溫度數(shù)據(jù)呈現(xiàn)出連續(xù)漂移。隨著時間的推移,數(shù)據(jù)顯示溫度逐漸上升,反映出氣候變暖的趨勢。

非連續(xù)漂移(Discontinuous Drift)在空間上是間斷或不連續(xù)的,即漂移發(fā)生區(qū)域之間存在明顯的邊界或過渡區(qū)域。這種漂移模式可能由系統(tǒng)變更、數(shù)據(jù)源切換或特定事件發(fā)生引起的。例如,一個社交媒體平臺引入了新的算法和界面設(shè)計,導(dǎo)致用戶群體的行為發(fā)生了明顯的變化。

圖3 基于真?zhèn)蔚膬煞N概念漂移抽象化描述

3 概念漂移檢測方法

概念漂移是異常檢測領(lǐng)域的重要研究方向,已存在多種用于檢測概念漂移的方法,較為經(jīng)典的方法有:基于統(tǒng)計的方法、基于預(yù)測的方法、基于滑動窗口的方法等。近年來,還涌現(xiàn)出許多基于機器學(xué)習(xí)方法和深度學(xué)習(xí)的概念漂移檢測方法。

基于統(tǒng)計的方法

在較為經(jīng)典的基于統(tǒng)計的方法中,比較有代表性的有均值和方差檢測(Mean and Variance Detection)、卡方檢驗(Chi-Square Test)和KL散度檢測(KL Divergence Detection)。其中:

(1)均值和方差檢測通過比較數(shù)據(jù)的均值和方差來檢測數(shù)據(jù)分布的變化。Dries等人[10]提出了3種新的網(wǎng)絡(luò)數(shù)據(jù)漂移檢測方法,這些方法可以動態(tài)調(diào)整以匹配已有的實際數(shù)據(jù)。第一個是基于數(shù)據(jù)二進制表示的密度估計秩統(tǒng)計,第二個是比較1范數(shù)支持向量機(SVM)引起的線性分類器平均裕度,最后一個是基于SVM分類器的平均0-1、S形或逐步線性誤差率,這幾種方法進行結(jié)合可以對網(wǎng)絡(luò)異常檢測數(shù)據(jù)中的多變量數(shù)據(jù)進行概念漂移檢測。

(2)卡方檢驗方法基于卡方統(tǒng)計量來比較觀察值和期望值之間的差異,從而檢測漂移的發(fā)生。Nishida等人[11]提出了一種基于元學(xué)習(xí)的在線數(shù)據(jù)主動漂移檢測(Meta-Add)框架,該框架通過跟蹤錯誤率的變化模式來學(xué)習(xí)分類概念漂移。在訓(xùn)練階段,根據(jù)各種概念漂移的錯誤率提取元數(shù)據(jù),然后使用卡方檢驗來判斷這些錯誤率是否存在顯著的差異,從而檢測概念漂移的發(fā)生。在檢測階段,通過基于流的主動學(xué)習(xí),利用元測試器調(diào)整模型以適應(yīng)不同的網(wǎng)絡(luò)數(shù)據(jù),從而實時監(jiān)測和適應(yīng)概念漂移。

(3)KL散度檢測方法通過計算兩個概率分布之間的KL散度來度量數(shù)據(jù)分布的變化。Hayat等人[12]提出了一種基于KL散度的自適應(yīng)垃圾郵件過濾系統(tǒng),該系統(tǒng)利用計算電子郵件內(nèi)容分布的偏差來檢測概念漂移。該方法可以與各種分類器結(jié)合使用,文中采用了樸素貝葉斯分類器。通過使用安然公司的數(shù)據(jù)集進行評估,結(jié)果表明該方法在檢測概念漂移方面具有有效性,并且在準確度方面優(yōu)于樸素貝葉斯分類器。

基于機器學(xué)習(xí)的方法

近年來,有幾種較新的利用機器學(xué)習(xí)檢測概念漂移的方法:

(1)Sugandh [13]提出了一種基于自適應(yīng)隨機森林(Adaptive Random Forest,ARF) 分類器的方法,并結(jié)合了 Hoeffding 邊界和移動平均測試,以實現(xiàn)網(wǎng)絡(luò)入侵的早期和準確檢測。ARF 能夠?qū)崟r適應(yīng)網(wǎng)絡(luò)環(huán)境和攻擊模式的變化,并通過 Hoeffding 邊界和移動平均測試識別概念漂移,從而區(qū)分正常網(wǎng)絡(luò)變化和潛在入侵。這種方法有效地降低了誤報率和漏報率,提高了整體檢測率。在最新的 CIC-IDS 2018 數(shù)據(jù)集上,該方法實現(xiàn)了 99.95% 的準確率和 99.96% 的召回率。

圖4 ARF自適應(yīng)框架工作流程

(2)Li等人[14]提出了一種名為Type-LDA的新型概念漂移適應(yīng)框架,旨在解決數(shù)據(jù)流中概念漂移問題帶來的模型預(yù)測準確性下降。該框架利用離線訓(xùn)練過程,無需人工設(shè)定統(tǒng)計測試,即可自動檢測概念漂移的發(fā)生時間和類型,并根據(jù)漂移類型選擇最優(yōu)的漂移點進行模型重新學(xué)習(xí)。Type-LDA框架包含三個關(guān)鍵模塊。其中,漂移類型識別器模塊基于原型網(wǎng)絡(luò),通過學(xué)習(xí)不同漂移類型的誤差特征,將漂移類型識別問題轉(zhuǎn)化為分類問題。漂移點定位器模塊結(jié)合原型向量和誤差特征,使用回歸模型預(yù)測漂移發(fā)生的最佳時間點。基于流的主動學(xué)習(xí)模塊利用熵和信息距離策略,選擇最具代表性的樣本進行模型微調(diào),提高模型的泛化能力。實驗結(jié)果表明,Type-LDA框架在模擬數(shù)據(jù)和真實數(shù)據(jù)集上均優(yōu)于現(xiàn)有的漂移適應(yīng)方法,證明了識別概念漂移類型對于找到最優(yōu)漂移點的重要性。

(a) Type-LDA框架流程圖

(b) Type-LDA框架中漂移類型識別器模塊工作示意圖

(c) Type-LDA框架中漂移點定位器模塊工作示意圖

圖5 Type-LDA框架流程圖及主要模塊工作示意圖

基于深度學(xué)習(xí)的方法

在基于深度學(xué)習(xí)的概念漂移檢測方法中,典型的方法是通過建立神經(jīng)網(wǎng)絡(luò)模型來學(xué)習(xí)數(shù)據(jù)分布,并監(jiān)測網(wǎng)絡(luò)輸出的變化來檢測概念漂移。

(1)Elwell等人[15]提出了一種名為Learn++.NSE的基于分類器集合的概念漂移增量學(xué)習(xí)方法,用于處理非平穩(wěn)環(huán)境(NSE)下的網(wǎng)絡(luò)數(shù)據(jù)。Learn++.NSE算法能夠從連續(xù)批次的數(shù)據(jù)中學(xué)習(xí),而不對漂移的性質(zhì)或速率做出任何假設(shè),適用于各種類型的漂移環(huán)境。該算法屬于增量學(xué)習(xí)范疇,不需要訪問以前的數(shù)據(jù)。Learn++.NSE在接收到每個批次數(shù)據(jù)時訓(xùn)練一個新的分類器,并使用動態(tài)加權(quán)多數(shù)投票將這些分類器組合在一起。

(2)Guo等人[16]提出了一種基于選擇性集成的在線自適應(yīng)深度神經(jīng)網(wǎng)絡(luò)(SEOA)來解決概念漂移問題。首先,通過將淺層特征與深層特征相結(jié)合來構(gòu)建自適應(yīng)深度單元,并根據(jù)相鄰時刻網(wǎng)絡(luò)數(shù)據(jù)的變化自適應(yīng)地控制神經(jīng)網(wǎng)絡(luò)中的信息流,從而提高了在線深度學(xué)習(xí)模型的收斂性,將不同層的自適應(yīng)深度單元作為基礎(chǔ)分類器進行集成,并根據(jù)每個分類器的損失進行動態(tài)加權(quán),以更好地檢測概念漂移。

總結(jié)

盡管已經(jīng)提出了許多方法來檢測概念漂移的發(fā)生,以及降低概念漂移的影響,但現(xiàn)有方法中仍存在一些局限性,限制了它們在實際應(yīng)用中的適用性,也為未來概念漂移的研究提供了一些可能的方向:

(1) 復(fù)雜網(wǎng)絡(luò)數(shù)據(jù)中的概念漂移檢測:現(xiàn)實世界的網(wǎng)絡(luò)數(shù)據(jù)通常更為復(fù)雜和動態(tài),而現(xiàn)有方法大多基于簡單和平穩(wěn)的網(wǎng)絡(luò)數(shù)據(jù)假設(shè)。

(2)含概念漂移的多類不平衡網(wǎng)絡(luò)數(shù)據(jù)分類:在實際場景中,網(wǎng)絡(luò)異常檢測數(shù)據(jù)往往存在類別不平衡情況,而概念漂移可能進一步增加類別不平衡的挑戰(zhàn)。因此,需要研究如何在含有概念漂移和類別不平衡網(wǎng)絡(luò)數(shù)據(jù)中進行有效的多類別異常檢測,以提高模型的泛化能力和魯棒性。

參考文獻

[1] Jo?o Gama, Indre ?liobait ˙ e, Albert Bifet, Mykola Pechenizkiy, and Abdelhamid Bouchachia. 2014. A survey on concept drift adaptation. ACM Computing Surveys 46, 4 (2014), 1–37.

[2] LECHNER A, KECKEIS H, HUMPHRIES P. Patterns and processes in the drift of early developmental stages of fish in rivers: a review[J]. Reviews in Fish Biology and Fisheries, 2016, 26: 471-489.

[3] DIEHL S, ANDERSON K E, NISBET R M. Population responses of drifting stream invertebrates to spatial environmental variability: an emerging conceptual framework[M] // Aquatic insects: challenges to populations. Wallingford UK: CABI, 2008: 158-183.

[4] COHEN A M, BHUPATIRAJU R T, HERSH W R. Feature generation, feature selection, classifiers, and conceptual drift for biomedical document triage[C]//TREC. 2004.

[5] BAYRAM F, AHMED B S, KASSLER A. From concept drift to model degradation: An overview on performance-aware drift detectors[J]. Knowledge-Based Systems, 2022, 245: 108632.

[6] KORYCKI ?, KRAWCZYK B. Concept drift detection from multi-class imbalanced data streams[C]//2021 IEEE 37th International Conference on Data Engineering (ICDE). IEEE, 2021: 1068-1079.

[7] ALKAYEM N F, CAO M, ZHANG Y, et al. Structural damage detection using finite element model updating with evolutionary algorithms: a survey[J]. Neural Computing and Applications, 2018, 30: 389-411.

[8] LU J, LIU A, DONG F, et al. Learning under concept drift: A review[J]. IEEE transactions on knowledge and data engineering, 2018, 31(12): 2346-2363.

[9] BAYRAM F, AHMED B S, Kassler A. From concept drift to model degradation: An overview on performance-aware drift detectors[J]. Knowledge-Based Systems, 2022, 245: 108632.

[10] DRIES A, RüCKERT U. Adaptive concept drift detection[J]. Statistical Analysis and Data Mining: The ASA Data Science Journal, 2009, 2(5‐6): 311-327.

[11] NISHIDA K, YAMAUCHI K. Detecting concept drift using statistical testing[C]//International conference on discovery science. Berlin, Heidelberg: Springer Berlin Heidelberg, 2007: 264-269.

[12] HAYAT M Z, BASIRI J, SEYEDHOSSEIN L, et al. Content-based concept drift detection for email spam filtering[C]//2010 5th International Symposium on Telecommunications. IEEE, 2010: 531-536.

[13] Sugandh Seth, Kuljit Kaur Chahal, Gurvinder Singh, Concept Drift–Based Intrusion Detection For Evolving Data Stream Classification In IDS: Approaches And Comparative Study, The Computer Journal, 2024.

[14] J Li, H Yu, Z Zhang, X Luo, S Xie , Concept Drift Adaptation by Exploiting Drift Type, ACM Transactions on Knowledge Discovery from Data, 2024.

[15] ELWELL R, POLIKAR R. Incremental learning of concept drift in nonstationary environments[J]. IEEE Transactions on Neural Networks, 2011, 22(10): 1517-1531.

[16] GUO H, ZHANG S, WANG W. Selective ensemble-based online adaptive deep neural networks for streaming data with concept drift[J]. Neural Networks, 2021, 142: 437-456.

作者:中國科學(xué)院計算機網(wǎng)絡(luò)信息中心 杜冠瑤 郭勇杰

責(zé)編:何潔

來源:中國保密協(xié)會科學(xué)技術(shù)分會

上一篇:因外包人員失誤:這家保險巨頭內(nèi)網(wǎng)淪陷、發(fā)生嚴重數(shù)據(jù)泄露事件

下一篇:天融信等承辦的2024數(shù)據(jù)安全大賽圓滿舉辦,恭賀獲獎團隊,我們一起乘數(shù)而上!