压在透明的玻璃上c-国产精品国产一级A片精品免费-国产精品视频网-成人黄网站18秘 免费看|www.tcsft.com

網絡異常檢測領域概念漂移問題簡述

引言

隨著互聯網和大數據的快速發展,網絡異常檢測作為保護網絡安全和維護系統正常運行的手段變得越來越重要。網絡異常檢測往往依靠日志或流量等網絡數據,而這些數據發生概念漂移會對網絡異常檢測的準確性和可靠性產生較為嚴重的影響。因此,近年來針對網絡異常檢測領域的概念漂移檢測研究也引起了廣泛關注。概念漂移(Concept Drift)是指隨著時間推移,流數據的分布發生變化的情況,這種變化可能由外部或內部因素引起。網絡異常檢測領域常用到的數據有日志數據和流量數據等,本質上也是流數據。因此,已有的針對流數據的概念漂移檢測方法也適用于網絡異常檢測領域。

1 概念漂移概述

概念漂移是指在數據生成過程中,數據的統計特性或關系隨時間發生變化的現象。然而,對于概念漂移的定義目前并不統一,存在多種觀點和說法。當前被普遍認同的定義是:在機器學習和數據挖掘領域中,模型在時間或者環境改變的情況下,對于輸入數據的理解和預測能力發生變化的情況。這種變化可能是由于外部環境的變化、數據生成過程的演化、觀察偏差或噪聲引起的[1]。因此,在概念漂移的分析中,需要考慮各種類型的數據以及潛在的漂移原因。

數據發生概念漂移的原因可能有多種:

(1) 數據內部變化(Internal Data Changes)[2],例如郵件系統、社交網絡中,用戶的行為可能會隨時間改變,導致數據分布發生變化。

(2) 外部環境變化(External Environmental Changes)[3],隨著時間的推移,數據生成的環境可能會發生變化,例如新的技術工具和平臺的出現、過濾器的改進等。

(3) 數據收集過程的變化(Changes in Data Collection Process)[4],數據的收集方式或過程發生變化,例如更換了不同的記錄系統、修改了數據抽取規則等。

概念漂移對模型造成影響主要是因為它引起了數據分布的變化,當數據分布發生變化時,模型在面對新的數據分布時可能無法有效地捕捉到新的異常模式或變化,這導致了以下幾個方面的影響:

(1) 模型退化(Model Degradation)

概念漂移意味著數據的統計特性和關系發生了變化。當數據分布發生變化時,模型在面對新的數據分布時可能無法捕捉到新的異常模式或變化,從而導致模型退化[5]。模型退化會使得模型的準確性下降,無法有效對新的網絡數據進行異常檢測和預測。

(2) 決策偏差(Decision Bias)

概念漂移還可能會引起模型的決策偏差[6]。當數據分布發生變化時,模型在進行決策時可能偏向于過去的數據分布,而忽視了新的數據分布中出現的新模式和異常行為。這種決策偏差可能增加模型在各種異常檢測任務中的誤報和漏報現象。

(3) 模型更新困難(Difficulty in Model Updating)

受概念漂移影響,模型更新變得困難[7]。當數據分布發生變化時,為了適應新的數據分布,模型需要進行更新或重新訓練。然而,在在線系統或實時應用中,模型更新需要在運行過程中進行,這可能會涉及到計算資源和時間的限制。此外,如果訓練數據的標簽信息不完全或不準確,模型更新過程中的監督學習可能會受到困擾。

2 概念漂移分類

(1)按概念漂移真偽性分類

在研究概念漂移領域中,一種常見的分類方法是根據真偽概念漂移對其進行劃分,以更好地理解漂移的本質和影響。真偽概念漂移基于網絡數據中的變化是由真實的概念漂移引起,還是由噪聲、異常或誤差等非真實因素引起[8]進行分類。

圖1 基于真偽的兩種概念漂移抽象化描述

圖1給出基于真偽概念漂移的抽象化描述,可以看出真實概念漂移是由于目標概念本身變化而導致的數據分布變化,而偽概念漂移是由于數據采樣或標注錯誤等因素引起的誤導性數據分布變化。了解真偽概念漂移的區別可更準確地判斷網絡異常檢測中概念漂移的源頭,從而采取適當的措施來應對網絡數據不同類型的漂移,確保異常檢測模型的準確性和魯棒性。

(2)按漂移速度分類

概念漂移的變化方式和因素可以以不同的速度發生,這與數據的統計特性和關系的變化密切相關。這些不同類型的概念漂移由各種事件、行為、環境和因素引起,從而使得網絡異常檢測領域數據的統計特性和關系隨時間發生變化,進而影響機器學習模型在不同時間段的準確性和適應性[9]。

突變漂移(Sudden Drift)指的是概念在某個時間點上突然發生變化的情況,導致數據的統計特性和關系在短時間內突然改變。例如,網絡異常檢測中突然出現新的技術或突發事件可能導致不同類型的數據特征突然變化。

漸進漂移(Gradual Drift)是指數據分布的逐漸變化,主要強調變化的速度逐漸加快,可能是非線性的。例如,網絡系統升級、用戶群體變化、法規政策調整等因素可能導致各種類型數據特征發生偏移。

漸增漂移(Incremental Drift)也是指數據分布的逐漸變化,但與漸進漂移略有不同,漸增漂移變化是緩慢的、線性的,并且相對較為平緩。例如,隨著時間推移,發送者可能會逐漸改變其行為策略,采用新的方法或策略,導致各種類型數據特征分布逐漸變化。

復發式漂移(Seasonal Drift)指的是數據的概念變化與時間的變化相關。例如,在特定的季節,如節假日季節,人們使用網絡行為模式可能會發生變化,從而導致數據中對應的特征分布發生變化。

圖2 基于速度的四種概念漂移抽象化描述

(3)按漂移的空間分布分類

根據漂移發生的空間特征,可以將漂移劃分為局部漂移與全局漂移,及連續漂移與非連續漂移。

局部漂移(Local Drift)僅發生在數據局部區域,而其他區域保持穩定。這種漂移模式可能由特定數據子集變化引起,例如,在在線購物平臺中的局部漂移場景中,數據的局部區域可能會發生漂移,而其他區域保持穩定。

全局漂移(Global Drift)發生在數據的整體分布上,涉及到整個數據集或大部分數據。這種漂移模式可能由整體環境的變化、數據源的更改或廣泛影響的外部因素引起。例如,在一個電子商務平臺上,某一時期整個平臺的用戶開始偏好購買環保和可持續發展的產品,而不再關注傳統的大品牌商品。

連續漂移(Continuous Drift)在空間上是連續的,即漂移發生區域之間沒有明顯的邊界或過渡區域。這種漂移模式可能由漸進性數據變化、復發式變化或漸進的系統演化引起。例如,在一個在線氣候數據收集系統中,溫度數據呈現出連續漂移。隨著時間的推移,數據顯示溫度逐漸上升,反映出氣候變暖的趨勢。

非連續漂移(Discontinuous Drift)在空間上是間斷或不連續的,即漂移發生區域之間存在明顯的邊界或過渡區域。這種漂移模式可能由系統變更、數據源切換或特定事件發生引起的。例如,一個社交媒體平臺引入了新的算法和界面設計,導致用戶群體的行為發生了明顯的變化。

圖3 基于真偽的兩種概念漂移抽象化描述

3 概念漂移檢測方法

概念漂移是異常檢測領域的重要研究方向,已存在多種用于檢測概念漂移的方法,較為經典的方法有:基于統計的方法、基于預測的方法、基于滑動窗口的方法等。近年來,還涌現出許多基于機器學習方法和深度學習的概念漂移檢測方法。

基于統計的方法

在較為經典的基于統計的方法中,比較有代表性的有均值和方差檢測(Mean and Variance Detection)、卡方檢驗(Chi-Square Test)和KL散度檢測(KL Divergence Detection)。其中:

(1)均值和方差檢測通過比較數據的均值和方差來檢測數據分布的變化。Dries等人[10]提出了3種新的網絡數據漂移檢測方法,這些方法可以動態調整以匹配已有的實際數據。第一個是基于數據二進制表示的密度估計秩統計,第二個是比較1范數支持向量機(SVM)引起的線性分類器平均裕度,最后一個是基于SVM分類器的平均0-1、S形或逐步線性誤差率,這幾種方法進行結合可以對網絡異常檢測數據中的多變量數據進行概念漂移檢測。

(2)卡方檢驗方法基于卡方統計量來比較觀察值和期望值之間的差異,從而檢測漂移的發生。Nishida等人[11]提出了一種基于元學習的在線數據主動漂移檢測(Meta-Add)框架,該框架通過跟蹤錯誤率的變化模式來學習分類概念漂移。在訓練階段,根據各種概念漂移的錯誤率提取元數據,然后使用卡方檢驗來判斷這些錯誤率是否存在顯著的差異,從而檢測概念漂移的發生。在檢測階段,通過基于流的主動學習,利用元測試器調整模型以適應不同的網絡數據,從而實時監測和適應概念漂移。

(3)KL散度檢測方法通過計算兩個概率分布之間的KL散度來度量數據分布的變化。Hayat等人[12]提出了一種基于KL散度的自適應垃圾郵件過濾系統,該系統利用計算電子郵件內容分布的偏差來檢測概念漂移。該方法可以與各種分類器結合使用,文中采用了樸素貝葉斯分類器。通過使用安然公司的數據集進行評估,結果表明該方法在檢測概念漂移方面具有有效性,并且在準確度方面優于樸素貝葉斯分類器。

基于機器學習的方法

近年來,有幾種較新的利用機器學習檢測概念漂移的方法:

(1)Sugandh [13]提出了一種基于自適應隨機森林(Adaptive Random Forest,ARF) 分類器的方法,并結合了 Hoeffding 邊界和移動平均測試,以實現網絡入侵的早期和準確檢測。ARF 能夠實時適應網絡環境和攻擊模式的變化,并通過 Hoeffding 邊界和移動平均測試識別概念漂移,從而區分正常網絡變化和潛在入侵。這種方法有效地降低了誤報率和漏報率,提高了整體檢測率。在最新的 CIC-IDS 2018 數據集上,該方法實現了 99.95% 的準確率和 99.96% 的召回率。

圖4 ARF自適應框架工作流程

(2)Li等人[14]提出了一種名為Type-LDA的新型概念漂移適應框架,旨在解決數據流中概念漂移問題帶來的模型預測準確性下降。該框架利用離線訓練過程,無需人工設定統計測試,即可自動檢測概念漂移的發生時間和類型,并根據漂移類型選擇最優的漂移點進行模型重新學習。Type-LDA框架包含三個關鍵模塊。其中,漂移類型識別器模塊基于原型網絡,通過學習不同漂移類型的誤差特征,將漂移類型識別問題轉化為分類問題。漂移點定位器模塊結合原型向量和誤差特征,使用回歸模型預測漂移發生的最佳時間點。基于流的主動學習模塊利用熵和信息距離策略,選擇最具代表性的樣本進行模型微調,提高模型的泛化能力。實驗結果表明,Type-LDA框架在模擬數據和真實數據集上均優于現有的漂移適應方法,證明了識別概念漂移類型對于找到最優漂移點的重要性。

(a) Type-LDA框架流程圖

(b) Type-LDA框架中漂移類型識別器模塊工作示意圖

(c) Type-LDA框架中漂移點定位器模塊工作示意圖

圖5 Type-LDA框架流程圖及主要模塊工作示意圖

基于深度學習的方法

在基于深度學習的概念漂移檢測方法中,典型的方法是通過建立神經網絡模型來學習數據分布,并監測網絡輸出的變化來檢測概念漂移。

(1)Elwell等人[15]提出了一種名為Learn++.NSE的基于分類器集合的概念漂移增量學習方法,用于處理非平穩環境(NSE)下的網絡數據。Learn++.NSE算法能夠從連續批次的數據中學習,而不對漂移的性質或速率做出任何假設,適用于各種類型的漂移環境。該算法屬于增量學習范疇,不需要訪問以前的數據。Learn++.NSE在接收到每個批次數據時訓練一個新的分類器,并使用動態加權多數投票將這些分類器組合在一起。

(2)Guo等人[16]提出了一種基于選擇性集成的在線自適應深度神經網絡(SEOA)來解決概念漂移問題。首先,通過將淺層特征與深層特征相結合來構建自適應深度單元,并根據相鄰時刻網絡數據的變化自適應地控制神經網絡中的信息流,從而提高了在線深度學習模型的收斂性,將不同層的自適應深度單元作為基礎分類器進行集成,并根據每個分類器的損失進行動態加權,以更好地檢測概念漂移。

總結

盡管已經提出了許多方法來檢測概念漂移的發生,以及降低概念漂移的影響,但現有方法中仍存在一些局限性,限制了它們在實際應用中的適用性,也為未來概念漂移的研究提供了一些可能的方向:

(1) 復雜網絡數據中的概念漂移檢測:現實世界的網絡數據通常更為復雜和動態,而現有方法大多基于簡單和平穩的網絡數據假設。

(2)含概念漂移的多類不平衡網絡數據分類:在實際場景中,網絡異常檢測數據往往存在類別不平衡情況,而概念漂移可能進一步增加類別不平衡的挑戰。因此,需要研究如何在含有概念漂移和類別不平衡網絡數據中進行有效的多類別異常檢測,以提高模型的泛化能力和魯棒性。

參考文獻

[1] Jo?o Gama, Indre ?liobait ˙ e, Albert Bifet, Mykola Pechenizkiy, and Abdelhamid Bouchachia. 2014. A survey on concept drift adaptation. ACM Computing Surveys 46, 4 (2014), 1–37.

[2] LECHNER A, KECKEIS H, HUMPHRIES P. Patterns and processes in the drift of early developmental stages of fish in rivers: a review[J]. Reviews in Fish Biology and Fisheries, 2016, 26: 471-489.

[3] DIEHL S, ANDERSON K E, NISBET R M. Population responses of drifting stream invertebrates to spatial environmental variability: an emerging conceptual framework[M] // Aquatic insects: challenges to populations. Wallingford UK: CABI, 2008: 158-183.

[4] COHEN A M, BHUPATIRAJU R T, HERSH W R. Feature generation, feature selection, classifiers, and conceptual drift for biomedical document triage[C]//TREC. 2004.

[5] BAYRAM F, AHMED B S, KASSLER A. From concept drift to model degradation: An overview on performance-aware drift detectors[J]. Knowledge-Based Systems, 2022, 245: 108632.

[6] KORYCKI ?, KRAWCZYK B. Concept drift detection from multi-class imbalanced data streams[C]//2021 IEEE 37th International Conference on Data Engineering (ICDE). IEEE, 2021: 1068-1079.

[7] ALKAYEM N F, CAO M, ZHANG Y, et al. Structural damage detection using finite element model updating with evolutionary algorithms: a survey[J]. Neural Computing and Applications, 2018, 30: 389-411.

[8] LU J, LIU A, DONG F, et al. Learning under concept drift: A review[J]. IEEE transactions on knowledge and data engineering, 2018, 31(12): 2346-2363.

[9] BAYRAM F, AHMED B S, Kassler A. From concept drift to model degradation: An overview on performance-aware drift detectors[J]. Knowledge-Based Systems, 2022, 245: 108632.

[10] DRIES A, RüCKERT U. Adaptive concept drift detection[J]. Statistical Analysis and Data Mining: The ASA Data Science Journal, 2009, 2(5‐6): 311-327.

[11] NISHIDA K, YAMAUCHI K. Detecting concept drift using statistical testing[C]//International conference on discovery science. Berlin, Heidelberg: Springer Berlin Heidelberg, 2007: 264-269.

[12] HAYAT M Z, BASIRI J, SEYEDHOSSEIN L, et al. Content-based concept drift detection for email spam filtering[C]//2010 5th International Symposium on Telecommunications. IEEE, 2010: 531-536.

[13] Sugandh Seth, Kuljit Kaur Chahal, Gurvinder Singh, Concept Drift–Based Intrusion Detection For Evolving Data Stream Classification In IDS: Approaches And Comparative Study, The Computer Journal, 2024.

[14] J Li, H Yu, Z Zhang, X Luo, S Xie , Concept Drift Adaptation by Exploiting Drift Type, ACM Transactions on Knowledge Discovery from Data, 2024.

[15] ELWELL R, POLIKAR R. Incremental learning of concept drift in nonstationary environments[J]. IEEE Transactions on Neural Networks, 2011, 22(10): 1517-1531.

[16] GUO H, ZHANG S, WANG W. Selective ensemble-based online adaptive deep neural networks for streaming data with concept drift[J]. Neural Networks, 2021, 142: 437-456.

作者:中國科學院計算機網絡信息中心 杜冠瑤 郭勇杰

責編:何潔

來源:中國保密協會科學技術分會

上一篇:因外包人員失誤:這家保險巨頭內網淪陷、發生嚴重數據泄露事件

下一篇:天融信等承辦的2024數據安全大賽圓滿舉辦,恭賀獲獎團隊,我們一起乘數而上!