在不太適用的用例上過度依賴人工智能(AI)和機器學習,可能遭致不必要的危險。
網絡安全行業的短板之一,是過多關注方法學本身,錯把方法當成解決方案,而沒有認真考慮怎么發揮這些方法的最大效能。當下網絡安全行業對AI和機器學習(ML)的大肆吹捧,恰恰反映出了這一現象,令人不由得回想起2003年時的防火墻。
2003年,模式匹配是威脅檢測的主要方法。當硬件級模式匹配得以實現的時候,硬件驅動的解決方案(比如防火墻)和基于軟件的解決方案(如入侵檢測系統)之間的分界線,就已經受到了侵蝕。
迷失在這一演變中的,是入侵檢測系統已經納入了模式匹配之外的其他方法的事實,比如異常檢測和事件關聯。但這些方法根本沒能引入到防火墻中。因此,基于防火墻的模式匹配,成為了威脅檢測的默認解決方案,而不僅僅是該方案的一個重要部分。
這段歷史我們需要加以關注,因為AI,或者說,ML,也是工具發展中用以解決信息安全工作流中特定方面的一種方法,其本身并不能完全撐起信息安全。
找到AI和ML在安全上的應用價值
人工智能被定義成讓機器在無人監管的情況下自行從事“智慧性”工作。機器學習則是讓機器通過人類提供的數據自行“學習”。從定義上看,AI并不真正存在于信息安全領域,未來很長時間內都不會。
ML能比現有方法更高效地解決部分定義明確的安全難題。
大多數情況下,市場營銷材料中提到AI/ML的時候,一般描述的都是啟發式方法,而不是計算統計方法。啟發法雖然比AI簡單得多,卻非常適用于多種安全行為,且比基于數據科學的方法在算力上節省得多。
ML基本上就是異常行為識別工具箱中的一種工具,處理起邊界明確的已知問題來得心應手。
ML在惡意軟件檢測方面的驚人成功毋庸置疑,但這一技術上的成功根植于所解決問題的有界性,尤其是以下幾個方面的有界性:
結構有界性:數據類型和結構要么不變,要么變化非常緩慢。這種情況下,數據結構由文件格式規范定義。
行為有界性:ML的良好用例中,被建模數據將僅作為有限行為集的結果出現,讓數據點可預見地映射到已知行為上。
沒有顛覆性影響:這是信息安全領域特有的一個重要因素。想要找出并利用ML模型弱點的惡人從來不少。話雖如此,想要對文件作出足夠修改,對文件進行足夠的模糊化處理,讓文件既能免于被統計分析,又能被操作系統有效加載,其中難度常人難以想象。
惡意軟件分析與終端檢測及響應,正是符合以上3條限制的信息安全挑戰之一,所以機器學習在該領域相當有效。
但將同樣的思維過程應用到網絡上就很危險了,因為網絡數據的結構和行為都不受限制,攻擊者可以在網絡上發送任意0/1序列。那么,AI和ML就真的遭遇了網絡數據分析的死胡同了嗎?
這個問題還真不好回答。說是也是,說不是也不是。如果所用方法就是簡單地用這些強大的技術來識別每個用戶每臺設備偏離正常行為基線的奇點,那我們會失敗得很徹底。這些“智能”方法產生的誤報和漏報仍需由人來分析之后才可以采取行動。
比如說,基于網絡異常來發出警報的流量分析方法可能會告訴你某個IP地址突然發出了大量異常流量,但很多情況下這不過是啟動了新的備份進程而已。是否加以緩解仍需人類分析師來判定。這便又將我們帶回了AI旨在解決的人才短缺危機問題。
相反,如果我們用AI和ML通過環境內全面比較,尤其是通過與相似實體的行為進行比較,來確定良性與惡意行為,那么系統將能自動學習諸如新備份進程啟動之類的合理變化。
無論從技術層面看,還是從哲學層面看,信息安全領域的ML用例都是生而不平等的。正如2003年的防火墻,機器學習確實擁有某些能夠大幅推進企業防護狀態的良好用例。
但在不太適用的用例上過于依賴機器學習,反而會給企業帶來不必要的額外風險與開銷,還會造成其他持續性的負面影響,比如妨礙了能夠彌補ML弱點的其他方法的發展。