0? ? 引言
當前互聯網技術不斷發展,網絡攻擊手段和網絡安全威脅不斷升級。電子郵件是高級網絡攻擊和網絡犯罪發生的重災區。高級持續性威脅(Advanced Persistent Threat,APT)攻擊、賬號接管(Account TakeOver,ATO)攻擊、高級商業郵件詐騙(Business Email Compromise,BEC)攻擊不斷涌現,傳統郵件安全防護體系遠遠不能抵御日益復雜化的網絡攻擊,面臨新的挑戰。
2015年12月23日,烏克蘭至少三個區域的電力系統遭到網絡攻擊,造成大面積停電,電力中斷3~6小時,約140萬人受到影響[1]。分析發現,事件起因是:電力公司員工點擊了帶有病毒的惡意郵件,登錄證書被黑客偷取,黑客利用證書實施網絡攻擊,獲取了烏克蘭電站系統控制權,由此制造了第一例網絡攻擊造成的大停電事件[2]。無獨有偶,2017年4月美國媒體報道兩個美國科技巨頭谷歌和Facebook兩年內被騙1億美元[3],起訴書披露攻擊者通過偽造電子郵件地址和內容向這兩家公司的財務部門發送詐騙郵件,并持續獲利。除此之外,隨著APT攻擊的不斷曝光,網絡郵件釣魚攻擊是APT組織實施網絡犯罪活動時最常用攻擊手段。電子郵件安全不容忽視。
從安全角度,可將郵件過濾分為無害垃圾郵件過濾和有害惡意郵件過濾。無害垃圾郵件包括:(1)收件人事先沒有提出要求或者同意接收的廣告、電子刊物、各種形式的宣傳品等宣傳性的電子郵件[4];(2)含有欺詐信息的電子郵件。無害垃圾郵件本身不包含惡意程序。有害惡意郵件指帶有惡意鏈接和攻擊程序的電子郵件,包括:(1)攜帶病毒木馬程序的惡意電子郵件(隱藏在附件);(2)含有釣魚鏈接的誘騙電子郵件(隱藏在正文或附件)。電子郵件攻擊的多樣性,決定了郵件安全防護手段的多元化。
從技術發展看,郵件安全防護技術分為四代。第一代垃圾郵件網關對無害垃圾郵件進行過濾,以郵件來源、郵件頭部數據和內容過濾為主要技術手段,通過靜態特征識別和關鍵字匹配技術識別垃圾郵件。二十世紀九十年代第一例病毒郵件出現后,能夠識別有害惡意程序的病毒郵件網關成為郵件安全防護的主流技術;第二代病毒郵件網關通過樣本比對、腳本分析、附件檢查技術進行惡意郵件的分析和識別;隨著郵件應用的日益廣泛,釣魚攻擊者開始使用電子郵件作為URL釣魚、賬號密碼欺騙的載體,第三代郵件安全網關應運而生。第三代郵件安全網關在前兩代來源過濾、內容過濾、特征識別、惡意程序監測技術基礎上,增加了多樣化的圖片分析、URL監測和行為分析技術,能夠通過分析郵件內容、鏈接、附件、圖片,識別郵件惡意攻擊意圖和行為。
近幾年,針對電子郵件的攻擊,技術手段越來越專業化。APT攻擊、ATO攻擊、BEC攻擊、免殺木馬病毒和0DAY漏洞利用等新型攻擊手段層出不窮,傳統郵件過濾技術很難檢測,為此本文設計實現了新一代智能惡意郵件監測與溯源系統。系統融合了郵件的動態分析、沙箱運行、行為建模、行為意圖分析、威脅情報分析、大數據分析建模等智能化監測手段進行電子郵件的深度監測,能夠識別、溯源復雜的電子郵件攻擊行為。
1? ? 體系架構
新型電子郵件攻擊手段多樣化、技術復雜化、攻擊智能化,要求建立防護嚴密、過濾高效、智能化的電子郵件監測系統,為此設計了基于流量的智能垃圾郵件安全監測與溯源系統。體系結構上采用層次化過濾設計,在保證監測準確率基礎上,提高了單封郵件的處理速度。技術上采用行為分析技術提高威脅監測率,特別是提高APT攻擊、ATO攻擊和BEC攻擊等復雜攻擊的識別能力。除此之外還建立了威脅情報溯源云中心,一是進行攻擊者來源和身份背景分析,實現攻擊溯源,降低用戶損失;二是積累樣本資源,通過信息自動化反饋機制,不斷提高系統威脅感知能力。
1.1? ?總體設計
該方案包含三級過濾引擎和一個綜合處理引擎,每級過濾引擎執行不同監測功能,越高級的過濾引擎運算和處理過程越復雜。過濾引擎間的樣本數據從低級到高級逐級傳遞,傳遞原則是:一旦郵件樣本在某級過濾引擎處理中判定為垃圾郵件則過濾結束,不再向高級過濾引擎傳遞。減少樣本投遞次數和無效運算,降低資源和時間消耗。惡意郵件監測與溯源系統的體系架構如圖1所示。
1.2? 過濾引擎設計
四級引擎設計是系統保證垃圾郵件的過濾精準度和平衡時間消耗的關鍵設計。通過不同類型過濾引擎的有序串聯,一是能夠對郵件進行最全面的分析,滿足了系統的技術先進性要求;二是不過度增加系統負擔,滿足了系統在處理速度和處理時間上的時效性要求。
第一級過濾引擎定義為快速過濾引擎,能夠通過規則匹配快速判斷郵件屬性。主要基于協議會話相關技術進行過濾,設計上支持SMTP等協議分析和郵件來源分析,進行SMTP等協議項檢查和SPF檢查,通過威脅情報溯源云中心鑒定是否為惡意郵件并查明相關背景。
第二級過濾引擎是進行郵件內容過濾的核心過濾引擎,支持對郵件的正文文本、鏈接地址和郵件附件進行靜、動態檢查和過濾。設計上過濾引擎將來源數據分類為文本、鏈接、附件,不同類型數據使用不同監測方法。文本數據使用靜態分析引擎進行分詞、降維、語義分析處理,通過統計學習算法分類郵件。鏈接通過URL鏈接識別技術進行鑒定。核心監測器包括靜態、運行態和回溯監測引擎。在靜態過濾引擎不能判斷郵件屬性時,通過運行態引擎的動態監測沙箱對郵件做進一步分析。
第三級過濾引擎進行基于行為的過濾,以時序關系、因果關系和基因關系為基礎建立行為分析模型。完成兩類功能:一是當前郵件的行為分析,二是歷史關聯數據的行為分析。當前郵件的行為分析,重點分析當前郵件中程序、文檔點擊后的操作結果,通過可疑行為分析、基因關聯分析等手段判定郵件是否具有惡意郵件特征。歷史關聯數據的行為分析,側重歷史數據的融合分析。系統維護一定時間段內的郵件摘要信息,當進行歷史關聯數據行為分析時,查詢與當前郵件存在關聯關系的郵件信息,通過關系模型關聯數據,綜合判斷郵件是否為惡意郵件。
第四級綜合過濾引擎則融入人工智能技術,將前三個過濾引擎獲取的數據進行多維度的拆分組合,將所有的安全監測點融入到訓練模型中。比如郵件頭、內容、URL、附件等每種都細化出幾百種安全元素,將不斷監測到的新型威脅融入到模型中。此外,針對不同行業特點將不同的業務模型融入到郵件安全監測中,使過濾引擎具備更高的威脅監測率和更低的誤報率。
2? ? 關鍵技術
2.1? ?協議會話信息監測
除了傳統的反垃圾郵件監測手段,如SPF監測、郵件賬號合法性監測、IP域名黑名單監測等,在郵件協議會話層還可以監測如下三種行為:暴力破解郵箱賬號密碼、弱口令、異常登錄。這三種行為在APT攻擊中常常作為第一步,攻擊者在獲取賬號的用戶名密碼后,利用該賬號的可信任關系,向常用聯系人發送威脅郵件,并保持對賬號的長期監控。
暴力破解郵箱賬號密碼的監測,通過對登錄協議的報文分析,結合郵件賬號登錄時間、地點、頻率等因素綜合分析,建立監測模型,實現監測功能。一是大量弱密碼字典對郵箱賬號進行弱密碼匹配,并提示用戶;二是建立異常登錄模型,監測郵箱賬戶的異常登錄行為,比如不同IP頻繁登錄一個郵箱,一個IP頻繁登錄多個郵箱,都視為行為異常。
2.2? ?郵件頭信息監測
郵件消息頭中的From、To、Sender、Received、Subject、Return-Path、Reply-to、Cc、Resent-From[5]等用戶信息字段存有大量敏感信息。通過郵件頭的信息提取和分析能夠識別郵件來源、判斷郵件轉發路徑、分析評判郵件是否存在可疑行為。
郵件頭的Received字段記錄了詳細的消息傳輸歷史和郵件傳輸經過的節點信息,每臺接收到郵件的服務器都會自動添加IP地址和機器信息到這行,因此即使攻擊者偽造了其他郵件頭,仍可通過Received項回溯信件來源和傳輸過程。為提高威脅感知能力,在郵件頭信息監測時,增加了郵件頭信息與威脅情報平臺的聯動,通過溯源威脅情報平臺的大數據分析技術進一步提高IP地址關聯、攻擊痕跡發現和威脅感知能力。知識工程(Knowledge Engineering,KE)和機器學習(Machine Learning,ML)是電子郵件過濾的兩種常用方法[6]。在郵件頭信息監測中,除使用KE方法進行檢測規則定義外,還增加了基于Received字段的更多識別模型,如:一旦發現Received字段項包含超過一定量的信息,判定郵件很可能是被轉發或退回的異常郵件。通過威脅情報平臺和知識工程的融合監測,能夠實現更準確的威脅郵件識別與感知。目前郵件頭監測技術手段與傳統監測技術并沒有太大區別,唯一區別取決于威脅情報溯源平臺的鑒別能力。
2.3? URL鏈接過濾
網絡釣魚是一種常見電子郵件欺詐形式。攻擊者通過電子郵件向用戶發送指向惡意網站的鏈接,誘騙用戶點擊以獲取用戶敏感信息或欺騙用戶泄露個人和財務信息,如:登錄憑證、賬戶信息、用戶密碼、信用卡信息等。
進行URL鏈接過濾時考慮以下四個方面的監測:
(1)基于URL的鏈接識別;
(2)基于域名的特征識別;
(3)基于頁面的特征識別;
(4)基于內容的特征識別。
此外還關注:
(1)公共反釣魚網站平臺提供的資源信息;
(2)與該URL相關的關聯信息。
基于URL的鏈接識別、基于域名的特征識別和基于公共反釣魚平臺信息進行的郵件過濾基于靜態特征匹配技術,可實現對郵件的快速監測和過濾。基于頁面、基于內容的特征識別和與該URL相關的關聯信息分析可以基于動態分析技術,識別更隱蔽的郵件攻擊。具體URL過濾的特征分類和主要指征如圖2所示。
URL域分析URL鏈接的特征。通過分析URL鏈接的基本屬性、行為意圖、域名情況,判斷該URL是否具備惡意鏈接的基本特征或存在不良行為意圖。(1)基本屬性包括:URL數字計數、URL總長度。(2)行為分析是對攻擊者行為意圖的識別,判斷依據是分析攻擊者是否存在刻意混淆行為。評價標準有:是否存在刻意模仿行為、是否存在拼寫語法錯誤(拼寫語法錯誤往往是由于攻擊者插入了特殊字符、隱藏字符等)。(3)域名分析是通過分析URL子域個數、頂級域名(Top Level Domain,TLD)是否是常用域名、域名起名是否存在規律性和隨機性、是否故意設置了存在歧義性的域名等異常行為特征。
基于域名的特征識別,通過公共資源利用、基本屬性分析和行為分析方式,識別URL鏈接是否為可信鏈接。公共資源利用是通過與國際反垃圾郵件組織提供的黑/白名單比對,發現域名是否可疑;基本屬性分析是通過檢查域名注冊的時間信息,分析域名可信度;行為分析是通過域名分配機構提供的域名注冊信息,分析域名用者是否存在刻意隱藏注冊人姓名、注冊地址等可疑行為,依據可疑程度綜合評估確定域名是否可信。
基于頁面的特征識別,通過分析鏈接所指向頁面的屬性和關聯信息,檢查URL鏈接是否符合正常頁面的訪問特征。檢查依據:全球頁面排名情況、國家頁面排名情況、Alexa流量排名情況、頁面類別、相似頁面、被其他網站的引用次數、頁面每日/月/周的平均訪問次數、平均訪問時間等。
基于頁面內容的特征識別,通過分析鏈接所指向頁面的頁面內容,判斷URL鏈接的可信度。需要進行基本屬性分析、行為分析和站點分析。基本屬性分析是通過分析頁面標題和正文文本內容發現頁面的不正常狀態。行為分析需要對頁面的不可見文本、圖片、登錄情況、網站受眾信息等進行逐項分析,發現頁面的可疑特征和攻擊意圖。站點分析是通過分析站點架構和頁面標簽項,判斷站點是否具備正常網站特征。如經過檢查發現頁面存在異常行為,則判斷頁面對應的URL鏈接為惡意鏈接。
明確URL鏈接識別中的基本要素后,為每一象限特征構造一個決策樹,多棵決策樹累加、訓練得到最終URL鏈接的識別結果。
2.4? ?郵件內容過濾
郵件內容過濾是垃圾郵件過濾的關鍵步驟。將內容過濾分類為文本監測過濾和圖片監測過濾,采用深度文本意圖分析技術、圖像識別技術、圖像對比技術進行郵件內容過濾。
2.4.1? ?深度文本意圖分析技術
傳統文本監測技術是基于關鍵字或多項關鍵字的正文文字檢驗,針對敏感信息外發,涉密文件監測有一定效果,但是忽略了對郵件正文結構的監測,而且誤報率高。本技術的核心思想是提取郵件的正文特征和主題特征,采用異常文件結構識別技術和語義意圖分析技術進行郵件內容和結構的大數據建模。模型建立后解析當前郵件樣本的文本內容和文件結構,通過模型分析當前郵件與正常郵件在內容、結構方面的偏離度,深度挖掘郵件發送者意圖,區分惡意郵件與正常郵件。通過偏離度分析模型能夠在一定程度上識別ATO攻擊、BEC攻擊中郵件正文鏈接使用的0day漏洞,對抗高級加密混淆類漏洞利用攻擊。具體包括:
(1) 分析標題及正文意圖,與URL內容進行比較,判斷意圖是否一致,如不一致判斷存在攻擊行為。典型應用場景為:郵件詐騙者騙取用戶訪問惡意URL鏈接,利用瀏覽器漏洞在用戶主機執行惡意代碼或者盜取用戶密碼。
(2) 分析標題及正文意圖,與附件(文檔類)內容進行比較,判斷意圖是否一致,如不一致判斷存在攻擊行為。典型應用場景為:攻擊者向目標郵箱賬戶發送含有漏洞利用程序的附件文檔,此類惡意文檔一般存在文件結構問題,可通過數據建模的方式識別異常。郵件安全防護系統進行垃圾郵件過濾時如果僅憑結構異常就判定郵件為惡意郵件,可能造成誤報影響用戶體驗。若通過意圖比較技術進一步分析,一旦發現郵件行為意圖可疑并且文件格式存在問題,則初步判斷郵件可能為惡意郵件。通過意圖比較分析技術能夠提高惡意郵件識別的準確率。
(3) 加密惡意附件的解密與監測技術:為規避檢查,聰明的郵件攻擊者可能使用加密技術進行攻擊載荷隱藏,并在正文中顯示密碼,方便用戶手工輸入解密。自動化沙箱監測因不能識別密碼而無法對郵件解密進行檢查。加密惡意附件的解密與監測就是通過文本語義分析技術自動識別出正文中的密碼信息,并以此為憑據解密附件,進行自動化分析與過濾。
2.4.2? ?圖片識別技術
隨著郵件攻擊技術的發展,出現了將信息隱藏在圖片中發送的垃圾郵件規避技術,圖片識別技術專用于監測此類攻擊。有兩類主要技術方法:
(1) 圖片文字識別技術:利用該技術可將圖片中的文字轉化為文本,然后使用深度文本意圖分析技術進行發送者意圖分析,識別通過圖片隱藏的惡意垃圾郵件。
(2) 圖片密碼識別技術:為規避郵件過濾系統的監測,攻擊者常常將帶有惡意漏洞利用程序的附件加密,并將解密密碼隱藏在正文圖片中一起發送到受害者郵箱。受害者收到郵件后根據圖片信息可解壓打開惡意文檔。郵件過濾系統因不能解密而無法正確過濾郵件。利用圖片密碼識別技術,可以發現圖片中的隱藏密碼并正確識別,利用密碼自動解壓附件、過濾惡意程序,使攻擊行為無處可藏。
2.4.3? ?圖像對比技術
圖像對比技術進一步加強了釣魚攻擊的監測力度。在商業釣魚中,不法分子經常偽造銀行頁面,騙取用戶賬號密碼。釣魚網站域名在未被安全公司披露前,往往會有大量用戶中招。圖像對比技術采用類似網站快照的方式,對全球易被誘騙的正常網站頁面鏡像拍照,當識別出郵件中URL中內容與正常網站的相似度為99%以上,但URL鏈接不是真實的鏈接時,判定為釣魚鏈接。
2.5? ?郵件附件過濾
網絡安全攻防對抗不斷升級,免殺技術、0day漏洞大量曝光,僅僅依靠傳統的殺毒引擎很難保持對惡意附件的高查殺率。沙箱技術的出現雖然實現了一定程度的過濾,但繞過沙箱監測的技術也在不斷出現,仍有大量惡意郵件樣本繞過監測。為此,提出沙箱與機器學習相結合的郵件附件過濾技術。主要實現以下三大類附件的監測與過濾:
(1)腳本監測:采用基于機器學習的加密混淆監測模型。首先通過加密手法、混淆手段、提取分析技術抽取樣本,學習訓練形成腳本監測模型,將模型與腳本在沙箱中的行為監測結果結合,識別是否存在惡意行為。
(2) Office文檔、pdf文檔監測:系統進行文檔監測時,除利用靜態分析技術進行文檔格式檢查、威脅特征匹配、宏監測、惡意ole對象檢查外,還利用了動態沙箱監測技術監控文檔打開后的所有行為,判斷是否存在下載執行、反彈回連、數據傳輸等可疑木馬行為。除此之外,系統通過大量文件進行文檔異常格式數據建模及訓練,利用模型結合沙箱的行為監測技術感知威脅、監測未知漏洞。
(3)可移植的可執行(Portable Executable,PE)文件監測:首先通過字符串分析、導入表分析、資源圖標分析、編譯信息分析、PE其他結構(包括DEP/NX /ASLR)深度分析等方法對PE文件綜合打分,然后依靠機器學習算法優化權值和威脅閾值,綜合評判實現威脅附件的發現與識別。對于威脅值高但無法確定存在威脅的文件,通過沙箱監控技術進行再次監測。全面監控文件、內核、內存、注冊表的變化情況并建立各種行為的異常數據模型,通過機器深度學習方式識別發現威脅。此外增加沙箱逃避監測技術,防止惡意文件監測到沙箱環境后停止運行、逃避檢查。
2.6? ?惡意郵件溯源
威脅情報平臺積累了多個知識庫,通過關聯分析模型實現溯源,包含黑客工具知識庫、黑客身份定位知識庫、黑客身份定位知識庫、漏洞庫、木馬庫、惡意DNS庫、惡意域名庫、惡意URL庫、黑客指紋庫、黑客行為庫、規則場景庫等。比如黑客工具知識庫能根據工具指紋識別攻擊者使用的工具,用于判斷攻擊者的身份,因為不同組織不同地區的攻擊者都有其自己的黑客工具。黑客攻擊手法知識庫,不僅能分辨出黑客的水平,甚至可能確定黑客的身份和組織。黑客身份定位知識庫收集了全球大量黑客個體和組織信息,以及對應的攻擊事件,當檢測到攻擊時,能自動識別是否為對應的攻擊者,如果未識別,也會自動收集該攻擊行為的指紋和手法,下次遇到同樣攻擊行為指紋和手法則會識別出來。除此之外,還可以聯動其他安全廠商資源,關聯攻擊者曾在互聯網上的攻擊事件。
威脅情報平臺數據來源分為三部分:第一部分通過全球部署的蜜罐系統長期收集攻擊者相關的威脅情報。第二部分采用大數據采集技術進行開源威脅情報的信息挖掘和收集,由安全專家進行信息的篩選分析,最終整理形成有價值的威脅情報。第三部分是通過大量部署在客戶網絡的安全監測設備反饋形成的威脅情報
黑客工具知識庫是威脅情報溯源云中心的重要元素,通過“三因子模型”定義溯源基因。“三因子模型”從靜態指紋基因、隱態指紋基因和動態行為指紋基因三個角度定義惡意郵件的溯源基因。
每類指紋基因定義專屬標簽項,每個標簽項下設定具體的溯源特征和指標。三因子模型共包含19個標簽項,近百項溯源特征和指標。其中標簽項的定義和分類如圖3所示。
通過對黑客工具的識別,很大程度上可以識別攻擊者的背景、身份。
3? ? ?系統實現與應用
惡意郵件智能監測與溯源系統的主要功能包括惡意郵件的監測、識別、過濾和溯源。系統包括三個主要功能模塊:
(1) 網絡流量中郵件數據的采集;
(2) 網絡流量中郵件數據的分析與溯源;
(3) 惡意郵件查詢和溯源結果顯示。
其中,網絡流量中郵件數據的采集由公司部署在網絡關口的多個探針系統完成,利用探針系統可完成網絡流量數據的獲取。
網絡流量中郵件數據的分析與溯源是系統核心功能,包括三個子模塊:
(1) 郵件數據提取:從海量網絡流量中提取郵件相關數據,重組郵件。
(2) 多級過濾引擎:融合多項郵件過濾關鍵技術和分類匹配算法、機器學習算法進行惡意郵件的檢測、識別與過濾。
(3) 溯源分析模塊:采用基于威脅情報的三因子指紋識別技術,進行郵件基因關聯,識別郵件的真實來源和所屬黑客組織。
惡意郵件查詢和溯源結果顯示使用BS架構,用戶可通過瀏覽器方便地進行惡意郵件查詢、樣本獲取和溯源結果查看。
目前系統已成功應用于網信辦、公安部、海關總署等政府機關和國家電網、民生銀行、中國聯通等大型企業。在實際應用環境中,采用智能惡意郵件監測與溯源技術實現的“睿眼郵件攻擊溯源”系統,成功識別、溯源多起境外黑客組織以郵件方式發起的APT攻擊;幫助用戶及時發現、應對、溯源針對內網用戶的釣魚郵件攻擊、BEC攻擊、ATO攻擊等高級郵件威脅。同時,通過行為分析及時發現用戶郵件的弱口令設置、賬號受控等不安全因素,告警提示、預警風險,取得良好應用效果。
4? ? 結論
為解決現有惡意郵件安全檢測系統在監測能力和溯源能力方面的不足,本文提出發展新一代智能惡意郵件安全監測與溯源系統的技術需求。圍繞識別APT、ATO、BEC等新型復雜攻擊的惡意郵件監測要求,設計了一款包含多類檢測引擎和多級過濾系統的智能郵件監測與溯源系統。系統基于獲取的網絡流量數據進行惡意郵件的分析和過濾,除具備傳統垃圾郵件過濾功能外,還融合了異常行為分析、URL鏈接過濾、深度文本意圖分析、圖像識別、圖像對比、加密附件解密、沙箱監測、威脅情報溯源等智能化郵件分析技術,能夠更加智能地感知網絡流量數據中的惡意郵件威脅、識別高級復雜郵件攻擊,并且結合威脅情報溯源云中心提供的威脅情報數據能夠發現攻擊來源、溯源攻擊者的身份或所屬黑客組織。
參考文獻
[1] 馬佳.烏克蘭電網遭遇黑客攻擊,有何警示意義[M].國家電網報,2016-1-26.
[2] 湯奕,王琦,倪明,等.電力信息物理融合系統中的網絡攻擊分析[J].電力系統自動化,2016,40(6): 148-151.
[3] JOHN ROBERTS J. Exclusive:Facebook and google were victims of $100M payment scam.FORTUNE, 2017.
[4] 國家互聯網應急中心(CNCERT/CC).CNCERT互聯網安全威脅報告[R]. 2018,10.
[5] POSTEL J B. Simple Mail Transfer Protocool[M]. Springer, 1982.
[6] AWAD W A, ELSEUOFI S M.Machine learning methods for Spam E-mail Classification[J]. International Journal of Computer Science & Information Technology (IJCSIT),2011, 16(1): 39-45.