压在透明的玻璃上c-国产精品国产一级A片精品免费-国产精品视频网-成人黄网站18秘 免费看|www.tcsft.com

思睿董靖:機器智能輔助威脅情報生產的三個實例

董靖:首先感謝主辦方給我們這樣一個機會讓我們分享在威脅情報生產方面的實踐經驗。這個話題我們報的時候說是三個實例,后來想想每一個實例都可以講至少半天以上。

4  董靖

現在大家碰到的問題是在威脅情報領域大家覺得落地比較困難,在威脅情報領域落地困難其實主要是我們需要有很多的人力資源去投入,會有很多的困境,今天我主要會講三個有關的困境,這個困境并不代表著我們舊的模式沒有吸引力,實際上它還是非常有效果的,可是在落地過程中,大家都會覺得需要改進更進一步,首先我們會講三個困境,第一是類似于拿webshell,這是大量的互聯網公司有大量地露在web的服務器,它跟木馬有取消,怎么樣快速地除了大量的webshell的應急都有很多的工作可以做。第二個困境是說現在各種會議都講怎么用威脅情報去做溯源和追蹤,大家經常會看到DNS這種方式,這種方式也會遇到很多的問題,比如說現在在隱私保護方面可以用很低的成本做得到,第三還會講一講怎么在用戶側做威脅情報的再生產,因為現在有一個很大的困境在于威脅情報發放一天可能有幾十萬條,企業和用戶處如何落地是一個很頭疼的問題。

我講這些東西已經假設大家對分析情報有一定的了解。因為牽扯到人工智能輔助生產威脅情報,所以我簡單給大家說說人工智能的技術,現在來看人工智能主要是概括,第一是機器學習,有監督和無監督的機器學習,人工智能今年突然變得熱起來,安全領域應用場景也變得多起來,機器學習最大的優勢是能大幅度降低分析工作人員和安全工作人員的工作量,如果現在去講人工智能替代分析人員的話,其實這個為時尚早是不現實的,但我們也能看到它能夠大幅度降低50%甚至是到達80%的分析工作量,這對現在的安全行業來講是非常大的促進。在數據的算法中,實際上數據挖掘只有三類問題,第一是回歸主要是做數值預測的,另外是聚類和分類,我們主要在三兩個方向是用得比較多的,因為回歸可能大家看到廣告的點擊的預測,像電商購物會有一些貨品的推薦,這些用得比較多。聚類和分類,是把一堆不相干的大量原始的樣本歸成一堆一堆的,這就是聚類。分類是說把很多原始的樣本分成一個類別一個類別的,所以這個分類實際上是我們在安全領域用得非常多的,比如說實際上木馬識別也可以歸納為分類的問題,因為一個同源的木馬,一個家族不管是EK還是哪個EK去做的話,實際上做出來的有高度的代碼輔用,所以是很容易分成不同的類別的。當然還有自然語言處理。

機器學習用在安全領域傳統的流程步驟是什么樣的,基本上我們會有很多的原始數據,進行無監督的機器學習就可以把它做聚類,這個有挺多,實際上很多大數據分析產品里面平臺里面會說做異常分析,異常分析很重要的一點是要做聚類,我把相類似的相同的用戶行為的業務系統登錄行為聚成一類一類的,有一線的部門、后臺的部門,不推的業務領域的部門,日常的業務系統登錄的行為是不太相同的,有的銷售人員每天早上到辦公室半個小時,這半個小時的時間是他登錄郵件系統CRM系統非常頻繁的時間,等他到了10點以后,集中地拜訪客戶,下午4點鐘之前這段時間很少碰CRM系統,看里面詳細的客戶的詳細的信息,典型的行為分析進行聚類。有了分類的結果進行監督的分析,分類其的好處是它的性能非常地有益,所以在海量數據里可以找到我們比較關注的類別,比如說像異常分析里面像我們發現說業務后臺人員的登錄時間都是在白天的工作時間,突然有很多異常的行為發生在凌晨,這個用分類器很容易很快速地就能做出來。

今天我就講三個實力這三個實力不太會講基礎的東西,第一是webshell的分類,假設大家對webshell有一些了解,Ctnife一句話的webshell不管是大碼還是小碼檢測的過程中都有困難,因為對webshell用腳本來寫的木馬,只需要經過簡單的幾個月的學習,就可以自己去更改這些webshell的特征,代碼的順序,特征的值。怎么樣檢測webshell就變成了很頭疼的問題,第一個困境是用簽名的辦法去檢測木馬,碰到了很大的問題。到底是什么樣的原因和根源造成了檢測webshell的誤報和漏報呢?前面的演講者也提到了寫政策表達式,實際上很復雜,原因是它的keyword或者是partten信息不夠,你用很少量的信息報木馬的話就會有問題。partten寫得松就會有誤報。大家很自然的想法是,如果只是Keyword? partten信息量不夠,或者是函數量不夠,是不是可以提取更多的特征,特征提取得更多,就可以判別準確性,我可以用特征信息,先用了那個函數、后用了哪個函數,先給了變量的賦值還是后給了變量的賦值,我們就有了n-gram,前后按一個順序發生的partten。

可以看到在國際會議上,在首爾剛剛開完的會議,其中有一個議題是講怎么樣用人工智能的辦法大規模地識別webshell。做法很簡單,把webshell里面先符號化,代號話,先做token,下面有一個例子,有一個函數名都給簡化成function,賦值函數值的變化有字符串或者是各種各樣的,用n-gram看它發生的順序,之后再把它向量化,在一個多維向量空間里算余弦。他們選用的辦法是SVM和KNN,這個演講者做了很多年從13年開始到16年做了3年多的時間,但在我們看來其實有很多可以改進的空間,我們自己也在過去半年中跟合作伙伴做了webshell的人工智能的檢測識別。首先特征選取上,我們是選了包括函數名、變量代號、字符串代號、運算符代號,如果把一個函數名簡化成歸一,就變化了一個function的代號,實際上它已經喪失了很多特征。我們就用更多的特征去選,還有ensemble也是機器學習里使用的,把多種算法組合在一起來做的。實際上,我們也看到了聚類的結果,可以做到webshell很多的文件名是用散列值webshell的值來代表做文件名的,即使是不同的散列值也可以作成一個名類,你可以得到非常好的效果,如果能夠把木馬做實時的據類和分類的話,對應急響應是非常有幫助的因為你首先知道木馬的行為是什么,具有多大的破壞性,應該怎么樣解決問題,在企業中擴散的范圍和擴散的速度是不是很快。我們怎么用機器學習的方法做大規模的webshell的聚類和分類以及識別的問題。

接下來我們再講一講看一看現在比較流行的惡意網址,實際上這個網址并不是說一定是一個釣魚網站,或者說是一個掛著碼的網站也有可能是一個木馬的主控服務器。傳統的做法是用WHOIS的分析,它分析的好處是可以通過注冊的郵件地址,可以通過各種各樣的注冊的人名、地址變化看看這些域名是不是有組織關系,是不是一個黑山組織或者是一個黑客組織來創立的。但實際上,WHOIS也碰到了很多的問題,大家拿出來講都是講它發現了的,實際上這里面的不準確里也是非常高的,而且現在黑客組織已經了解到世界上所有主流的安全廠商可以去看黑客組織的分析報告,必然會看到用WHOIS做分析、做關聯。這樣我們也看到越來越多的地下組織用很便宜的價格去買域名注冊的隱私保護的服務,這樣的話WHOIS關聯有一個很大的問題,可能過去積累10年的數據或者是20年的數據,但只要新發現了一個注冊域名,它用了priverce的的話,以后的關聯都不可能用起來了,你現在就變成了一個困境,當然WHOIS這種方式現在還是相當有作用的,因為還有很多組織沒有跟上使用priverce服務的潮流,可是我們也預期到未來的話會加快。當然還有一些DNS用域名解析注冊IT之間的解析到什么地方,這些去做關聯,但實際上這也有很大的問題,因為現在動態的DNS也已經很流行樂。包括我們看到的很流行的手法叫域名陰影的技術,實際上是怎么做的,黑掉了一個域名控制了賬戶,比如說叫ABC.com我在里面注三級到四級的域名,ABC.Com是很正常的網站,可是其他就被解析到有木馬的網站,這時候用WHOIS就會遇到很多的問題,因為這是一個正常的域名注冊商來注冊的,總之,有很多的問題。

現在逼著我們去想,我們有什么更多的辦法做到惡意網址、惡意域名,大家自然而然地想到了用指紋的方式去做。其實大家都知道,現在類似于人機識別反欺詐,現在UUID不給你了,只給一個廣告的ID,實際上對設備不同的應用是不同的,其實這種情況就完全類似于我們在C&C這上面發現的問題,所以我們怎么做,其實基本上大家的思路是一樣的,就是做更多的指紋。我們除了WHOIS和DNS我要看到惡意網絡里更多的指紋。比如說我們要看基礎設施的指紋。比如說網站的證書,大家知道黑產也是你去惡意網站也是需要維護的,肯定要有SSH,重要的是網站的證書,證書的獲取方式很多,可以在網絡里抓包抓到網站的證書,也可以直接嘗試連接,可以有服務器身份的證書可以拿的到。這個證書為什么會有作用呢?是因為現在地下組織也是講究自動化作業,因為對他來說手工做自動化服務器成本是非常高的,這就傾向于所有的至少有一部分的服務器是共用相同的證書,這是可以作為指紋而且是可以獲取的。這就多了一個維度,我們可以看到更多的指紋,其實很簡單還有是服務器之間是有相連的,當然這個相連的流量去獲取或者說有一些腳本去指向的話,這些也是需要去做深層的工作才能拿的到,不像證書很容易,因為證書的指紋我相信大家拿回去做都可以做得出來,還有很多,比如說共用了一個黑產的基礎設施的供應商,因為現在在黑產行業里也有很多ISP,做的事情就是提供hosting,就提供一個虛擬的云主機服務,我就給你提供云主機,或者說我就給你黑掉的服務器個。

除了基礎設施上的指紋我們還可以做到表層應用的指紋,也有很多可以選擇的,很簡單很多的釣魚網站,其實黑產也是不停在改進自己的手法,所以在釣魚網站里嵌入了很多公開的統計代碼,他想知道哪個教育網站統計的數量最多,為什么呢?也是跟黑產的產業鏈做一個價值鏈相關的,因為現在黑產每個分工非常地明確及他也想知道,也許他們之間會有各種各樣的結算的協議,會根據使用量做基礎設施提供,所以會在里面加入流行的,比如說Google? anylitics,網站是從哪兒來的,有分層的協議,北京有一堆做偽基站的,天津、上海各有一堆做偽基站的,可是我怎么知道掙的錢到底是北京的偽基站的團伙有沒有干活,也許就在家里等著、歇著,結果所有的偽基站都是上海的,上海人幫我賺了錢,北京人沒有幫我賺錢,怎么分賬呢?有很多做統計的代碼頁可以把它當做指紋。還有協議層也可以看到協議傳輸的通信協議也非常有特點,如果簡單地做分析的話,簡單地投都是非常有作用的。另外像代碼層的HTML頁面,代碼層的javascript也是有分析的,這是webshell里類似的技術。如果把這些指紋想象一下像人機識別的指紋一樣,如果歐放進來可以作為關聯的維度,從原來的3、4個變成了20個、30個,這樣做威脅情報和溯源分析的時候就更有效果。當然有一個問題,WHOIS這種關聯分析實際上是非常簡單的,因為它是單線的,你可以用鼠標或者是國內的一堆專業的網站,還有Google ?kandle這樣的服務,一個惡意的域名點進去很容易找到注冊的人的郵件或者是電話,你再一點就很輕松地把圖畫出來了,這實際上可以用手工來做的,但如果把特征量加進來,加到超過20個、30個的話,靠人和分析員做手工是不現實的,這時候就會用到機器學習、數據挖掘的算法。你把這些都合在一起的時候就可以更精確地還原真正的畫像,可以看到,這個做法和思路是非常清晰的我們把原來WHOIS碰到的困境,特的特征數太少,關聯萬一有一個線斷了就斷了,但我們加入了很多的信息。

接下來我會講一講用戶側情報再生產,困境是feed流,現在威脅情報都開始做Feed,一個廠商一天下來幾十萬的Feed我們也在做域名的識別,經常一天下來幾十萬的新增的惡意域名是非常正常的,因為現在注冊域名太便宜了,而且現在都是DJA算法腳本來進行,非常流程化,怎么把幾十萬個Feed放到防火墻里面,去這是一個很頭疼的問題,這在企業里是沒法兒落地的,一般的做法是弄一個所謂的熱庫,我可能認為針對這個行業我認為是威脅度非常高的url,包括一些樣本的散列都可以放進去,但這也有一個很大的問題,你到底相信不相信威脅情報、生產產品能夠對行業做出有針對性的篩選?這其實是一個很現實的問題,因為我剛剛在first今年的會上,廠商的展臺基本上就是兩類,一類是威脅情報的平臺,一類是做自動化的應急響應的我問了每一個做威脅情報平臺的,只有一家跟我說他們有按照行業劃分的威脅情報數據的提供,只有一家。還有一個很嚴重的問題,就是這一家到底相信不相信,這是一個很大的問題。

怎么樣才能讓威脅情報更好地落地呢?好像這些糖果一樣,你喜歡哪個顏色的糖果只有用戶才知道,所以我們的想法很簡單,在用戶側才能知道哪種情報更適合組織的自身,我們怎么來做呢?首先,如果我們看看舊模式的話,實際上這個鏈條非常簡單,首先我先去做數據的采集和分析,然后我懷疑可疑的了,可能跟url相關的組織,把這個組織跟url相關的木馬的散列值下載下來,不管是webshell還是其他的,我再做threat? hunting,這是傳統的大家比較流行的做法,這個做法問題就是我們剛才講的,如果這個第三方的威脅情報都扔下來,一天幾十萬條我怎么做threat? hunting,沒有機器沒有帶寬,我們把1萬條木馬樣本的webshell傳到終端上去,這個組織有10萬終端根本傳不下去這是非常現實的問題。我們想把用戶側做威脅情報再生產的鏈條加進去就變成更有針對性的新模式。我們等于是需要在用戶側放一些設備放一些引擎,他們能夠生產這個威脅情報,其實很簡單,如果你能夠在用用戶側發現一些自己發現的DGA域名,再拿到第三方的威脅情報平臺上去查,再拿出來的結果再用threat? hunting在企業里大規模地捕獵,這個效率非常地高,肯定更有針對性。當然在用戶側做威脅情報的生產有一個很大的挑戰,就是用戶沒有大規模的分析師團隊,這怎么來解決?其實也是用了webshell的聚類、分類,木馬的聚類、分類,像各種各樣的機器學習的引擎,他們自動地篩選。

所以它其實有一個先決的條件,想做這件事在用戶側做情報再生產,變成閉環的鏈條,第一必須得有外部的情報平臺,不要想著說作為一個用戶不可能生產所有的威脅情報,這是不現實的,因為拿到的數據只是很小的一部分,只有威脅情報平臺才有更大的數據。第二是必須要做自動化,因為沒有人也不可能說發現了一個可疑的域名就到所有的威脅情報平臺上查一下,一個分析員查這么一下半天就過去了,所以自動化的平臺和過程也是非常重要的。之前還有一個先決條件是要有機器學習的能力,因為在企業里,去蟲之后的域名解析就有上百萬,如果靠人工去查,顯然是不現實的,需要有一些自動化的引擎和能力,自動把可疑的東西幫助你挑出來,在自動化威脅平臺上去查,在自動化地下載相關的威脅情報,再自動化地做threat? hunting。

我就講這么多。謝謝大家!

上一篇:谷安趙毅:量化信息安全風險

下一篇:對話騰訊馬斌 解讀互聯網+安全戰略