压在透明的玻璃上c-国产精品国产一级A片精品免费-国产精品视频网-成人黄网站18秘 免费看|www.tcsft.com

東軟杜強:人工智能——網絡安全產業發展新機遇

杜強:謝謝大家!今天我非常榮幸有機會跟大家做這次匯報,我匯報的題目是人工智能、網絡安全產業發展的新機遇。

為什么說人工智能技術能給整個網絡安全產業帶來新的發展的機會呢?我用一個非常直接的例子給大家做一個概要性的介紹。比如說,以防惡意軟件或者是傳統的病毒的功能為例,這塊的是非常大。比如說MCAfee實驗室發現已經有超過3.5億的惡意軟件的樣本,而且增長速度是很快的,每個季度都有10%到20%的指數級的程度在增長,對安全廠家來說做這種工作是指數級的增長的投入。

隨著人工智能技術的發展這個情況在改變,新型廠商已經開始使用了人工智能的技術,包括如何深度學習的技術,做到了很好的嘗試。我看到有一些廠商已經可以在20萬個左右的惡意軟件的樣本上做機器學習的訓練,完全脫離人工的方式,可以達到95%左右的識別率,這種識別率和它對整個的產業規模的影響是非常非常地明顯的,也給我們帶來了很震撼的東西。我們把人工智能的技術跟網絡安全產業的結合點分成幾大類的場景,下面我一一跟大家匯報一下。

首先一個非常常見的場景或者是一類非常常見的場景是利用人工智能技術做網絡安全分類。安全網關很多的功能都是在做分類,包括入侵防御就是把流量分成有攻擊和無攻擊的兩類,網關的防護病毒其實就是在內容上進行分類,GLP等都是在分類,后面才是產生了一些動作,到底是丟棄還是要放過。

過去的分類的技術來自于兩個來源,一個是來自于廠商,一個是來自于用戶,廠商是以簽名的方式來提供的,客戶多數是對廠商的基礎上做一個配置,人工智能引入了之后對產業會產生一個非常大的影響,在廠商這一級像前面的防病毒的例子可以看到,可以把廠商針對安全防護的非常高的指數級的成本變成常量的成本,可以跟惡意的成本根據對抗。而且會有比人為人工的防御方法更高的準確率,并且隨著樣本的獲取,這個準確率會越來越把人工的轉移到后面。

另一點有一定的預判能力,他學習出來的東西不是case by case的規律,而是一種模式,對攻擊和惡意行為的模式,所以這種行為有一定的預判能力,只要有不斷的新鮮的樣本會維持這種預判能力,這是我們看到未來對防御無論是網絡攻擊還是病毒都是非常有效的手段。當然從客戶這方面也有很多很多的價值。

第二大類應用是安全分析的市場,特別是國際市場來看,近一到兩年的資本的投入是非常地大,應該算是網絡安全界或者是人工智能界投資的非常大的投資,典型的像IBM、微軟分享的都跟這類平臺有一點關系,解決的場景是給用戶的行為畫像和建模,建立APT關聯大的時間、空間域的分析,把攻擊鏈分析出來,還可以分析企業內網的泄密和場景,這背后都是人工智能的技術和產業場景的結合。

第三,很多客戶希望網絡安全的廠商能對未來的一個階段內,一周或者是一個月之后的安全的形態、攻擊的可能性和需要采取的措施做出一定的預判,這類的產品在國內是用態勢感知類的產品做承載,態勢感知類的三個level,其中L3就需要預判未來的安全形態,這背后也是人工智能的技術在后面做了很好的支撐。

講了幾個簡單的場景之后,我們也講講在過去的幾年里,在人工智能和網絡安全的產業結合商業遇到了一些困難,我跟大家分享一下希望對大家有所幫助。這些困難分成三個層面。

第一個層面大家都知道如果想規模化地應用人工智能,特別是基于深度學習之后的算法一定需要大量的數據,很多其他的行業,互聯網廠商做圖像、人臉的包括自然語言處理的場景,有很大量的鮮艷的數據,這塊我們在網絡安全界并不是所有的場景都做病毒識別這樣好,并不是所有的場景都有病毒這么多的樣本。

比如說像APT,和基于網絡性的攻擊很難獲取到大量的、真實的樣本,我們在整個業界能看到的確實被錄下來的真實的被攻擊的樣本是千級的量級,用這樣少的數據做機器學習是很困難的。

第二是學術基礎方面,很多行業像做圖像、做語音的和做自然語言處理的,這些產業背后的一些行情和基本的算法都被學術界打通了,或者是有科研能力的大公司幫助他們打通,有非常優秀的模型就會被記住。我們網絡安全缺乏這樣的場景,過去十年來的論文涉及到網絡安全和機器學習相關的論文引用的數據都是在97年、99天幾份很少的公開的數據。學術界這個階段沒有獲得可用于訓練的數據,由于隱私的原因和產業不夠開放的原因,反過來我們不能獲得學術界的知識,使得今天在網絡安全的解決方案還沒有出來。

第三是在應用的維度我們也有一些問題。大家知道AI的投入和應用其實是一個重量級的投入,它的投入的成本相當高,數據的獲取成本、人才的獲取成本、基礎設施的成本,加上投入周期都是重的投入,在重投入下一定要有大規模的市場和殺手級的應用來支撐。

我們分析了很多網絡安全的應用場景會發現,有些應用場景還是缺乏這樣的特點的,特別有很多的場景缺乏不可證偽性,比如說前面的態勢感知的產品,很多的廠商都在宣傳說我們的態勢感知產品如何如何好,如何能預測出來多么高大上的事情,但其實你作為一個客戶很難判斷。

甚至作為一個專業廠商也很難判斷,這背后是真實的技術的投入其是說只是對產品界面的包裝和一個PPT的美化,如果你很難區別出這一點,這商業上是很難維持的。有了這些問題以后,我們也去嘗試用我們的一些思路來逐漸地克服這些問題,我們也把過程跟大家分享。

首先跟大家分享跟數據相關的問題。機器學習特別是深度學習在互聯網公司最先應用起來之后,互聯網公司的特點是數據量趨于無限大,而我們網絡安全廠商的數據量會受到很大的制約。所以我們會采取跟互聯網廠商相反的思路,我們會采用高復雜的技術和算法模型來降低算法對數據的要求,反過來提出了算法模型和人才多元化的需求。因此采用了比較流行的Transfor等的方式。我后面舉幾個比較容易理解的實例。

比如說我們做一些垃圾郵件的處理,在機器學習領域的處理還算是比較成熟的領域。比較傳統的方法就是把郵件影射成一個高位空間的向量,每個詞出現給它記一個數。沒有出現就是0,后面映射到比較傳統的分貝器上,做端的端的分類。

這一類的算法其實已經商用了很長時間了,在大多數的垃圾郵件的正常分割上其實是沒有問題的,但有一些細分的場景,針對一個人比如說我是搞IT和網絡安全的,我的工作郵件和網絡安全的垃圾郵件其實是沒有能力區分的,這種情況我相信在座的各位都能感受到。

是因為過去的模型從詞到向量包括后面的分類器都沒有語義切割的能力,不能涉及到一個語義環境內的復雜的邊界切割出來。要想嘗試解決量的問題,很直觀的思路是在郵件到向量的映射過程中把語義帶進去,原來是1000萬維的向量到100萬維的,我們很直觀會引入深度學習的多層的深金網絡,只要往這個方向一走很容易發現你的向量數據會完全地不夠。

像我們這樣的公司想獲取客戶的郵件是沒有可獲得的渠道的,垃圾郵件倒是可以有渠道可以獲得,正常的郵件是沒有規模化的渠道獲得的。所以就沒有辦法訓練這樣的一個模型,解決它的思路是引入其他的一些想法。

比如說Transfor的方法,我們想訓練一個目標的網絡和相似的網絡里進行了訓練,比如說我們在這里抓取了大量的新聞,我們抓取社交網絡等比較容易獲取的預料,一個是詞到網絡,另外一個是分類。,訓練完的放到目標網絡上,目標網絡上的參數就被處理好了。

最后通過真正的郵件的樣本做端到端的訓練,這是利用Transfer解決數據不夠的例子,還有就是利用人的知識和經驗來解決入侵檢測的問題。我們需要用深度學習的模型來進行入侵檢測,分析流量到底是正常流量還是侵入流量。

最簡單的是把流量存起來,有一些攻擊的和非攻擊的,導入到深度神經網絡做訓練,端到端看誤差,之后做BT。同樣只要往下一走就會發現這個樣本數量完全不支撐一個深度的網絡的訓練,我們才有幾千個攻擊的鮮活的樣本,要想做一個攻擊和流量的差距是成千上萬倍的。

這里面按照現在的技術引入了過去的知識,左邊那邊是把過去我們十幾年來在攻防團隊上積累的攻防的簽名轉化為邏輯規則,放在邏輯規則庫里,迅速一個teacher的網絡,這個網絡在流量訓練的時候跟目標的網絡student的網絡是交互式的網絡,最后會把student網絡融入到過去的經驗。又會加一個噪聲系統,這是集成了黑客逃逸和變種的知識,訓練期會把攻擊樣本打大量的逃逸的信息。

比如說over到不同的協議上,把信息調走,這會使得目標的student的網絡對變種的識別能力就非常好,這兩部分的人類的知識通過網絡架構融合進來會使得整個的網絡在很少量的萬樣本,5000條左右真實攻擊的樣本下也能訓練出達到相應水平的識別能力。

針對第一個問題,我們的經驗是利用一些新的技術來把算法對數據的要求降下來。

第二,現階段我們的思路是過去跟相關行業已經被別人打通的算法去參考,在這樣一個大的做法架構下做一些修改和補充,前面講的例子包括后面的例子算法大的沒有原創的,也沒有這個能力,都是在上面的修改、補充和組合。

但未來長遠的時期,我們認為人工智能跟網絡安全的結合是非常長遠的,可能要在未來的二三十年都無法結束的,這個過程中我們一定要打通學術跟產業合作的屏障,所以說一定要共享,通過種種的手段在合理、合法、保護用戶隱私的前提下來把數據貢獻給學術圈,最終使學術圈也能把基礎的模型做出來。

最后就是針對關鍵應用的問題,我們要識別比較關鍵的、容易產生效益的,而且要識別它的投入和產出的周期,如果說投入得太早了容易被拍到沙灘上,太晚了有可能趕不上潮了。針對這個需求,東軟內部有一點變,我們東軟內部也把我們識別到的很多的網絡安全跟人工智能能結合的場景,按照我們認為它可能被商用的時間點映射到Gartner技術成熟曲線上來。

我們認為可以接受的是防垃圾郵件的產品,機器學習這種結合會比較完美。下一個是病毒和沙箱,病毒樣本是非常好的訓練,沙箱的虛擬環境做出來的行為日志到底是不是惡意的映射中間的過程,過去基本上是靠規則,后面會轉發成靠人工智能的方式,會把這個映射過程變得非常地準確。

再后面是市場比較火的態勢感知,威脅情報共享等等,這類的產品用戶充滿了期待,市場也非常地火熱,但從AI技術的投入角度來講,它有一點具備不可被證實和證偽的性質,換句話說如果在這塊組織重兵投入,大家一定要做好被別人用PPT打敗的心理準備。后面是一些IPS、APT這樣的產品,這類的特點都是數據比較少,隨著算法的不斷成熟才能把它最終商用化。

然后是識別出一些比較有意思的殺手級的應用,包括網絡安全的自動控制和脆弱性的自動挖掘,換句話說自動挖掘了軟件的漏洞。這兩個比較興趣的場景我在這兒也跟大家做簡要的分享。

自動化控制是解決什么問題呢?過去的網絡安全產品其實種類已經很多了。從防火墻到IPS、IDS、DRP、沙箱等一系列的產品有三五十種,但沒有用戶把三五十種的產品都串到網絡里。雖然是安全的,可是成本承受不起,因為不光是采購的成本,性能的開銷和管理上的成本都承受不起,所以用戶必然會在中間做一個很剛性的趨勢。

那個擺一個防火墻,這是沒有辦法的辦法,未來的網絡會變成什么樣呢?上面有一個只能的角度系統,它會收集整個網絡的情況,收集下面所有的傳感器的信息,根據他的算法來智能地角度下面的流量。只有在被懷疑的時候才會把特定的流量切給特定的監控的服務。

比如說這個流量我懷疑有問題了,并且這個問題可以被WAF的模塊解決起來,過一會兒不懷疑了再切霍賴。所有安全基礎設施得達到按需的模式,不調用你不會差距成本的情況,上面需要一個很復雜的人工智能的系統。

這樣的系統實施起來之后,會大幅度地改變過去安全投入產出比,我們在實驗室的仿真環境的測試發現,我們可以用到4%左右的成本,4%的開銷能夠把所有的安全產品都串在一起的95%到97%的總安全能力,整個的投入產出比會提升幾十倍,我們相信這在未來是非常有趣的一個應用的場景。

針對脆弱性的智能挖掘,現在雖然說技術和工程層面還有很多的問題,但我們相信未來的5到10年確實可以被解決。過去黑客在挖掘一個漏洞的過程,是一個高度的智力活動,這個智力活動等價于在一個寬度和深度幾乎是無限大的圖里面來搜索一個非常小概率才可能產生的路徑,這就是一個黑客在挖掘漏洞的數學上的等價的關系。

過去這個問題在所有的圖的算法和規劃算法上都不能解決,因為這個實在是太大了,黑客憑借著背景的知識和經驗,以及非常好的判斷力,再加上運氣才能夠從軟件里找到漏洞,而這個邏輯逐漸地被機器學習一步一步地替代,這種可能性使得機器學習從過去歷史上大規模的開源軟件一個一個版本、一個一個迭代上把所有軟件的BUG和漏洞產生的基本的原理當背景知識學來,然后再去做其他的搜索。

下一步的情況是搜索的時候可以大幅度降低每一步搜索的寬度和搜索的深度,這個問題我們相信未來5到10年是可以被解決的。網絡安全產業基本上存在是建立在這個假設基礎上的,假設軟件一直有Bug,是長時間達不到收斂,只要通過人慢慢地在未來10年、20年間逐個地找到,所以我們有網絡安全上的產品和組件。如果未來這個問題被解決之后,肯定會對產業產生巨大的影響和沖擊。

今天我匯報的內容做一個小結,今天我主要闡述了我們了解和看到的網絡安全和人工智能結合的主要的幾種模式,包括5個類型,包括了分類、包括了做安全分析,做預測,可以自動化地調度網絡安全的資源,自動化地控制網絡安全的資源,最后帶有科幻色彩的可以自動化地部分代替黑客的漏洞的挖掘。在整個過程中,我們會遇到很多的問題,數據的問題我們要通過算法來調整,模型的問題跟科研院所和高校一定要采取開放的、長期合作的方式,才能把未來的十年、二十年的長期的戰爭打下去。

在最后的產業方面,我們也把我們看到的一些結合點分享給大家,希望能對大家有所幫助。我的匯報就到這里,謝謝大家!

上一篇:微軟邵江寧:基于智能的網絡安全的對策

下一篇:清華鄭方:聲紋識別——無線互聯網環境下訪問控制安全的最佳解決方案