Chenta Lee(IBM Security全球首席資訊安全架構師):
大家好,我是IBM的Chenta Lee,我目前擔任的是我們全球首席的資訊安全架構師。今天很榮幸在這里跟大家分享人工智慧跟知識安全,跟網絡安全的關系,以及我們對它未來的展望。
為什么現在提人工智慧?這個東西不是十幾年前就有了嗎?很多學生當時都去找教授做這些專題,后來沉寂了一段時間,但是最近這幾年又熱了起來,我們在AI方面有什么特別的突破嗎?
我們在量子方面有什么劃時代的突破嗎?雖然我們很期待著,但是目前還沒有。其實AI如何的演進是有一個脈絡的。
從以前的網絡環境我們看到的是一些有結構的資料,我們可以用一些既定的方法去分析。但是走到現在我們發現,從最近的報告當中我們看到的新形態的攻擊,它的來源都是一些非結構性的資料。
什么叫做非結構性的資料呢?我們就是在網絡上跟人員之間的互動,寫電子郵件撰寫的內容,微信上的信息,都可以找出黑客攻擊的關鍵報告。
在這種沒有結構的資料中,我們如何有效率的找到這些指示點?這就是我們所謂的認知時代的來臨。認證技術包括各種AI的演算法,以及機器學習的技術,我們把它運用在一個特定的領域,我們要去找出對Security有幫助的領域,來抵制外來的攻擊。
我們對各個產業做分析,隨著IOT的普及,云端的成長和社交網絡的興盛,我們預計在每一個產業里面社交的成長超過90%,這當中80%的資料是我們無法掌握的,也就是非結構性的資料。
這些非結構性的資料就是來自人與人之間的互動,是使用自然語言去描述的,也就是所謂的自然語言。它可以是一篇文章,可以是一篇Research Paper,這些都是我們挖掘的一個來源。
我們來看看這些東西到底有哪些非結構性的是我們想要掌握的。從一開始這邊只是看到冰川的下半部,上半部是20%的資料,也就是我們現在使用的資料,里面包含著各種自然報告,包含著一天200萬筆的治安時間,這些Security事件都需要我們去花時間去看。
在冰山下半部80%是什么?一年有70萬筆的Blogs,有一些可能是專業的,可能是業余的,他在網上發現一些潛在的活動,他就把一些IP抓出來,放到他的微博里面,這個微博誰去看呢?
今天我有機會可以看到他的微博我可以學習到這些知識,我今天看不到就不知道了,今年有70萬筆這種資料。更別提18萬的新聞和文章,各大新聞機構和廠商所出的文章一年有18萬筆,我們有時間去了解嗎?其實大家數一數就好了。
更不要提這些Research Paper,很多大學里面找到了各種各樣的供給,放在這種Reseach Paper,在各大論壇發,這些1萬筆的資料我們有時間去看嗎?更別提在左邊的這些林林總總,維基上面的,或者在微博和Facebook上面各種各樣的言論都帶有很寶貴的資訊。
我們來看一看整個自然產業的演進,2005年這個世界是相對安全的,我們的方法是在門口做了層層的防護,我們在一開始的入口處放了一個防火墻。進了防火墻以后我們擺了一臺IPS,把大家都會用的服務放在里面。
之后要進入內網了,我們再擺一個IPS。我們進了內網以后做什么?我們用AD等來管理和使用這個權限,比如今天一個工程師不會使用一些網站之類的限制。除了AD以外,我們還放了很多不同的傳感器搜集不同的漏洞,就是為了找出潛在的行為。
2015年的時候看似有效,但是2015年之后,資訊的爆炸,云端的興盛,我們發現沒有辦法及時的掌握他們的使用行為。我們發現,所有的攻擊都來自于這兩個地方,一旦你做了這件事情以后,你的使用者,你在公司就不用上班了,所以必須把這兩個開啟出來。
這就是我們為什么有了一個東西是Security,使用者是正常的,從正常的行為當中找出一些不正常的蛛絲馬跡。我們看到使用者連到一個服務器,之后回來以后他有些奇怪的舉動,什么叫做奇怪的舉動?
就是在不對的時間選擇不對的服務,身為一個工程師,怎么會去跑到HR的系統撈別人的薪資資料呢?這是不應該發生的,這就是所謂不正常的行為。
我們開始搜集了大量的資料來建構完整的Security Intelligence的數據,現在非常活躍的我們來分析趨勢和走向,這是一個完整的Security Intelligence里面的,當我們找出了自然漏洞,變成人與人之間漏洞的時候,我剛才講的那一套就變得有點華而不實,它還是那么有效。
舉個例子來說,一個使用者拿了一個檔案下來,這個檔案很小,來自于一個很奇怪的IP,他把這個檔案丟到百度或者其他的平臺搜尋一下,看看有沒有人看過一樣的計算。他找了半天以后發現沒有東西,他以為安全了,其實不是。
三個月前,有一個在美國的Researcher,他們可能會想,搜索引擎的東西怎么都找不到?原來這個Security Researcher丟到他的網站上去了。世界上有誰有這個技術搜集全世界的網絡上的圖片,在這些圖片里面找出特定的運算?其實沒有人做得到,認證運算也做不到。
但是我們如果把認證運算套用在特定的領域,就像我們專注于這些Security Researcher的Blog的時候,我們可以從聲音、圖片里面提取我們需要的資料。
大家知道,最難防的是內鬼,今天我是一個銀行的CISO,我想到一套方法來阻擋內鬼,我要找有負面情緒的員工,而且是在找工作的員工,如果符合這兩個特質的人我要加強監控。
現在我去監控網絡上的行為,任何要找工作的員工我都要加強監視,一天要看很多的信息,我發現不行。
我就想另外一個方法,要找這些有負面情緒的員工,接下來要安排心理醫生,對全部的員工做心理咨詢?不可能。
轉念想,我來分析他們在微博上的文章好了,如果他不斷的抱怨公司里面的制度,他很有可能就是下一個離職的員工。
假設我的治安團隊里面有20個人,我的公司里面有2千名員工,這20個要分析這2千名員工每天在微博上發的文章,他們就不要吃飯,不要睡覺了,這需要認知運算來幫助我們了解這些沒有結構性的資料,幫我們找出其中對我們有用的信息。
我們從Network Security的角度來看,我們傳統的做法是什么?
從各個自然設備去搜集,我們看到Firewall,我們從IPS去看有沒有一些什么威脅事件,我們從一些地方小區搜集對于我們有意義的資訊,來找出其中真正有威脅的一些行為。
黑客也知道這個東西不是完美的,總是有一個臨時攻擊和貫穿于網絡,黑客總是有辦法了解你在網絡上部署了什么東西。我今天講出來的東西黑客也知道,他們知道這些東西以后,他們就很有效率的去繞過。
所以變成我們像監控的東西是一個沒有結構的東西,是一個沒有結構的世界,這些東西可能是販賣公司的文件,可能是兜售公司VPN的帳號,或者是在里面的公司員工想去找新的工作,他排了一個面試還真的出現在某個地方,這些一系列串起來,都有可能是潛在的威脅。
這張圖很標準的展現出來就是過去我們心目中美好的世界是左邊這張圖,我們做了一個迷宮給黑客們,我們把這個迷宮做得非常復雜,擺了各種不同的治安設備,我們在路徑上面還放了很多傳感器,放了很多陷阱。
我們認為黑客們在走這個迷宮的時候,總有一天會踩到我的陷阱,我就會發現。但是真實的世界是在各位的右手邊,這個迷宮是給我們走,黑客們非常清楚你在左邊做什么事情,今天他做了這個迷宮,把我們搞得七葷八素,這個迷宮是用所有的渠道做的。
包含了一個人在網絡上在Facebook上與人的溝通,或者今天看了一條新聞,或者是看到了一個問題,這些都是人與人溝通的渠道。這些黑客很清楚,要找出這些資料很困難,第一個困難就是法律上的問題,就算我有辦法監控這些內容的話,我要怎么有效率的搜集散在各處的四面八方的資訊?我可以有效率的收集嗎?
這些是以前資料的好幾百倍大。所以這個迷宮擺明了就是給我們這些Security的專家走,而且會走得非常辛苦。
我們講認知運算運用到安全上面,我們叫做Cognitive Security,可以怎么做幫你發現網絡中奇怪的舉動?我們了解到一個使用者在網絡上的Aliases是什么,可以是你公司的員工,可以是外面的黑客,他可以由多個不同的Aliases,他在不同的論壇里面有不同的ID。
一旦我們串聯起來以后,我們可以從這些ID出發,去找出這些ID后面藏的故事,有沒有人在找一個破解密碼的軟件,有沒有人在網上兜售VPN,有沒有人在網上進行某一家銀行內容的搜尋。
我們可以得到一些IP、DNS,電子郵件DNS,我們利用在已經有的自然設備上是OK的。我們可以知道這個黑客的真實姓名,甚至是它的居住地址,我們甚至還可以在我們的治安設備上,把某個國家,某一個地區的交通給搞倒掉,這個都是Cognitive Profile,關注在做什么對他有意義的事情上面。
這個Cognitive如何把這個Security做出來?
我們平常在網絡上的新聞、在微博和維基上所有的東西,都可以給這個Cognitive System,接下來問他,你覺得這個事情是可疑的嗎?
之后就得到一個答案。這是簡單的三個步驟,累計了過去電腦發展30年之后的結晶。
我們通過大量的分析和運算,才有辦法知道一個準確的答案。這個Cognitive Security是怎么做分析的?
從我們的Security設備收上來的資料,再加上Security Data,這個Data就是在大環境怎么做治安的部署。你的內網是什么,你有幾臺基礎設備,這些都是Security Data。
我們再加上針對特定產業分析出來的這一群黑客特別喜歡打醫院,這些黑客特別喜歡打銀行,我們套用這個特定產業的分析,最后再加上感情的資訊,就是人與人之間的互動。
今天我有員工在網絡上的行為,我是一個很不確定的,或者是我懷疑有抱負心態的,或者今天是開心的,或者今天是難過的,都可以是用作特定產業分析的資料,就可以幫你歸納出想要的資料結果。
在這里舉兩個例子,比如我問一位同事,我說你覺得今天一個IP特別出現在我們的產業里面,我是不是應該關注這個IP?
我的同事就講,我覺得這個IP對你來說是非常危險的,因為我在其他的醫院或者其他的地方也看到了這個記錄。甚至我可以跟同事說,今天使用者在下載一個文件,請問你在其他地方看過一樣的行為嗎?
他可以分析大量的資料來跟你講,沒錯,我在其他的產業,或者在其他使用者的網絡中也看到了一樣的行為,這可以提供一個非常有效的指示來給Security的人員做決策。
我一開始講到AI不是新的東西,Cognitive Security只是運用新的技術提供到特別的領域,代表我們的Use Case是最重要的,這個決定了最終的結果。
這個Cognitive Security對于一般的Security來說是一個非常好用的工具,可以是一個非常強大的Q&A系統,你給他問題他就會給你答案,分析出非常海量的資料,通過運算分析出對你有用的資料。
接下來它可以甚至幫你做Compliance檢查,我們今天有認知運算以后,我們是有感覺式的去檢查,你可以你的同事說,你覺得我這臺電腦是不是符合自然規范?你覺得我這臺電腦有哪些可疑的行為?他可以根據以前的記錄跟現在的記錄幫你做判斷。
Compliance現在我們可以了解到一個網絡環境里面,不管是外面的黑客或者是里面的員工,他的意圖是什么,或者他做一件事情的動機是什么,為什么他今天要連到這個網站,他是想找免費的音樂,免費的電影還是一個攻擊?
我們可以通過動機和關注來分析出來。甚至我可以攻擊里面的一些智慧財產,可以說我們的資料用在網絡上不要外泄,或者是哪些資料是高風險的資料。
最后我們還可以甚至做到所謂的Early Warning,他今天要做的是找一些免費的電影,他連接到網站說,只要連到這個網站就可以找到,這一切的都是合理的,他一點下去之后,我們可以看到他有一系列奇怪的動作。
所以如果我們有認知,我們有辦法關注的話,我們會發現你的使用者中有這樣的意圖,你要特別去監控他身上的行為,這就是Cognitive Security可以帶給我們的價值。
Cognitive 本身并不是一個完整的解決方案,但是它是構成一個完整解決方案的最后一塊拼圖,我們來一層層的講。
最上面的是我們的IPS File,可以提供給我們最真實的網絡資料,更重要的事情,不管上面那個大腦多么聰明,它分析出來的一些結果,最終還是要交給最下面的來做執行,所以這個東西是不可或缺的。
我們搜集了大量的資料以后,舉個例子來說,我是銀行的CISO,為什么我要關注在零售業他們看到的這些威脅?
我想要知道我的大學同學在銀行業擔任CISO,他今天看到了什么問題,我要怎么去調試我現在的Security政策,讓我下面的Security來加強預防,這是我想知道的。
現在你部署好了一切,接下來你需要一個團隊來幫你做24小時,365天的監控,因為黑客們是不會休息的。
這個團隊你可以記住,你可以請外面的團隊幫你做,他們要非常努力的做分析。他們要做的分析是,把我看到的所有的事件跟Security做連接,今天我這個連接到的地方是不是跟一切都來做連接?這一切都是Security的一個團隊要完成的工作內容。
黑客們也不是省油的燈,他說你部署了這么多東西,我不打算打穿你任何一個節點,我直接從資料下手,通過Social直接跳到內網進行攻擊。
我們做的方法就是我們搜集了大量的資料,海量的資料,全部丟給Big Data Analitics,這些新收上來的資料全部都是沒有結構性的,我剛才講的那么多例子,沒有東西有規則可循,沒有東西有標準可以套用,這也就是為什么我們來幫助來分析這種海量的資料。
Watson Enables Security是IBM的,我們會給他各種各樣的資料,甚至是教科書,維基,你想躲的各種資料我們全部給他。
我們運用了好幾年的時間去訓練Watson,讓它讀得懂這些Security的信息,我們要教給Watson說,你要注意,這個東西是一個Network,而不是一個城市的名稱,花了一年多的時間訓練,我們今天已經得到了一個非常好的結果。
Cognitive Security提供的就是一個Deeper Security Insight,我相信在大家的治安團隊里面,總是有好幾個人特別厲害,他在各種不同行業里面跳來跳去,手指非常快,他說老板,我發現了一個可疑的攻擊,所以我們要把這個東西擋掉就可以高枕無憂了。
為什么他們那么厲害?這就是因為他們有Deeper Security Insight為。Context Security就是包裝成一個Tool,給全世界的Security來使用,讓大家一起來抵御這種潛在的威脅,這個就是Cognitive Security。
希望我講的內容今天對大家有幫助,謝謝!
上一篇:騰訊黎巍:云安全—從虛擬到現實
下一篇:滴滴弓峰敏:安全范式的改變