压在透明的玻璃上c-国产精品国产一级A片精品免费-国产精品视频网-成人黄网站18秘 免费看|www.tcsft.com

NSC2014百度資深架構師周曉波

自然語言處理和病毒防護技術在網購安全中的應用

各位下午好,我介紹一下百度安全在網購安全當中的應用,大概包括四個方面,首先簡單介紹一下我們現在用的網銀,舉幾個網絡上相關網絡欺騙的案例。然后講如何防護,我們做的工作,之后有一個簡單的結論。

這是網銀給我們帶來的便利,大家可能想不到,但是仔細想一想,其實網銀已經在我們生活的方方面面了,尤其是微信出來之后,大規模的使用,已經形成了金融行業一個巨大的基礎設施,這是一個數據,是艾瑞資訊的,現在的網購市場有這么大的規模,預期未來也會高出很多。這是支付寶的,存款被劃走,一小筆一小筆的,沒有得到任何的通知。而且轉過去的帳戶也非常多,有69個帳戶。現在Wi-Fi已經非常普遍了,有大量沒有密碼的,很有可能就是一些陷阱,一旦接入之后,你的網絡交互的數據都能夠被掌握住,所以信息泄漏是非常徹底的。

有很多的支付方式是依賴于二維碼的,這個案例就是他買了一個產品之后,說你有一個返多少錢的優惠,就是你掃一下這個二維碼就可以了,結果他掃了以后,發現了銀行卡的盜刷,對方就不知所蹤了。這個案例技術上來講沒有什么技術含量,但是成功率是很高的,假冒一些網站,比如退款,這里面有取寬密碼和銀行卡號的信息,一般的用戶沒有警覺性,一輸入就點了,他這不是一個退款,而是一個支付。前面講了很多的案例,總體來講可以歸結為兩點,包括欺騙用戶的一些信息,包括用戶名和密碼之類的,另外可以誘導用戶進行付費操作。

從技術層面來講有什么樣的途徑呢?首先是惡意木馬,這種是技術含量比較高的,傳統的惡意木馬可能利用一些權限做一些事情,這種情況越來越少了,對于黑客的要求是比較高的。另外現在大量的使用一些瀏覽器的擴展,這里列出了很多,瀏覽器的擴展其實具有本地的一些權限,可以訪問網頁里面的內容,比如你在里面做的操作,它是有的,它可以操作瀏覽器,可以知道你很多的東西,極可能會泄漏信息。

大家關注的是網站的安全,利用網站的漏洞去篡改網頁,把它的數據庫拖下來。大家要關注一下的就是,現在其實這是一個很嚴重的嚴重,就是DNS的設置。一些木馬的惡意軟件,修改你本地的服務器的設置,據我們觀察,有5%左右的流量都是通過這種方式被劫持掉了,會是別人的網頁,搜索的結果有可能也是別人添加進去了,他搜索的結果可能會插入一些廣告,是盜用百度的流量的。釣魚網站,它是屬于社會工程學的一些手段,大部分的損失其實是這樣的一種形態的攻擊造成的。

針對剛才說的那些手段,我們有這樣一些建議。首先就是簡單密碼,這個其實說過很長時間了,但是很難做到。再就是自己的數字證書,現在網銀什么都是有數字證書或者是UKEY之類的,使用的時候要注意安全,然后就是提高網銀密碼的保密性,因為密碼盜用的成本還是很高的,不在公共場所使用網銀業務,不掃描來歷不明的二維碼。然后就是安裝殺毒軟件,像百度殺毒、百度衛士之類的。這里我就要我過渡到我們為什么會做這個事,就是百度安全中心為什么要做這樣一件事情。從安全軟件的角度來看,安全能力就體現在兩個方面,一個就是對所謂的文件安全,就是你的計算機里面的文件有沒有病毒,有沒有木馬之類的,有沒有惡意軟件之類的。還有一個就是所謂的網址安全,就是URL安全。URL安全可以分為兩類,一類是大量病毒和木馬的來源,要從源頭上去卡住,另一類就是欺騙,大量欺騙的東西是以網址的形式傳播出去的。而百度其實是一個非常重要的傳播渠道,所以說我們就非常有必要去做這樣一件事情。

所謂的網絡安全就是我們從網址安全的角度入手,來幫助用戶去防范這樣的一些惡意程序。它的操作原理是什么?當用戶在本地訪問一個網址的時候會先過一下百度安全軟件,安全軟件會到云端安全,針對這個訪問的網址給出一個安全與否的答案。如果安全的話會放行,如果不安全的話會提醒。簡單的過一下,云端安全基本的原理其實很簡單,可以這樣說,就是說我們犧牲掉第一個用戶或者最初的幾個用戶,然后以后的用戶沒有問題。當用戶用百度殺毒來進行防護的時候,我們會知道這個我們不認識,我們會抓下來跑一遍,大概一分鐘的時間就會知道它的結果了,然后把這個結果寫到緩存系統,海量查詢系統里面去,等這一分鐘之后的用戶來訪問的時候,就知道他是安全用戶,基本的邏輯大概是這個樣子。

對于一個不認識的網址怎么判斷呢?就是下面這個大的方塊里面,有一個比較復雜的運營系統,首先他會去過各款引擎,這下面列了有四款,引擎會給出一個結果,結果再進行匯總,匯總的時候就有些策略,相信哪一塊,不相信哪一塊,其實這就是一個投票機制。然后判決出來的結果再回寫到緩存里面去,這其中會進行一些人工的干預,比如說對于熱度和廣度非常高的這些網站的話,我們會重點關注。熱度就是訪問的用戶量非常大,廣度就是訪問的用戶非常多,這是整體的系統架構。

我們就這幾款引擎來介紹一下。這其實就是我們在網址安全方面核心的能力部分,對于掛馬這一類大概有四種方式進行攔截:一是虛擬機蜜罐,其實就是跑一遍,看看有沒有問題;二是瀏覽器模擬,瀏覽器模擬的效果會更好,有時候用百度的爬蟲去爬的時候是好的,但是用戶訪問的時候又是壞的,所以用瀏覽器模擬是最有效的;三是黑白名單,這需要人工去運營,比如說百度有官方網站的資質信息,這個肯定就是白名單里面的,黑名單可能就是我們常年累積下來的,以及下面有安全聯盟,安全聯盟主導的一個樣本交換的這樣一個機制,其實就是累積黑樣的一個方式;四是PE引擎,有一類威脅來自于網頁里面嵌入了有空鍵,或者是誘導你下載一些軟件,就是之前的快播模式,下載一些木馬。這個時候我們就借助于另外一個安全能力,就是文件安全的能力,這個引擎就是文件安全能力的,把這個文件扔給它,然后它告訴你這個文件有沒有問題。如果這個文件有問題的話,那你這個網頁肯定也有問題。

從虛擬機的層面來看,惡意網頁的密碼可以從幾個層面威脅到系統。首先是應用層面,利用瀏覽器的漏洞執行一些Shellcode,如果你事先已經被植入了木馬的話,那在網頁里面可能和本地進行一些交互,就會帶來更高的權限。甚至還有可能到硬件的層面,其實跟病毒的模式是一樣的,只不過它會通過網頁去激發執行。

我們怎么做呢?其實瀏覽器的模擬也是類似,首先就是利用堆的溢出,就指向一個代碼,跟操作系統類似。我們檢測的時候就是,當你發現腳本申請消耗大量內存的時候,就可以對上下文的屬性進行判斷。這是其中一個例子,其中有一個DoCmd函數,沒有檢測長度,然后就被植入的一段,導致了它的溢出去執行那個惡意代碼。檢測的時候對于這樣一些函數,這個代碼是檢測器的一個代碼,在里面用自己的函數去取代它,就是包一下,然后在它上面做一些參數長度的監測。這是病毒防護技術的使用,如果網頁上面本身嵌入的可執行的東西是有害的,我們通過另外一部分安全能力檢測出來,就是你下載網頁的時候把文件下下來,然后去走病毒鑒定中心去監督一下,如果有問題,反過來證明網頁也有問題。

這是自然語言處理技術的部分,這個圖很復雜,其實可以這樣理解,就是把一個網頁給他,就是一個巨大的字符串,對這個字符串進行各種分類。我們現在有大概40種類別,比如像色情、博彩、欺詐、釣魚等等,比如模仿淘寶的,其實也是釣魚的一種子類,最后把這個問題歸結到一個分類問題。這里我們主要用到了四類,這是處理的流程。可以注意一下,基于自然語言處理的技術需要有一些訓練的樣本集,這個其實是最困難的。但是好在我們百度這邊有巨大的數據支撐,所以樣本集是非常龐大的,甚至可以包含整個中文互聯網所有的信息。所以說在這一點上,其實百度的平臺是給了我們很大的幫助的。做過自然語言處理的都知道,樣本是非常困難的,拿到樣本,拿到一個好的訓練集是非常困難的。

這是其中一個分類就是Bayes,其實很簡單,對于一些欺詐類的,或者有問題的網站中經常出現的關鍵詞會有一個權重,在分析這些網頁的時候,根據這些權重會給出一個計算公式,當超過一定閾值的時候會認為它有問題。

最大熵是信息論里面的一個概念,就是給出一個符號序列,比如說在右側的,其實是一種方式,就是HTML的標簽,我們以HTML的標簽為一個序列的話,以它作為信號源的話,我們對于每一個網頁算出它的信息熵,當它的熵達到某一個閾值的時候,我們就會認為有問題,基本原理是這個樣子。

另外一個就是非常直接有效的辦法,我們叫做傳播路徑。比如已經知道有問題的東西,在這個網頁中出現了,那么這個網頁肯定很大程度上是有問題的,最典型的就是惡意號碼。那種欺詐類的,基本上上面都會有一個電話號碼讓你打過去,我們如果知道這個電話號碼有問題,那個網頁也會有問題,郵件、匯款信息、QQ號之類的都可以。在這里也歡迎大家能夠一起來共享這樣一些數據。

對于自然語言處理技術的使用我們有這樣兩句話來總結一下,就是通過對大數據的挖掘,我們能夠做到聞風而動,因為有大量的客戶端在那里支撐,有大量的用戶群行為在那里,一個風吹草動,就會在數據層面有一個體現,就會觸發我們這邊一個應急的預案,就知道可能什么地方有問題了,這個是非常明顯的。票務是最典型的,一旦到節假日的時候,票務類的欺詐就直線上升,我們這邊就會預警,我們就會投入更多的力量在這方面去做。反過來,利用我們已經知道的信息,反過來通過機器學習給出來預測的模型,模型的作用就是未卜先知,就是你還沒有在這里面出現的時候我們就知道你有問題。

總結一下,我們對于網絡欺詐類猖獗原因的認知。其實主要的原因就是追回率太低,因為案發非常頻繁,很難立案,每一個單價都很小,但是數量巨大,這也是互聯網的特點,手段變化多端。很多網站本身的安全意識也不強,用戶的安全意識不強,這是非常重要的。出現問題的時候相互推諉,網站說是銀行的問題,銀行說是網站的問題。自然語言矗立在這個里面有一些什么樣結論性的東西可以給出來?它主要是提高惡意程序傳播的門檻,病毒防護技術就是防止交叉感染,文件類的病毒和欺詐類的網頁相互作用。這兩種技術的綜合應用可以提高惡意行為的檢出能力,降低網絡風險。

再回過頭來講我們之前說的那個問題,我們為什么有必要做這樣的一些事情?為什么安全軟件有必要去做網址安全?在我們的角度來看,導致最后結果的都會經過一個網址,無論是二維碼、電話號碼、網頁、惡意木馬,因為現在畢竟是互聯網時代,像之前那種用U盤,甚至用軟盤傳播的病毒已經很少了,就是互聯網的傳播,這是我們的切入點。

我的分享就是這樣,感謝大家!

上一篇:NSC2014國家信息中心信息與網絡安全高級顧問章恒

下一篇:沈逸:沉著應對美國網絡安全新攻勢