压在透明的玻璃上c-国产精品国产一级A片精品免费-国产精品视频网-成人黄网站18秘 免费看|www.tcsft.com

NSC2014百度資深架構(gòu)師周曉波

自然語(yǔ)言處理和病毒防護(hù)技術(shù)在網(wǎng)購(gòu)安全中的應(yīng)用

各位下午好,我介紹一下百度安全在網(wǎng)購(gòu)安全當(dāng)中的應(yīng)用,大概包括四個(gè)方面,首先簡(jiǎn)單介紹一下我們現(xiàn)在用的網(wǎng)銀,舉幾個(gè)網(wǎng)絡(luò)上相關(guān)網(wǎng)絡(luò)欺騙的案例。然后講如何防護(hù),我們做的工作,之后有一個(gè)簡(jiǎn)單的結(jié)論。

這是網(wǎng)銀給我們帶來(lái)的便利,大家可能想不到,但是仔細(xì)想一想,其實(shí)網(wǎng)銀已經(jīng)在我們生活的方方面面了,尤其是微信出來(lái)之后,大規(guī)模的使用,已經(jīng)形成了金融行業(yè)一個(gè)巨大的基礎(chǔ)設(shè)施,這是一個(gè)數(shù)據(jù),是艾瑞資訊的,現(xiàn)在的網(wǎng)購(gòu)市場(chǎng)有這么大的規(guī)模,預(yù)期未來(lái)也會(huì)高出很多。這是支付寶的,存款被劃走,一小筆一小筆的,沒(méi)有得到任何的通知。而且轉(zhuǎn)過(guò)去的帳戶也非常多,有69個(gè)帳戶?,F(xiàn)在Wi-Fi已經(jīng)非常普遍了,有大量沒(méi)有密碼的,很有可能就是一些陷阱,一旦接入之后,你的網(wǎng)絡(luò)交互的數(shù)據(jù)都能夠被掌握住,所以信息泄漏是非常徹底的。

有很多的支付方式是依賴于二維碼的,這個(gè)案例就是他買了一個(gè)產(chǎn)品之后,說(shuō)你有一個(gè)返多少錢的優(yōu)惠,就是你掃一下這個(gè)二維碼就可以了,結(jié)果他掃了以后,發(fā)現(xiàn)了銀行卡的盜刷,對(duì)方就不知所蹤了。這個(gè)案例技術(shù)上來(lái)講沒(méi)有什么技術(shù)含量,但是成功率是很高的,假冒一些網(wǎng)站,比如退款,這里面有取寬密碼和銀行卡號(hào)的信息,一般的用戶沒(méi)有警覺(jué)性,一輸入就點(diǎn)了,他這不是一個(gè)退款,而是一個(gè)支付。前面講了很多的案例,總體來(lái)講可以歸結(jié)為兩點(diǎn),包括欺騙用戶的一些信息,包括用戶名和密碼之類的,另外可以誘導(dǎo)用戶進(jìn)行付費(fèi)操作。

從技術(shù)層面來(lái)講有什么樣的途徑呢?首先是惡意木馬,這種是技術(shù)含量比較高的,傳統(tǒng)的惡意木馬可能利用一些權(quán)限做一些事情,這種情況越來(lái)越少了,對(duì)于黑客的要求是比較高的。另外現(xiàn)在大量的使用一些瀏覽器的擴(kuò)展,這里列出了很多,瀏覽器的擴(kuò)展其實(shí)具有本地的一些權(quán)限,可以訪問(wèn)網(wǎng)頁(yè)里面的內(nèi)容,比如你在里面做的操作,它是有的,它可以操作瀏覽器,可以知道你很多的東西,極可能會(huì)泄漏信息。

大家關(guān)注的是網(wǎng)站的安全,利用網(wǎng)站的漏洞去篡改網(wǎng)頁(yè),把它的數(shù)據(jù)庫(kù)拖下來(lái)。大家要關(guān)注一下的就是,現(xiàn)在其實(shí)這是一個(gè)很嚴(yán)重的嚴(yán)重,就是DNS的設(shè)置。一些木馬的惡意軟件,修改你本地的服務(wù)器的設(shè)置,據(jù)我們觀察,有5%左右的流量都是通過(guò)這種方式被劫持掉了,會(huì)是別人的網(wǎng)頁(yè),搜索的結(jié)果有可能也是別人添加進(jìn)去了,他搜索的結(jié)果可能會(huì)插入一些廣告,是盜用百度的流量的。釣魚(yú)網(wǎng)站,它是屬于社會(huì)工程學(xué)的一些手段,大部分的損失其實(shí)是這樣的一種形態(tài)的攻擊造成的。

針對(duì)剛才說(shuō)的那些手段,我們有這樣一些建議。首先就是簡(jiǎn)單密碼,這個(gè)其實(shí)說(shuō)過(guò)很長(zhǎng)時(shí)間了,但是很難做到。再就是自己的數(shù)字證書(shū),現(xiàn)在網(wǎng)銀什么都是有數(shù)字證書(shū)或者是UKEY之類的,使用的時(shí)候要注意安全,然后就是提高網(wǎng)銀密碼的保密性,因?yàn)槊艽a盜用的成本還是很高的,不在公共場(chǎng)所使用網(wǎng)銀業(yè)務(wù),不掃描來(lái)歷不明的二維碼。然后就是安裝殺毒軟件,像百度殺毒、百度衛(wèi)士之類的。這里我就要我過(guò)渡到我們?yōu)槭裁磿?huì)做這個(gè)事,就是百度安全中心為什么要做這樣一件事情。從安全軟件的角度來(lái)看,安全能力就體現(xiàn)在兩個(gè)方面,一個(gè)就是對(duì)所謂的文件安全,就是你的計(jì)算機(jī)里面的文件有沒(méi)有病毒,有沒(méi)有木馬之類的,有沒(méi)有惡意軟件之類的。還有一個(gè)就是所謂的網(wǎng)址安全,就是URL安全。URL安全可以分為兩類,一類是大量病毒和木馬的來(lái)源,要從源頭上去卡住,另一類就是欺騙,大量欺騙的東西是以網(wǎng)址的形式傳播出去的。而百度其實(shí)是一個(gè)非常重要的傳播渠道,所以說(shuō)我們就非常有必要去做這樣一件事情。

所謂的網(wǎng)絡(luò)安全就是我們從網(wǎng)址安全的角度入手,來(lái)幫助用戶去防范這樣的一些惡意程序。它的操作原理是什么?當(dāng)用戶在本地訪問(wèn)一個(gè)網(wǎng)址的時(shí)候會(huì)先過(guò)一下百度安全軟件,安全軟件會(huì)到云端安全,針對(duì)這個(gè)訪問(wèn)的網(wǎng)址給出一個(gè)安全與否的答案。如果安全的話會(huì)放行,如果不安全的話會(huì)提醒。簡(jiǎn)單的過(guò)一下,云端安全基本的原理其實(shí)很簡(jiǎn)單,可以這樣說(shuō),就是說(shuō)我們犧牲掉第一個(gè)用戶或者最初的幾個(gè)用戶,然后以后的用戶沒(méi)有問(wèn)題。當(dāng)用戶用百度殺毒來(lái)進(jìn)行防護(hù)的時(shí)候,我們會(huì)知道這個(gè)我們不認(rèn)識(shí),我們會(huì)抓下來(lái)跑一遍,大概一分鐘的時(shí)間就會(huì)知道它的結(jié)果了,然后把這個(gè)結(jié)果寫到緩存系統(tǒng),海量查詢系統(tǒng)里面去,等這一分鐘之后的用戶來(lái)訪問(wèn)的時(shí)候,就知道他是安全用戶,基本的邏輯大概是這個(gè)樣子。

對(duì)于一個(gè)不認(rèn)識(shí)的網(wǎng)址怎么判斷呢?就是下面這個(gè)大的方塊里面,有一個(gè)比較復(fù)雜的運(yùn)營(yíng)系統(tǒng),首先他會(huì)去過(guò)各款引擎,這下面列了有四款,引擎會(huì)給出一個(gè)結(jié)果,結(jié)果再進(jìn)行匯總,匯總的時(shí)候就有些策略,相信哪一塊,不相信哪一塊,其實(shí)這就是一個(gè)投票機(jī)制。然后判決出來(lái)的結(jié)果再回寫到緩存里面去,這其中會(huì)進(jìn)行一些人工的干預(yù),比如說(shuō)對(duì)于熱度和廣度非常高的這些網(wǎng)站的話,我們會(huì)重點(diǎn)關(guān)注。熱度就是訪問(wèn)的用戶量非常大,廣度就是訪問(wèn)的用戶非常多,這是整體的系統(tǒng)架構(gòu)。

我們就這幾款引擎來(lái)介紹一下。這其實(shí)就是我們?cè)诰W(wǎng)址安全方面核心的能力部分,對(duì)于掛馬這一類大概有四種方式進(jìn)行攔截:一是虛擬機(jī)蜜罐,其實(shí)就是跑一遍,看看有沒(méi)有問(wèn)題;二是瀏覽器模擬,瀏覽器模擬的效果會(huì)更好,有時(shí)候用百度的爬蟲(chóng)去爬的時(shí)候是好的,但是用戶訪問(wèn)的時(shí)候又是壞的,所以用瀏覽器模擬是最有效的;三是黑白名單,這需要人工去運(yùn)營(yíng),比如說(shuō)百度有官方網(wǎng)站的資質(zhì)信息,這個(gè)肯定就是白名單里面的,黑名單可能就是我們常年累積下來(lái)的,以及下面有安全聯(lián)盟,安全聯(lián)盟主導(dǎo)的一個(gè)樣本交換的這樣一個(gè)機(jī)制,其實(shí)就是累積黑樣的一個(gè)方式;四是PE引擎,有一類威脅來(lái)自于網(wǎng)頁(yè)里面嵌入了有空鍵,或者是誘導(dǎo)你下載一些軟件,就是之前的快播模式,下載一些木馬。這個(gè)時(shí)候我們就借助于另外一個(gè)安全能力,就是文件安全的能力,這個(gè)引擎就是文件安全能力的,把這個(gè)文件扔給它,然后它告訴你這個(gè)文件有沒(méi)有問(wèn)題。如果這個(gè)文件有問(wèn)題的話,那你這個(gè)網(wǎng)頁(yè)肯定也有問(wèn)題。

從虛擬機(jī)的層面來(lái)看,惡意網(wǎng)頁(yè)的密碼可以從幾個(gè)層面威脅到系統(tǒng)。首先是應(yīng)用層面,利用瀏覽器的漏洞執(zhí)行一些Shellcode,如果你事先已經(jīng)被植入了木馬的話,那在網(wǎng)頁(yè)里面可能和本地進(jìn)行一些交互,就會(huì)帶來(lái)更高的權(quán)限。甚至還有可能到硬件的層面,其實(shí)跟病毒的模式是一樣的,只不過(guò)它會(huì)通過(guò)網(wǎng)頁(yè)去激發(fā)執(zhí)行。

我們?cè)趺醋瞿??其?shí)瀏覽器的模擬也是類似,首先就是利用堆的溢出,就指向一個(gè)代碼,跟操作系統(tǒng)類似。我們檢測(cè)的時(shí)候就是,當(dāng)你發(fā)現(xiàn)腳本申請(qǐng)消耗大量?jī)?nèi)存的時(shí)候,就可以對(duì)上下文的屬性進(jìn)行判斷。這是其中一個(gè)例子,其中有一個(gè)DoCmd函數(shù),沒(méi)有檢測(cè)長(zhǎng)度,然后就被植入的一段,導(dǎo)致了它的溢出去執(zhí)行那個(gè)惡意代碼。檢測(cè)的時(shí)候?qū)τ谶@樣一些函數(shù),這個(gè)代碼是檢測(cè)器的一個(gè)代碼,在里面用自己的函數(shù)去取代它,就是包一下,然后在它上面做一些參數(shù)長(zhǎng)度的監(jiān)測(cè)。這是病毒防護(hù)技術(shù)的使用,如果網(wǎng)頁(yè)上面本身嵌入的可執(zhí)行的東西是有害的,我們通過(guò)另外一部分安全能力檢測(cè)出來(lái),就是你下載網(wǎng)頁(yè)的時(shí)候把文件下下來(lái),然后去走病毒鑒定中心去監(jiān)督一下,如果有問(wèn)題,反過(guò)來(lái)證明網(wǎng)頁(yè)也有問(wèn)題。

這是自然語(yǔ)言處理技術(shù)的部分,這個(gè)圖很復(fù)雜,其實(shí)可以這樣理解,就是把一個(gè)網(wǎng)頁(yè)給他,就是一個(gè)巨大的字符串,對(duì)這個(gè)字符串進(jìn)行各種分類。我們現(xiàn)在有大概40種類別,比如像色情、博彩、欺詐、釣魚(yú)等等,比如模仿淘寶的,其實(shí)也是釣魚(yú)的一種子類,最后把這個(gè)問(wèn)題歸結(jié)到一個(gè)分類問(wèn)題。這里我們主要用到了四類,這是處理的流程??梢宰⒁庖幌拢谧匀徽Z(yǔ)言處理的技術(shù)需要有一些訓(xùn)練的樣本集,這個(gè)其實(shí)是最困難的。但是好在我們百度這邊有巨大的數(shù)據(jù)支撐,所以樣本集是非常龐大的,甚至可以包含整個(gè)中文互聯(lián)網(wǎng)所有的信息。所以說(shuō)在這一點(diǎn)上,其實(shí)百度的平臺(tái)是給了我們很大的幫助的。做過(guò)自然語(yǔ)言處理的都知道,樣本是非常困難的,拿到樣本,拿到一個(gè)好的訓(xùn)練集是非常困難的。

這是其中一個(gè)分類就是Bayes,其實(shí)很簡(jiǎn)單,對(duì)于一些欺詐類的,或者有問(wèn)題的網(wǎng)站中經(jīng)常出現(xiàn)的關(guān)鍵詞會(huì)有一個(gè)權(quán)重,在分析這些網(wǎng)頁(yè)的時(shí)候,根據(jù)這些權(quán)重會(huì)給出一個(gè)計(jì)算公式,當(dāng)超過(guò)一定閾值的時(shí)候會(huì)認(rèn)為它有問(wèn)題。

最大熵是信息論里面的一個(gè)概念,就是給出一個(gè)符號(hào)序列,比如說(shuō)在右側(cè)的,其實(shí)是一種方式,就是HTML的標(biāo)簽,我們以HTML的標(biāo)簽為一個(gè)序列的話,以它作為信號(hào)源的話,我們對(duì)于每一個(gè)網(wǎng)頁(yè)算出它的信息熵,當(dāng)它的熵達(dá)到某一個(gè)閾值的時(shí)候,我們就會(huì)認(rèn)為有問(wèn)題,基本原理是這個(gè)樣子。

另外一個(gè)就是非常直接有效的辦法,我們叫做傳播路徑。比如已經(jīng)知道有問(wèn)題的東西,在這個(gè)網(wǎng)頁(yè)中出現(xiàn)了,那么這個(gè)網(wǎng)頁(yè)肯定很大程度上是有問(wèn)題的,最典型的就是惡意號(hào)碼。那種欺詐類的,基本上上面都會(huì)有一個(gè)電話號(hào)碼讓你打過(guò)去,我們?nèi)绻肋@個(gè)電話號(hào)碼有問(wèn)題,那個(gè)網(wǎng)頁(yè)也會(huì)有問(wèn)題,郵件、匯款信息、QQ號(hào)之類的都可以。在這里也歡迎大家能夠一起來(lái)共享這樣一些數(shù)據(jù)。

對(duì)于自然語(yǔ)言處理技術(shù)的使用我們有這樣兩句話來(lái)總結(jié)一下,就是通過(guò)對(duì)大數(shù)據(jù)的挖掘,我們能夠做到聞風(fēng)而動(dòng),因?yàn)橛写罅康目蛻舳嗽谀抢镏?,有大量的用戶群行為在那里,一個(gè)風(fēng)吹草動(dòng),就會(huì)在數(shù)據(jù)層面有一個(gè)體現(xiàn),就會(huì)觸發(fā)我們這邊一個(gè)應(yīng)急的預(yù)案,就知道可能什么地方有問(wèn)題了,這個(gè)是非常明顯的。票務(wù)是最典型的,一旦到節(jié)假日的時(shí)候,票務(wù)類的欺詐就直線上升,我們這邊就會(huì)預(yù)警,我們就會(huì)投入更多的力量在這方面去做。反過(guò)來(lái),利用我們已經(jīng)知道的信息,反過(guò)來(lái)通過(guò)機(jī)器學(xué)習(xí)給出來(lái)預(yù)測(cè)的模型,模型的作用就是未卜先知,就是你還沒(méi)有在這里面出現(xiàn)的時(shí)候我們就知道你有問(wèn)題。

總結(jié)一下,我們對(duì)于網(wǎng)絡(luò)欺詐類猖獗原因的認(rèn)知。其實(shí)主要的原因就是追回率太低,因?yàn)榘赴l(fā)非常頻繁,很難立案,每一個(gè)單價(jià)都很小,但是數(shù)量巨大,這也是互聯(lián)網(wǎng)的特點(diǎn),手段變化多端。很多網(wǎng)站本身的安全意識(shí)也不強(qiáng),用戶的安全意識(shí)不強(qiáng),這是非常重要的。出現(xiàn)問(wèn)題的時(shí)候相互推諉,網(wǎng)站說(shuō)是銀行的問(wèn)題,銀行說(shuō)是網(wǎng)站的問(wèn)題。自然語(yǔ)言矗立在這個(gè)里面有一些什么樣結(jié)論性的東西可以給出來(lái)?它主要是提高惡意程序傳播的門檻,病毒防護(hù)技術(shù)就是防止交叉感染,文件類的病毒和欺詐類的網(wǎng)頁(yè)相互作用。這兩種技術(shù)的綜合應(yīng)用可以提高惡意行為的檢出能力,降低網(wǎng)絡(luò)風(fēng)險(xiǎn)。

再回過(guò)頭來(lái)講我們之前說(shuō)的那個(gè)問(wèn)題,我們?yōu)槭裁从斜匾鲞@樣的一些事情?為什么安全軟件有必要去做網(wǎng)址安全?在我們的角度來(lái)看,導(dǎo)致最后結(jié)果的都會(huì)經(jīng)過(guò)一個(gè)網(wǎng)址,無(wú)論是二維碼、電話號(hào)碼、網(wǎng)頁(yè)、惡意木馬,因?yàn)楝F(xiàn)在畢竟是互聯(lián)網(wǎng)時(shí)代,像之前那種用U盤,甚至用軟盤傳播的病毒已經(jīng)很少了,就是互聯(lián)網(wǎng)的傳播,這是我們的切入點(diǎn)。

我的分享就是這樣,感謝大家!

上一篇:NSC2014國(guó)家信息中心信息與網(wǎng)絡(luò)安全高級(jí)顧問(wèn)章恒

下一篇:沈逸:沉著應(yīng)對(duì)美國(guó)網(wǎng)絡(luò)安全新攻勢(shì)