翁志:各位下午好,我今天給大家分享的題目是大數據分析在電商安全中的應用。
讓我們回顧一下Internet的發展,自1990年起到現在近30年的時間。從我們的網速來說,在座的極少數人用過原來的…1.4 56K,還有17.4K的上網,后來進展為SDN,主要是公司使用,家庭2000年的時候有了…,在國內用得更多的是ADSL?,F在網速已經達到了一個…GB的速度,用的是…,國內HNT提供1GBS的網速,能夠讓大家接入。
編寫,Internet發展,不得不提雅虎,還有原來老的公司網景,都為Internet的發展做出了很大的貢獻。網絡協議從1.0,2.0進入到3.0的時代。從我們互動設備來看,大家原來都用的是Desk lap,現在更多的是用手機,用Tablet,還有PAD,國外學校更多的是網本進行網絡的連接,以后更多的是LOT,Internet進入了中國的方方面面。
數據的變化,原來大家存儲的數據都是寫在紙上,一個紙上500個字?,F在我們很多的數據是放在了網絡端,放在了云上,數據都是以什么樣的數據數量存儲的?原來的一個小小的軟盤是512K,現在我們每天生產的數據都不是用T做存儲單位了,每天電商公司處理的數據都達到一點多…,什么概念?那就是10的30次方。
我們面臨的安全的威脅,在PC時代主要是為了殺毒軟件,Symantec原來就是做殺毒軟件的。有惡意軟件的攻擊,包括信息的盜取,身份的盜取,但是云上我們受到威脅的形式已經有了很大的變化。剛才大家講到網絡劫持,包括DNS劫持,包括內容的劫持,包括流量的攻擊,像SSS,還有注入、旁路攻擊,還有驗證攻擊,各種各樣的攻擊都是為了盜取用戶的信息,因為我們信息完全是在云端存儲,安全的問題變的越來越嚴重,沒有一個很好的安全大家對于網絡的信任就是缺失的,這肯定也會影響我們商業的運作,也會威脅到每個人的信息安全,每個人信息的丟失。
看一下現在網絡上的數據安全是怎么進行保護的呢?從架構來說,現在進入到了一個云時代,我們云架構是分布式的架構,數據分布在方方面面,分布在各個不同數據中心,不同的體系當中。這就為我們的數據安全提出了一個更大的挑戰。因為保證各個點的數據的安全比保證一個點的數據安全相對來說要難很多。
原來的數據都是放在冠形數據庫中,像IBM都有一系列的安全保證機制,現在的數據都是用分布式,Hadoop、Big? table這些分布式的數據存儲中,也還包括一些非結構化的數據,這些數據沒有一個統一的安全認證方式,這對我們的數據保障是一個很大的挑戰。
數據隱私,原來數據存儲數據分析也有一個認證的問題就是誰能使用,讓這個數據在規范的環境下使用,包括數據加密,網絡傳輸中的數據加密,數據中心內部數據也要有一個加密的機制。比如我從一個機器訪問另一個機器,通過RPS方式還是什么方式,這些數據如何傳輸保證安全都是我們需要考慮的問題。
包括存儲,我們數據放在硬盤上是否應該是一個加密的方式。對于一個負責任的電商來說都是需要考慮的。
我們的日志,每天產生的數據量,幫我們回溯到原來的某一個時間點,是非常重要的一個財富。對于日志的管理會幫助我們在安全上來追溯以前發生的問題。
數據審計也是大家需要著重的地方。數據完整性,包括點對點和數據過濾,大家在工作中遇到了。
我們有各種各樣傳統的安全實現方式,這些方式是否對我們現在來說,是否能防范一些遇到的安全威脅呢?我們說應該是沒有的?,F在的安全防范體系需要全局立體的,而非局部單一的,有些數據是帶著DNA的,這個數據怎么進行分析,能不能知道這些數據中是否有數據泄露的危險,我們認為通過一個單點,通過傳統方法已經遠遠不能滿足我們的需求。
如何打造一個基于數據分析的方法的安全體系?這是我今天主要跟大家分享的,我們是如何進行數據保護的。
數據在我們的體系中流通的時候都會留下他的蹤跡,我們可以幫助用戶進行一個數據管理的最主要的方式,我們把這些數據進行收集,包括日志,包括方方面面來的信息,這些信息我們進行一個大數據的分析處理,能夠知道什么地方會有數據安全的隱患,比如我的流量異常,這個流量異常來自哪些IP,通過一些細致的分析,我們知道這個流量是否是一個正常的流量,比如我們經常會遇到的爬蟲流量,它可能會經常來爬我們一些節點的某些關鍵信息,這些信息是機器行為和人工行為是有差異的。所以,我們會用數據分析的方式進行一個甄別。同時,一個電商,我們對于用戶數據是非常非常重視的,提出要提供一個非常嚴格的保密和安全防范的措施。
還包括我們的定單,定單泄露也給不法分子可以利用進行欺詐,這都是我們天天遇到的問題,也是我們必須要解決的問題。包括賬戶,有黃牛,還有其他各種各樣的對于賬號體系的攻擊,我們怎么來進行一個完善保護,這是我們經常會遇到的問題。這些數據我們會做一個綜合分析,這個分析的方法有基于規則的,也會有基于機器學習的方式來做。
歸根到底,我們需要的是一個原始數據,來自于日志,來自于系統的監控數據,還來自于我們對社會上流露出來的一些賬號信息進行的管控。當然,對流量的攻擊我們會進行甄別,不僅保護我們系統,保護我們系統的后臺,減少不必要的處理能力的損失。同時,降低我們系統的抗壓。
爬蟲風控系統,對于爬蟲,對于我們一些機器流量,我們都會進行一個過濾。
如何進行數據分析決策?最重要的還是數據,數據我們會進行有序的處理存儲,進行分類,變成一種分布式的方式,便于我們的數據處理,分析要有建模,我們有各種各樣的分析手段,包括傳統的分析手段,也包括機器學習的手段來進行分析,來甄別他是否是一個有害流量或者是一種攻擊流量。
產出就是給我們生成一系列的決策,指引我們如何進行應對,也會對未來進行一個預測,比如對未來流量的使用,對未來流量系統能力的分布都會有所幫助。
看一下日志,日志是這個系統中的基礎,因為沒有日志收集讓我們很難對我們的系統有徹底的了解。所以,日志收集包括方方面面,大家看到可以從監控的服務器上收集數據,應用系統也會吐出日志,根據大數據存儲的日志都會進行收集,還有網絡設置日志,這些日志的收集可以很好的幫我們進行原始事件的回溯。所以,日志是非常重要的,有很多廠商為了性能的原因把日志關掉了,其實這是對一個系統的威脅。我知道的這些大型的比較有實力的國外的廠商他們都會開著日志,性能上會完完全全考慮到日志對系統的影響,而把它變成系統周期的一部分,而不是當成一個額外的部分。
提到HTTPS,從用戶的客戶端到我們的服務器端,會進行一個數據認證,目的在網絡上數據不被劫持。內部RPC加密,在數據傳輸當中就可以保證數據的安全性。同時,在數據做盤的時候我們封盤進行數據加密,敏感的數據必須以加密的方式進行存儲,存儲一個密匙系統,每次都會進行一個日志系統,可以追溯到誰使用了這些敏感數據。出現問題可以把問題局限在一個比較小的范圍內。
還有是認證,認證和授權。我們服務器可能被攻擊了,發生的信息就不會是一個受到保證的,我們對服務器做一個認證,這個認證就能保證我服務器使用當中有一個分析,如果服務器步建立具備條件下這個服務器是不會被我們進行使用和進行數據傳輸的。應用也是一樣,每個應用有一個認證的體系,誰能進行數據的分發,誰能進行數據的接收。
DDoS流量攻擊,對于各種各樣的DCP、UCP的流量的攻擊我們可以進行清洗。
漏洞掃描,大家知道XSS的注入對我們系統來說是一個很大威脅。所以,產品上線都會進行一個掃描,這也是很多電商,我們友商天天做的工作。包括弱密碼,對用戶的行為會進行甄別,對弱密碼的用戶會進行提醒。權限的檢查,為了防止越權的使用,我們也會進行權限的檢查。還有端口掃描,看有沒有信息泄露的可能。
風控體系更多的是基于電商來說很重要的一個方面。因為我們為了用戶的信息安全,我們會做賬號和定單的,還有各個層級信息的管控,管控系統之間是打通的,一旦出現數據泄露的時候,我們會進行一個非常迅速的反饋,我們出臺相應的策略來幫助用戶減少損失。但是我們知道國內對于賬號進行切入,還有對于定單進行非法使用的情況。所以,我們也在這方面做不懈努力,需要大家共同來配合。
網絡劫持,大家已經談到很多了,從胡主任角度來說,像DNS可以進行信息的劫持。在我們天天的任務中都能夠發現到。我們也在全國各地有買點,發現在某些地區是有這種情況的,我們的DNS被進行了地址的改換,還有網絡上網絡包,由于不是加密的方式,也有被別人替換的情況發生,這也是我們生活中和工作中要進行保護的,保護的方法大家也很清楚。
我們現在也在致力于做全網站的HTTPS,也會在不久呈現給大家。
開源軟件的管理,開源軟件為Internet的發展做出了非常重要的貢獻,很多電商公司都是用各種各樣的開源軟件。開源軟件的好處是讓大家能夠迅速的搭建我們的系統,但是由于它是一個公開的方式。所以,很容易被不法分子加以改造進行利用。對于這方面我們會進行管控,需要升級我們都會做立即的處理。所以,對于軟件的管理也是信息安全中的一個必不可少的部分。
系統安全的監控,這方面包括報警,如果發生數據侵襲的時候,我們系統可以可靠穩定的運行。服務器我們都有溫度、濕度各方面的監控,這也是為了使我們的底層的物理機制能夠進行一個很好的工作狀態,保持一個很好的工作狀態。
應急響應,我們有專門針對應急事件進行反應的中心,也是和我們友商BAT都有關聯,目的就是使大家情報交換,共同一起來維護Internet的數據安全。
還有安全的知識培訓因為對于大型的電商公司來說,我們每天都會有新的員工的加入。在研發方面,每個人的層次對安全理解不太一樣,我們通過安全培訓的方式讓他們注重安全,把安全的意識放在他每天的工作中去。所以,我們會做這方面的認證,做這方面的考試,使我們的程序員達到上崗標準。所以,安全是他們上崗一個必備的標準。
這就是我想跟大家分享的一些我們在電商安全方面的一些積累,也希望能夠和大家攜手一塊把我們互聯網上的信息安全保護好。謝謝大家。