压在透明的玻璃上c-国产精品国产一级A片精品免费-国产精品视频网-成人黄网站18秘 免费看|www.tcsft.com

大數據應用模式及安全風險分析

  當前各個領域數據生成速度逐漸加快,需要處理的數據量急劇膨脹。這些巨大的數據資源蘊藏著潛在的價值,需要對其進行有效的分析和利用。當前數據的特點除了數量龐大之外,數據類型也變得多樣化,其中包括了結構化數據、半結構化數據以及非結構化數據。這些數量龐大、種類繁多的海量數據,給傳統分析工具帶來了巨大的挑戰。當前對數據的分析不再是簡單的生成統計報表,而是利用復雜的分析模型進行深人的分析,傳統分析技術例如關系數據庫技術已經不能滿足其要求。在擴展性上,通過增加或更換內存、CPU、硬盤等設備原件以打一展單個節點的能力的縱向打一展(scale up)系統遇到了瓶頸;只有通過增加計算節點,連接成大規模集群,進行分布式并行計算和管理的橫向打一展(scale out )系統才能滿足大數據的分析需求[u。因此傳統工具在擴展性上遇到了障礙,必須尋求可靠的數據存儲和分析技術來分析和利用這些龐大的資源。利用云計算平臺搭建Hadoop計算框架成為當前處理大數據的主要手段。然而由于云計算和Hadoop應用的特點和自身安全機制薄弱,不可避免地帶來了安全風險。

  1、大數據應用模式

  云計算(Cloud Computing)是一種基于Internet的計算,是以并行計算(Parallel Computing )、分布式計算(Distributed Computing)和網格計算(Grid Compu-tin助為基礎,融合了網絡存儲、虛擬化、負載均衡等技術的新興產物。它將原本需要由個人計算機和私有數據中心執行的任務轉移給具備專業存儲和計算技術的大型計算中心來完成,實現了計算機軟件、硬件等計算資源的充分共享[z}。企業或個人不再需要花費大量的費用在基礎設施的購買上,更不需要花費精力對軟硬件進行安裝、配置和維護,這些都將由云計算服務商CSP( Cloud Service Provider)提供相應的服務。企業或個人只需按照計時或計量的方式支付租賃的計算資源。云計算服務商擁有大數據存儲能力和計算資源,被視為外包信息服務的最佳選擇[31因此大數據的應用往往與云計算相結合。

  Hadoop是當前最廣為人知的大數據技術實施方案,它是Google云計算中的Map/Reduce}4}和GFS( Google File System)的開源實現。Hadoop提供了一種計算框架,其最為核心的技術是HDFS ( HadoopDistributed File System)以及MapReduee } HDFS提供了高吞吐量的分布式文件系統,而MapReduee是大型數據的分布式處理模型。Hadoop為大數據提供了一個可靠的共享存儲和分析系統[5-6 }v

  盡管有一些組織自建集群來運行Hadoop,但是仍有許多組織選擇在租賃硬件所搭建的云端運行Hadoop或提供Hadoop服務。例如提供在公有或私有云端運行Hadoop的Cloudera,還有由Amazon提供的稱為Elastic MapReduee的云服務等f}l。因此將云計算與Hadoop結合處理大數據已成為一種趨勢。

  2、大數據安全風險分析

  隨著大數據應用范圍越來越廣,對數據安全的需求也越來越迫切。

  由于云計算的特點是將數據外包給云服務商提供服務,這種服務模式將數據的所有權轉移給了CSP,用戶失去了對物理資源的直接控制[A1。而云中存儲的大數據通常是以明文的方式存在的,CSP對數據具有底層控制權,惡意的CSP有可能在用戶不知情的情況下竊取用戶數據,而云計算平臺亦可能受到攻擊致使安全機制失效或被非法控制從而導致非授權人讀取數據,給大數據安全帶來了威脅。

  Hadoop在設計之初并未考慮過安全問題,在Ha-doop 1. 0. 0和Cloudera CDH3版本之后,Hadoop加人了Kerberos的身份認證機制和基于ACL的訪問控制機制[91。即使在安全方面增加了身份認證和訪問控制策略,Hadoop的安全機制仍然非常薄弱,因為Ker-beros的認證機制只應用于客戶機(Clients )、密鑰分發中心(I}ey Distribution Center, I}DC )、服務器(Serv-er)之間,只是針對機器級別的安全認證,并未對Ha-doop應用平臺本身進行認證[}o}。而基于ACL的訪問控制策略需要通過在啟用ACL之后,對hadoop-policy. xml中的屬性進行配置,其中包括9條屬性,它們限制了用戶與組成員對Hadoop中資源的訪問以及Datanode和Namenode或Jobtracke:和Tasktrackers等節點間的通信,但該機制依賴于管理員對其的配置[川,這種基于傳統的訪問控制列表容易在服務器端被篡改而不易察覺。而且基于ACL的訪問控制策略粒度過粗,不能在MapReduce過程中以細粒度的方式保護用戶隱私字段。況且針對不同的用戶和不同應用,訪問控制列表需要經常作對應的更改,這樣的操作過于繁瑣且不易維護。因此Hadoop自身的安全機制是不完善的。

  2.1 不同應用模式下CSP及Uers帶來的安全風險

  云計算中Hadoop有多種應用模式。在私有云中搭建Hadoop,即企業自己應用Hadoop,使用該平臺的是企業內部各個部門的員工,外部人員無法訪問和使用這些資源。這時的CSP指的是Hadoop的創建和管理者,IaaS級和PaaS級CSP為相同的實體;在公有云平臺應用Hadoop , C SP有2級,IaaS級CSP,提供基礎設施;PaaS級C SP,負責Hadoop的搭建和管理。這時兩級CSP往往是不同的實體。

  由于存儲在Hadoop上的數據是明文的,所以Hadoop中的安全隱患是多方面的,筆者關注的是CSP和用戶之間的安全問題,因此威脅對象分別是CSP和User,如圖1所示。

  C SP對用戶數據的威脅指的是:CSP權限過大可在用戶不知情的情況下獲取用戶數據。用戶對CSP構成的威脅指的是:Faked用戶獲取合法用戶數據或者惡意用戶對CSP發起不合法請求,獲取隱私數據。本文對位于Hadoop中不同狀態的數據可能受到的威脅點用三角表示,如圖2所示。其中1 ,5位置均指的是HDFS中,所以受到的威脅是相同的。

  Malice IaaS級CSP可以通過物理磁盤在位置1,3 ,4 ,5對數據進行獲取。Hadoop中主要的文件結構有如下幾種:SequenceFile , RC File , Avro、文本格式、外部格式。其中有些文件格式是二進制形式的,但像文本格式和外部格式并不都是二進制格式,因此是可讀的。由于是明文存儲,CSP便可以通過讀取數據塊內容提取有價值的部分進行分析。IaaS級CSP對數據具有絕對的控制權,如果從物理磁盤竊取文件或數據塊,便獲得了其中的內容。可以通過建立第三方審計系統來保障其安全,這部分不在本文的討論范圍內。

  Malice PaaS級CSP可以在用戶不知情的情況下通過超級用戶身份即特權管理員身份對文件權限進行更改,以合法身份對數據進行讀取和分析。因此可以在位置1 ,2,5進行數據竊取。不過在1 ,5的位置獲取數據是通過向Namenode請求數據塊,從Datan-ode獲取數據。

  Fucked Use:假冒合法用戶身份對數據進行讀取,一旦獲取了合法用戶身份,便與合法用戶擁有相同的權限,可以在1 ,5的位置通過向Namenode請求數據塊,從Datanode獲取數據,也可以在2的位置輸出需要的數據進行分析。

  Malice Use:在利用數據擁有者提供的數據進行分析時,竊取部分敏感字段進行分析和輸出。可以在2中提取數據,在計算完后通過5獲取分析結果。

  2. 2 威脅模型

  上面提到的是提供Hadoop服務的C SP和使用Hadoop的Use:之間的安全風險,接下來對使用Ha-doop的用戶Use:角色進行細化,分析他們之間對數據隱私的竊取產生的安全問題。在云中搭建Hadoop提供服務的應用場景下,數據使用者收集數據擁有者的數據,并將數據分塊存儲于HDFS中,數據計算者提供對數據分析的代碼,CSP提供數據存儲和分析平臺。因此涉及4類主體,數據擁有者、數據使用者、數據計算者和云服務提供商CSP。這里的不可信實體包括數據計算者和C SP。筆者通過實際的例子給出Hadoop中獲取隱私信息的可能途徑。

  依據Airavat系統中描述的威脅場景,給出對應的安全威脅模型:

  一個在線零售商BigShop ,擁有大量的客戶交易數據庫。現在假定所有記錄是以<客戶、訂單、日期>的形式存在數據庫中,每個客戶一份記錄。一個機器學習專家Researcher,付給BigShop一些錢用來對特定的交易模式進行數據挖掘。BigShop加載數據到Hadoop框架中,Bob寫MapReduce代碼分析它。這里按照對角色的劃分,BigShop屬于數據使用者和CSP,客戶為數據擁有者,Researche:為數據計算者。

  假設Researche:想要得到特殊日子D的訂單數口。他寫了一個Mappe:用來讀取每份記錄,如果記錄日期D,就輸出鍵/值對} K是字符串序列,reduce僅僅匯總與之有關的每個關鍵字K,并輸出結果。

  這種情況下,對于BigShop的主要風險就是Re-searche:的代碼是不可信的,可能是有無意的漏洞或者是主動惡意漏洞。由于Researche:的Mappe:程序直接訪問BigShop專有的交易記錄,它可以存儲部分數據到某個文件中,過后由Researche:取走;或者程序把數據發送到網絡上。

  這樣的泄露可能使得BigShop在商業上處于不利的地位并且由于沒有經過客戶的同意把交易數據公開而遭受信譽問題。輸出的計算結果可能也會泄露信息。例如,Researche:的Mappe:程序可能會在輸人的數據庫中標記存在的(或者不存在)的一個特定客戶,通過操控特定日期的訂單數口:如果該客戶的記錄在這個數據集中,Mappe:程序輸出一個一百萬的訂單數口;否則,輸出0。很明顯,這個結果泄露了客戶的隱私。

  上述提到的安全風險來自于數據計算者,這里的CSP是BigShop自身,數據由BigShop進行維護,并在其上進行計算,因此不存在安全問題。但是如果Big-Shop自身沒有相應存儲和計算設施或并未搭建和使用Hadoop框架,則需要應用外包服務模式,利用其它云服務商提供的Hadoop服務,此時安全風險除了來自數據計算者,還有C SP對數據的竊取,以及云平臺由于出現漏洞受到黑客攻擊,例如黑客通過Root-kith "}方式強迫口標操作系統安裝它的Hypervisor,并把口標操作系統移人一個普通的虛擬機中運行,由于在虛擬化環境中Hypervisor擁有最高特權,因此Ro-otkit可以獲得整個物理機的控制權,對數據安全構成威脅。

  因此上述威脅可以歸納為:

  1)惡意的PaaS級CSP通過給自己設定權限對數據進行竊取,或通過備份中間數據到其他位置進行訪問,或不徹底刪除放人云中的數據,留作他用。

  2)在平臺安全機制失效的情況下,黑客通過某些途徑獲得root權限隨意讀取數據,或偽造數據使用者身份讀取數據或進行篡改。

  3)數據計算者通過map過程輸出某些敏感信息,并使用MapReduee進行統計。

  3、安全策略

  在大數據應用模式下,對文件及文件系統的保護稱為數據服務安全保護,對存儲的鍵值內容及計算輸出結果的保護稱為隱私保護。從行為角度考慮服務安全性的同時,同樣需要考慮數據隱私安全問題。

  對上面提到的安全問題,本文提出以下安全策略:

  首先,需要對CSP和Use:的身份及平臺進行完整性驗證。Kerberos的雙向認證可以保證用戶和CSP雙方身份安全,這是在請求發起時所作的認證。

  其次,在保障了身份的可靠性后,還需要驗證平臺的安全性,平臺安全性可以通過可信計算技術,利用TPM搭建可信云計算環境,對平臺環境進行度量,建立可信鏈,將可信鏈從物理層擴展到虛擬化層,保障云平臺的安全性。

  最后,需要在數據使用過程中對行為請求進行監控,建立監控機制可以保障CSP對數據的非法請求,同時可以監控數據計算者對數據的非法運算和輸出。可以通過使用LSM ( Linux Security Module)設立相應的訪問控制策略,利用hook函數對內核調用進行控制[n},允許合法行為對數據的訪問,拒絕非法的不可信行為,保障數據流向合法請求主體。

  4、結束語

  本文首先提出大數據的應用模式是在云計算環境下使用Hadoop計算框架對大數據進行存儲和分析。給出在不同云計算部署模式下,Hadoop不同階段操作過程中,不可信主體對數據服務和隱私安全構成的威脅,并給出了對應的威脅模型實例,得出在平臺環境可信的情況下,風險主要來自于CSP及數據計算者。CSP可以在不被用戶知曉的情況下更改文件權限獲取數據內容,數據計算者可以通過計算程序輸出隱私字段等方式獲取相關數據,因此需要保障數據服務及隱私安全。最后對相關安全問題給出了對應解決策略。

 

上一篇:智能無懼挑戰 山石網科轟動RSA2015

下一篇:專家支招解決云計算五大安全難題