隨著網絡技術的快速發展,大量數據在各種業務活動中產生,數據價值越來越凸顯,在商業策略、社會治理和國家戰略制定過程中,數據都起到了重要的決策支撐作用。甚至有一種說法是,目前處于數據驅動型經濟中,如果無法分析當前或未來的趨勢,任何組織都無法生存下去,搶奪數據已經成為決定下步行動方案的關鍵。
為了保證企業、組織和國家機關數據安全性,應該對數據進行有效分類,避免一刀切的控制方式,而應采用更加精細的管理措施,使數據資產在共享使用和安全使用之間獲得平衡。敏感數據,或者叫做敏感信息就是一類特殊的數據類型,需要采用特殊的手段進行管理。
一、 敏感信息保護的重要性
大數據時代,所有數據都具有了一定的價值。企業在獲得了大量的個人數據之后,他們會利用人工智能等技術來處理、分析數據,并且挖掘出有價值的信息,然后根據這些信息來促進業務的發展。價值的背后潛藏著巨大風險,大量敏感數據被販賣、竊取和無授權濫用,這一問題已經嚴重危害到個人隱私、企業發展甚至國家安全。
2019 年 1 月,一樁被稱為 “Collection#1” 的 “史上規模最大公共數據泄露事件” 遭到了曝光,包含將近 7.73 億個獨立電子郵件地址、2122 萬多個獨立密碼。據調查,此次曝光的內容僅是冰山一角,Collection #1 的文件大小約為 87GB,而整個信息合集的總量是這個數字的十倍之多。2018 年 1 月,印度 10 億公民身份數據庫 Aadhaar 被曝遭網絡攻擊,該數據庫除了名字、電話號碼、郵箱地址等之外還有指紋、虹膜紀錄等極度敏感的信息。
除了隱私和商業秘密之外,一些 “公開” 數據開始展現出新的面貌和價值,越來越多的計算資源被用于從非涉密數據中提煉敏感信息,獲取涉密內容和重要情報,這更應引起高度警惕:2017 年 11 月,美國一款記錄健身者運動軌跡的軟件——Strava,用兩年時間積累的用戶數據,制作發布了一幅 “全球運動熱力地圖”。2018 年 1 月 28 日,一名 20 歲的澳大利亞學生納森·魯澤研究這份熱力圖后,通過分析特定區域的一些運動軌跡,找到了美俄等國設在敘利亞、伊拉克和阿富汗等國的基地,有的從未向外界公布過。納森·魯澤公布他的 “發現” 后,越來越多的基地通過這種途徑被 “挖掘” 出來,其中包括美國中情局在索馬里摩加迪沙的基地、俄羅斯在敘利亞的赫梅米姆空軍基地等。而且,從熱力圖的軌跡中,能看到的不僅僅是基地的位置,基地內部的人員軌跡也清晰可見,專業人士可以從中研究出這些軍事設施的運轉方式。
電子政務、互聯網、物聯網等領域已經產生海量數據,并且在國家大數據戰略下流轉,但目前這些數據基本處于 “裸奔” 狀態,面臨數據泄露的威脅。大量非密、敏感的信息碎片在高技術深竊密的幫助下可以聚合、疊加形成影響國家安全的涉密信息。對數據進行有選擇性地保護是政府控制信息的傳統方法,大數據時代此法可能不再奏效,這就要求重新審視需要保守的國家秘密范圍,對一些通過大數據分析有可能被準確預測,且確實關系國家安全的敏感信息,要研究如何識別和管理,并切斷獲取、分析和預測的途徑。
二、 敏感信息定義
那么什么是 “敏感信息” 呢?維基百科對 “敏感信息” ( Sensitive Information) 的定義為:丟失、濫用、變改或未經許可存取會損害個人隱私或利益、商業秘密 (the Privacy or Welfare of an Individual, Trade Secrets of a Business),甚至國家的安全和國際關系 (the Security and International Relations of a Nation) 的信息 。其將 “敏感信息” 分為涉及企業秘密、國家安全兩大類。Techopedia 將敏感信息定義為 “特定人群有權知悉的專有信息 (Privileged or Proprietary Information)”,也稱為 “敏感資產 (Sensitive Asset)”。
1. 敏感信息界定時的地域、文化差異
實際上關于如何鑒定和分類 “敏感數據” 這一核心問題,不同國家、區域在界定過程中存在很多差異。
首先,依據伊茲歐尼的觀點,“測定數據的敏感程度應當反映所在社會的價值觀”,敏感數據的判斷標準受到該社會特定規范性文化的影響。但即便是文化傳統相似的歐盟成員國之間依然存在一些差異,例如,在一些歐盟國家,“照片可被用來區分公民的民族/種族”,因而被視為敏感數據,而歐盟數據保護工作小組 (The Working Party) 并不將網絡照片歸為敏感一類。
其次,即便是在同一個同家、州或城市,不同的法律或部門也可能對同一類數據的歸類不盡相同。以美國為例,《金融隱私權法》規定,客戶的金融信息、銀行賬戶信息被視為高度敏感數據,美國聯邦貿易委員會 (FTC) 公布的五大敏感數據也包括財務信息,但HIPAA法案卻將其排除在外。
再者,同一文化或社會中,敏感數據的標準還會隨著時間而改變。不同年代的人有著不同的隱私期待或判斷標準。
綜上不難看出,對于敏感數據,企業和組織、甚至國家層面都要針對自身性質以及業務情況,制定更符合實際情況的分類。
2. 美國對敏感信息的管理
美國把 “敏感但非密信息” 稱為 “受控非密信息 (簡稱CUI)”,目前根據適用法律、法規和政府政策進行保護或傳播控制的信息,分為僅供官方使用信息、執法敏感信息、國防部受控非密核信息、限制分發信息、國務院敏感非密信息、緝毒署敏感信息、外國政府信息和技術文件分發聲明八類。
2018 年 7 月,美國信息安全監督辦公室 (ISOO) 公布了《2017年美國保密管理年度報告》,美國信息安全監督辦公室主任布拉德利在這份報告中的第六部分著重分析 “受控非密” 信息管理情況,69 頁的報告中 “受控非密” 信息的分析內容就達 3 頁,其中對存在問題的分析超過 1 頁,足見對此項問題的重視程度。
美國一方面開始重視敏感信息的管控,一方面安排以國家安全局為代表的安全情報領域建立新的情報獲取方式,逐漸從秘密情報 ( Covert Intelligence) 向公開情報 (Overt Intelligence) 獲取偏重,以商務合作、文化交流、科研訪問、社會調查等合法形式為掩護,通過新聞媒體、跨國公司、調查咨詢機構和非政府組織實施方式更加隱蔽的情報竊密行為,通過搜集和分析全球范圍內的媒體、網絡、政府公開數據、專業學術出版物、商業數據、灰色文獻,為國家安全、行政執法領域的分析人員提供涉密、非密以及專有情報服務。
3. 我國對敏感信息的界定及其分類
對于個人來說,敏感信息涉及個人隱私,按照我國國家標準《GBT 35273-2017 信息安全技術個人信息安全規范》解釋來說,是指一旦泄露、非法提供或濫用可能危害人身和財產安全,極易導致個人名譽、身心健康受到損害或歧視性待遇等的個人信息。通常情況下,14 歲以下(含)兒童的個人信息和自然人的隱私信息屬于個人敏感信息。
對于企業或一個組織來說,敏感信息包括客戶資料、技術資料、重大決策信息、主要會議紀要、財務預算信息和各種財務報表等高價值數據,這些數據以不同形式存在于企業資產中。
對于國家政府部門來講,敏感信息是介于保密信息與公開信息之間的特殊信息,這類信息不符合定密標準,不能按照國家秘密的形式進行保護,但是如果公開,卻有可能造成某種損害或潛在損害,因此需要限制公開或控制其傳播。2017 年 5 月 24 日,全國信息安全標準化技術委員會秘書處發布了國家標準《信息安全技術 大數據安全管理指南》征求意見稿中提到:“組織應對已有數據或新收集的數據進行分級,數據分級時需要組織的業務部門領導、業務專家、安全專家等共同確定。政府數據分級參照 GB/T 31167-2014 中6.3執行,將非涉密數據分為公開、敏感數據”。
三、Cisco敏感數據安全管理框架
Cisco 通過一系列收購,在網絡安全行業迅速崛起,安全業務已經成為思科最重要的利潤增長點,通過將安全功能內置到其全系列產品中,Cisco 提高了其產品本身的競爭力,另一方面也對獨立安全廠商業務形成了巨大的擠出效應。類似 Cisco 產品這樣的一體化集成平臺顯然是未來安全產業的一個重要發展趨勢。
本文就從 Cisco 對敏感數據的分類管理框架出發,看 Cisco 敏感數據管理的思路方法。
下面幾個問題是解決敏感數據安全保護需要關注的核心內容:
Cisco 敏感數據安全管理框架從一定程度上提供了解決上述問題的思路。
1. 敏感數據分類
Cisco 公司建立了數據分類框架 (Data Classification Framework),將數據劃分為四個大類,按照敏感性程度由高到低,分別是:
對于會接觸到敏感數據的人群,Cisco 公司也進行了明確的分組,分別是數據所有者/受托人 (Data Owners / Trustees),數據保管人 (Data Custodians),以及數據用戶 (Data Users)。不同組人群接觸到的分類數據也不同。
Cisco 數據分類框架及對應接觸人群
2. 敏感性分類管理策略
前面提到,對于任何企業或者機構而言,數據安全策略的執行取決于對數據的準確分類。Cisco 公司構建了金字塔型的數據應用生態系統,分別制定了數據所有者指南、組織級指南和企業級指南來實施數據管理 (Data Stewardship),一旦實施分類準則出現沖突或者難以界定的情況時,將按所遵從指南的等級高低進行評判。
Cisco金字塔型的數據應用生態系統
以程序源代碼的敏感級別判別過程為例:
一般說來,程序源代碼判別應遵循企業級指南,默認情況下,工程源代碼會被歸類為高度機密。但是在組織級指南中有規定,關鍵或新興項目源代碼要被歸類為受限,也就是說擁有更高的敏感程度。同時,數據所有者指南指出,Skyjet 項目源代碼應歸類為高度機密,但 I/O board FPGA 項目源代碼實際上歸類為機密。
因此,雖然都是源代碼,但是按照指南的等級,Skyjet 項目源代碼和 I/O board FPGA 項目源代碼分別會被分類為高度機密和機密。
3. 數據的敏感性識別方法
可以確定的是,數據的敏感性識別絕對不是孤立的一環。實際上,數據發現、數據圖譜、數據分類等眾多領域在識別數據敏感程度方面都可能發揮著重要作用,我們需要將這些方法協同起來形成一致性推斷結果。
Cisco 提出了一種基于用例方法的數據應用場景分類模型,這種模型能夠有效地將用戶分類判斷和自動化分類判斷聯合起來。
基于用例的數據應用場景分類模型
Step1:構建決策/場景模型 (Building decision/context models)
(a) 識別正確的處理和數據保護單元
從元素層面上說,針對已識別的敏感元素要有效地設計和實施安全和保護控制;
從類別層面上看,在數據風險和合規要求的法律、合同和監管理解方面應該是有效的;
對象和聚合級別上,對于記錄和文檔級安全性和數據保護應該是高效的,并且有助于了解批量數據的價值;
在系統和實例級別上,對相對風險優先級和支持災難(事件)響應計劃(流程)有效。
在不同層級上識別正確的處理和數據保護單元
(b) 識別用于數據場景提取的正確數據對象
比如公司的收入數據,可能會以非常多的形式存在,比如 Word,Excel,TCP包,數據庫文件等等,這些數據都是以非常具體的形式存在的,但這種具體化無形中會增加分類的復雜性,在這種情況下,需要對其進行抽象,所有與收入相關的數據,無論其形式、存儲位置和表達方式,都應該歸為收入類數據。
從不同數據場景提取數據對象
(c) 場景分類的業務相關性
可以根據以下業務相關性(業務定義的屬性),識別適合場景分類的數據對象,
并非所有數據對象都適用于場景分類,比如靜態數據分類和錯誤的數據處理或保護單元。
Step2:提取場景——問正確的問題
數據分類時依據的問題
為了更好的提取場景,需要明確一些問題,包括數據的特殊屬性、數據使用和產生的相關修改、存儲庫/實例屬性、聚集和時間敏感度、數據類別的含義、個人信息的適用性、風險和影響分析等等。
Step3:與數據所有者一起構建模型
在做好了所有的準備之后,和數據所有者一起按照如下的流程構建模型,將數據分為低敏感性、中等敏感性和高度敏感三類。
數據分類模型構建流程
Step4:保留場景并實施正確的控制
需要提出一個全面的業務解決方案來支持 “使用前分類”模式。
有三個關鍵活動定義了分類解決方案:
Step5:整體解決方案
Cisco敏感數據管理整體解決方案
Cisco 敏感數據管理通過對多源頭(已淘汰的、動態運行的、使用中的和在線系統和設備)數據信息的發現、識別(借助數據識別和存儲的數據全景圖來實現)、基于場景的分類和標記工作,最終完成數據的分類認證標記工作,形成有效載荷或者源信息、元數據、應用或文檔來用于實施輸入控制。
四、我國敏感信息監管產品的發展趨勢展望
Cisco 通過建立敏感數據安全管理框架,可以實現自動化的敏感數據分級評估和監管模式。根據特定場景下的成本和效率統計,未建立起敏感數據管控系統的情況下,依賴人工完成數據分類、打標簽和分析的成本是建立系統后自動分析成本的 100 倍以上,時間是自動分析的 3500 倍。
“Cisco模式” 關注焦點是敏感數據的分類,并沒有太多涉及分類后控制管理工作。中孚對敏感信息實時監管系統的設計理念與 “Cisco模式” 有同有異,對比如表1:
中孚敏感信息實時監管系統設計理念與 “Cisco模式”異同點對比
在我國國家政策的大力支持下,大數據應用正在引領各垂直化領域變革,這種趨勢下,數據流動將產生越來越多的價值。然而數據的使用也是一把雙刃劍,只要數據處于流動的過程中會存在敏感數據泄露的風險。要提高數據的使用價值,避免敏感信息泄露產生的不良后果,這就需要像 Cisco 一樣,規范和建立敏感信息分級保護機制,并搭建高效的敏感數據安全管理體系。
目前國內敏感信息監控產品大多還將功能定位在特定信息的檢查和流通渠道的管控上,尚未形成一套支撐大數據環境下敏感信息綜合監管的有效體系。我們認為,為了更好的保護國家、企業和個人的數據資產,國內的敏感信息監管產品廠商需要對數據狀況進行深入研究,特別是數據的類型化、層級化研究,同時應樹立起一種意識,那就是敏感信息管理不是簡單依靠一套產品就能夠解決的,而應該通過產品引導客戶建立敏感數據安全管理的理念,形成適用于自身組織特點的數據分級和管控體系,這才是國產敏感信息監管產品今后一個階段的發展方向。
具體來說,整個敏感信息監管體系應該遵循以下流程建立:
1)幫助客戶甄別其組織內部的敏感數據
客戶所需要管控的敏感信息類型很多,可能涉及個人隱私、企業商業秘密、政府部門甚至國家數據資產,應該在不同客戶數據資產類型對數據進行梳理,定義不同敏感信息的類別和級別,進行數據標簽化。
以網絡運營商此類企業管理的數據類型為例,可能包括網絡用戶身份相關數據、用戶服務內容數據、用戶服務衍生數據和運營管理數據等,這些數據根據對第三方價值和泄露后產生的后果可以進行分級,表2是運營商客戶數據敏感性分級定義。
某網絡運營商敏感數據分級:
針對不同敏感級的數據應該計劃采用不同的管控措施。
2)從客戶信息類型出發,識別與內部、外部敏感客戶信息相關的信息系統與部門崗位,繪制敏感信息的分布視圖。
對被監控端所有文檔的編輯工作進行監控,根據策略自動分析文檔的敏感性,在發現文檔高敏感級甚至是可能涉密的情況下,完成識別。目前中孚的敏感信息實時監管產品通過深度語義分析、關鍵字自動抽取、圖像識別和文件指紋信息識別等手段實現高效識別,同時在識別后還能屏蔽該機網絡功能,防止泄密行為發生,同時向主管部門及相關領導報警,供日后查證。
對所有檢測出的敏感數據,根據之前數據分級分類方法進行級別和類別的歸類。
繪制敏感信息分布視圖
對客戶敏感數據進行分類分級的基礎上,通過地理分布圖或者是網絡分布圖等方式實現敏感數據分布情況的可視化展示。
國產敏感信息監管整體解決方案框架
3)建立起一套切實可行的數據安全管理制度和數據安全監控體系,對數據的全生命周期進行管理。
敏感數據管理體系