倫敦帝國理工學院的研究人員宣稱,機器學習算法可識別任意匿名數據集中 99.98% 的用戶真實身份。
研究人員開發出的算法僅需 15 個人口統計學屬性即可從匿名數據集中正確確定個人真實身份。
該研究由倫敦帝國理工學院和比利時天主教魯汶大學的科學家聯合展開,揭示當前數據匿名化方法無法阻止個人信息復雜數據集被重新識別出來。
公司企業和政府辯稱自己出售的數據集通常是不完整的,以此淡化個人身份被重新識別的風險。但我們的發現證明了現有匿名化方法并沒有什么隱私保護作用。
該項研究發表在《自然·通訊》期刊上,證明機器學習算法可輕易逆向工程此類匿名數據,以極高的準確率重新識別出個人身份。
研究人員表示,僅需 15 個人口統計學意義上的屬性,比如性別、年齡、婚姻狀態等,該新工具便可重新識別出任意匿名數據集中 99.98% 的美國人。
該研究共同作者,天主教魯汶大學博士盧克·羅徹 (Luc Rocher) 解釋道:生活在紐約市的 30~40 歲男性肯定很多,但生日是 1 月 5 號,且開著紅色跑車,與兩個女兒和一條狗一起生活的 30~40 歲紐約市男性就少得多了。
有了這些細節,買家入手本應匿名的數據后便可構建出十分具體的個人資料了。
來自倫敦帝國理工學院計算機系與數據科學研究所的伊夫-亞歷山大·蒙鳩斯依 (Yves-Alexandre de Montjoye) 博士指出,盡管個人數據受 GDPR 保護,但只要是匿名的,仍可出售給任何人。
盡管他們(公司)受 GDPR 約束,但只要經過匿名化處理,這些數據仍可出售給任何人。我們的研究證明了一旦數據售出,追蹤到個人是如此容易而準確。
研究結果顯示,攻擊者能輕易準確估算出所發現記錄屬于自己目標人物的概率。
天主教魯汶大學教授朱利安·亨德里克斯 (Julien Hendrickx) 補充道:我們總是假定匿名化能保護個人信息安全。但研究顯示,反識別根本不足以保護個人隱私。
研究人員還發布了一款在線工具,可以幫助人們找出自己的獨特屬性。該在線工具僅用于演示目的,不會保存用戶的數據。
近些年來,主流科技公司面臨公眾及數據隱私監管機構對其用戶數據處理的嚴密審查。
今年早些時候,隱私活動家稱,已找到新的證據證明互聯網巨頭谷歌公司未遵守歐盟《通用數據保護條例》(GDPR)。
今年 5 月,Facebook 一名律師在美國法庭上告知法官稱,Facebook 用戶不應期待在 Facebook 上有隱私,因為任何社交媒體平臺都不存在用戶隱私。該公司還被控向電信公司及手機制造商出售用戶的智能手機數據。
醫療技術公司常會收集用戶數據,比如來自醫療記錄的信息,然后將之轉換成所謂匿名數據。
也就是不包含個人可識別信息 (PII) 的數據。PII 包括姓名、電子郵件地址、電話號碼等。將可識別屬性從數據中去除是為了確保沒人能從該數據中識別出個人,至少理論上不能。
而且,此類匿名化數據不再歸屬 GDPR 等數據保護規定的管轄范圍,共享或售賣給數據代理商和廣告公司也是可以的。
發表在《自然·通訊》上的論文:
https://www.nature.com/articles/s41467-019-10933-3
在線工具地址: