借助同態加密和聯邦學習,各團隊能在共享數據與分析的同時保護實際信息。
12月初的線上英特爾研究院開放日活動上,該公司兩名研究人員表示:采用同態加密與聯邦學習技術,公司企業和研究人員能在不暴露實際數據的情況下,協同分析數據和創建機器學習模型,有效避免數據泄露風險。
協作團隊可使用聯邦學習創建通用機器學習模型,以自身內部數據加以訓練,再安全收集并組合這些分散的模型,建立起融合各參與方數據的更為精確的迭代。同態加密更加通用,是密碼學特殊領域的成果,專注加密狀態下的數據計算,例如加密數據搜索和機器學習算法訓練。同態加密可以在切實保護隱私的同時維持信息的可用性。
英特爾已加倍投注這兩種技術,在其硬件中以軟件保護擴展(SGX)提供支持。英特爾安全情報團隊首席工程師Jason Martin稱,這樣可降低同態加密與聯邦學習技術的應用成本。
他表示:“未處理的數據是無用數據。我們將不斷增長的龐大數據轉化為有用數據的主要工具是機器學習和統計技術,但公司企業因安全和隱私問題而對數據共享顧慮重重。
今年的英特爾研究院開放日活動上,英特爾加密數據計算首席工程師Martin和Rosario Cammarota披露了該公司對這方面技術的研究與規劃。
安全共享與分析數據已成為重要研究問題。今年,麻省理工學院一支多學科研究團隊創建了采用隱私保護加密的系統,公司企業可利用此系統在不披露實際數據的情況下共享安全事件信息。雖然某些公司,例如Duality和Enveil,專注特定于安全的同態加密應用,英特爾卻希望通過在其芯片上提供支持,來拓寬同態加密的可能性。
Cammarota稱:“現在這個時候,我們所知的很多進展都需要滿足應用科學,我們在這方面探索的意義正在于此。業界需要出現更多的理論進展和標準化,而英特爾正參與其中。”
聯邦學習和同態加密這樣的技術,可使公司企業能夠在保持自身數據控制權的同時通力協作。
聯合數據可以解決兩個問題:其一是限制數據使用的數據割裂問題。這個問題之所以產生,是因為出于隱私顧慮、知識產權考慮或監管體制擔憂而無法傳輸信息。另一個更為實際的問題是數據集的體量。帶寬限制束縛了公司企業直接共享大量數據集的腳步,導致無法集中訓練機器學習模型。
醫療健康和金融服務行業寄希望于借助聯邦學習在不違反隱私規定或泄露敏感信息的情況下協作。為了能夠運用各個獨立數據集識別腦部腫瘤,賓夕法尼亞大學采用聯邦學習訓練機器學習模型。該聯邦學習方法最終訓練出了性能提升17%的機器學習模型。
Martin稱:“聯邦學習方法中,我們將計算任務打散分發到各個獨立數據集,每家醫院都有自己的基礎設施。一部分訓練在各個獨立數據集處執行,然后這些分散的模型被推送到聚合服務器,由聚合器將各個模型組合成經更新的全局模型。”
采用同態加密就可以直接對密文執行數據分析,無需先解密數據。該技術呈現了無需實際暴露數據就能分析的美好前景。
但前途是光明的,道路是曲折的。同態加密會導致數據體量暴漲,密文體積會比原始數據大上100到1000倍。計算復雜度也顯著上升,能升至1萬到100萬倍,導致即使是很簡單的功能,實際實現成本也很高昂。
不過,Cammarota提醒道,業界此前其實也應對過此類挑戰。1960年,一個晶體管就要1到4美元(相當于現在的8到30美元)。時至今日,晶體管價格下降到不足原先的十億分之一。
如果同態加密實現的成本能降下來,預期未來也會出現類似的應用普及潮。
Cammarota表示:“晶體管技術一開始擴展,晶體管價格一變為白菜價,前所未見的應用就成為了現實。只要同態加密實現成本降低,我們將見證該技術的無限可能。”
來源:數世咨詢