編者按
美國國家標準與技術研究所(NIST)3月24日正式發布保護AI系統免受對抗性攻擊的最新指南《對抗性機器學習:攻擊和緩解的分類和術語》(NIST AI 100-2e2025)。
該指南描述了對抗性機器學習(AML)的分類法和術語,有助于保護AI應用免受對抗性操縱和攻擊;為分類攻擊,區分了預測性人工智能系統和生成式人工智能系統,并介紹了與兩類系統相關的攻擊;探討了人工智能系統的組成部分,包括數據、模型本身、訓練、測試和部署模型的過程,以及模型可能嵌入的更廣泛的軟件和系統環境。該指南分五個維度對攻擊進行分類:一是人工智能系統類型;二是發起攻擊的機器學習生命周期過程階段;三是攻擊者試圖破壞的系統屬性方面的目標和目的;四是攻擊者的能力和訪問權限;五是攻擊者對學習過程及其他方面的了解。該指南還提供了在AI系統生命周期中緩解和管理相關攻擊后果的相應方法,并概述了廣泛使用的緩解技術的局限性,以提高認識并幫助提高AI風險緩解工作的有效性。
在預測性性人工智能系統方面,該指南圍繞“可用性故障”“完整性破壞”“隱私泄露”三個目標以及“學習階段”“攻擊者目標和目的”“攻擊者能力”“攻擊者知識”四個維度對攻擊進行了分類。基于學習階段,“訓練時攻擊”可能會控制部分訓練數據、標簽、模型參數或機器學習算法的代碼,從而導致不同類型的投毒攻擊;“部署時攻擊”可以發起規避攻擊來造成完整性破壞并更改機器學習模型的預測,以及發起隱私攻擊來推斷有關訓練數據或機器學習模型的敏感信息。基于攻擊者目標和目的,“可用性故障攻擊”故意干擾預測性人工智能系統,以破壞其他用戶或進程及時可靠地訪問其服務的能力;“完整性破壞攻擊”故意干擾預測性人工智能系統,迫使其違背預期目標并產生與對手目標一致的預測;“隱私泄露攻擊”會導致預測性人工智能系統中的受限或專有信息意外泄露。基于攻擊者能力,可區分為控制訓練數據、控制模型、控制測試數據、限制標簽、控制源代碼、訪問查詢等六種類型;基于攻擊者知識,可區分為“白盒攻擊”“黑盒攻擊”“灰盒攻擊”三種類型。
該指南針對預測性人工智能系統審查了規避攻擊、數據投毒攻擊和隱私攻擊及相應的緩解措施。在規避攻擊方面,攻擊者的目標是生成對抗性樣本,例如通過“白盒規避攻擊”確定添加到測試樣本中的擾動、通過“黑客規避攻擊”查詢各種數據樣本并獲取模型的預測來與經過訓練的機器學習模型進行交互、利用“攻擊的可轉移性”轉移在不同機器學習模型上構建的攻擊。規避攻擊的有效緩解措施包括:開展對抗性訓練,使用在訓練過程中使用正確標簽迭代生成的對抗性示例來增強訓練數據;利用隨機平滑方法為測試樣本的子集提供經過認證的預測;通過形式化驗證提高神經網絡對抗穩健性。
在投毒攻擊方面,攻擊者在機器學習算法訓練階段實施對抗性攻擊,可導致可用性或完整性受損,具體可分為可用性投毒、有針對性投毒、后門投毒和模型投毒攻擊。其中,可用性投毒攻擊通常會導致所有樣本的機器學習模型無差別降級,方式包括標簽翻轉、清潔標簽投毒等,緩解措施包括清理訓練數據、通過訓練提高模型穩健性等;有針對性的投毒攻擊會導致機器學習模型對少數目標樣本的預測發生變化,方式包括標簽翻轉、亞群毒害攻擊等,緩解措施是通過傳統的網絡安全措施來保護訓練數據,如訪問控制、使用數據清理和驗證方法以及使用數據集來源和完整性證明機制;后門投毒攻擊會導致目標模型對包含特定后門模式或觸發器的樣本進行錯誤分類,緩解措施包括清理訓練數據、重建觸發器、檢查和清理模型、采用經過認證的防御等;模型投毒攻擊試圖直接修改經過訓練的機器學習模型以向其中注入惡意功能,可能導致聯合模型的可用性和完整性受損,緩解措施包括采用拜占庭彈性聚合規則、實施梯度剪裁和差分隱私、檢查和清理模型、運用程序驗證技術等。
在隱私攻擊方面,主要涉及數據重建、成員推斷、屬性推斷和模型提取四類隱私攻擊。其中,數據重建攻擊能夠從已發布的匯總信息中恢復個人數據;成員推斷攻擊目標是確定特定記錄或數據樣本是否是用于統計或機器學習算法的訓練數據集的一部分,可能會泄露個人的隱私信息,并可用作發起數據提取攻擊的基礎;屬性推斷攻擊試圖通過與機器學習模型交互來了解有關訓練數據分布的全局信息;模型提取攻擊通過三類技術進行模型提取,包括基于深度神經網絡中執行的操作的數學公式、使用學習方法和利用側通道信息。隱私攻擊的緩解措施包括采用差分隱私、限制用戶對模型的查詢、檢測對模型的可疑查詢或創建更強大的架構以防止旁道攻擊等。
奇安網情局編譯有關情況,供讀者參考。
NIST值得信賴且負責任的AI
NIST AI 100-2e2025
對抗性機器學習:
攻擊和緩解的分類和術語
執行摘要
此份美國國家標準與技術研究所(NIST)可信和負責任的AI報告描述了對抗性機器學習(AML,利用機器學習系統的統計和基于數據的特性進行的攻擊。)的分類法和術語,可能有助于保護AI應用免受對抗性操縱和攻擊。
統計和數據的特性為這些系統的安全、隱私和安保帶來了新的潛在攻擊途徑,而傳統軟件系統面臨的威脅則遠遠不止這些。這些挑戰涵蓋了機器學習操作的不同階段,例如對抗性操縱訓練數據的可能性;提供對抗性輸入以對人工智能系統的性能產生不利影響;甚至惡意操縱、修改或與模型交互以從模型的訓練數據或模型可以訪問的數據中竊取敏感信息。此類攻擊已在現實條件下得到證實,其復雜性和影響一直在穩步增加。
AML領域與研究這些攻擊有關。它必須考慮攻擊者的能力、攻擊者為實現其目標可能試圖破壞的模型或系統屬性,以及利用機器學習生命周期開發、訓練和部署階段漏洞的攻擊方法的設計。它還與能夠承受這些安全和隱私挑戰的機器學習算法和系統的設計有關,這一屬性通常稱為穩健性。
為了對這些攻擊進行分類,本報告區分了預測性人工智能系統和生成式人工智能系統,并介紹了與每種系統相關的攻擊。報告探討了人工智能系統的組成部分,包括數據、模型本身、訓練、測試和部署模型的過程,以及模型可能嵌入的更廣泛的軟件和系統環境,例如部署生成式人工智能(GenAI)模型時可以訪問隱私數據或配備工具來采取行動,從而產生現實世界的后果。
因此,此分類法中的攻擊根據以下方面進行分類:(1)人工智能系統類型;(2)發起攻擊的機器學習生命周期過程階段;(3)攻擊者試圖破壞的系統屬性方面的目標和目的;(4)攻擊者的能力和訪問權限;(5)攻擊者對學習過程及其他方面的了解。
本報告采用了NIST AI風險管理框架中ML系統的安全性、彈性和穩健性概念。安全性、彈性和穩健性通過風險來衡量,風險是衡量實體(例如系統)受潛在情況或事件(例如攻擊)威脅的程度以及此類事件發生時結果的嚴重程度的指標。但是,本報告并未就風險承受能力(即組織或社會可接受的風險水平)提出建議,因為它高度依賴于具體情況,并且特定于應用程序和用例。
針對ML的有效攻擊范圍很廣,發展迅速,涵蓋了ML生命周期的所有階段——從設計和實施到訓練、測試和在現實世界中的部署。這些攻擊的性質和威力各不相同,其影響可能不僅取決于ML模型的漏洞,還取決于部署AI系統的基礎設施的弱點。AI系統組件還可能受到設計和實施缺陷的不利影響,這些缺陷會導致對抗使用環境之外的故障,例如不準確。然而,這些類型的缺陷不屬于AML文獻或本報告中的攻擊范圍。
除定義攻擊分類法外,本報告還提供了在AI系統生命周期中緩解和管理這些攻擊后果的相應方法,并概述了廣泛使用的緩解技術的局限性,以提高認識并幫助組織提高其AI風險緩解工作的有效性。本報告中使用的術語與AML文獻一致,并附有詞匯表,其中定義了與AML領域相關的關鍵術語,以幫助非專業讀者。總而言之,分類法和術語旨在為快速發展的AML領域建立通用語言,為評估和管理人工智能系統安全性的其他標準和未來實踐指南提供參考。與分類法一樣,術語和定義并非詳盡無遺,而是作為理解和協調AML文獻中出現的關鍵概念的起點。
一、簡介
多年來,人工智能(AI)系統一直處于全球擴張的軌跡上。許多國家的經濟體正在開發和廣泛部署這些系統,人們在生活的許多領域使用人工智能系統的機會越來越多。本報告區分了兩大類人工智能系統:預測性人工智能(PredAI)和生成式人工智能(GenAI)。盡管人工智能系統的大多數行業應用仍然以PredAI系統為主導,但最近在商業和消費者環境中采用GenAI系統的情況有所增加。隨著這些系統滲透到數字經濟并成為日常生活的重要組成部分,對其安全、穩健和有彈性運行的需求也日益增長。這些運行屬性是美國NIST人工智能風險管理框架和英國國家網絡安全中心(NCSC)機器學習原則中可信人工智能的關鍵要素。
對抗性機器學習(AML)領域研究針對機器學習系統的攻擊,這些攻擊利用了機器學習系統的統計和基于數據的特性。盡管人工智能(AI)和機器學習(ML)在不同應用領域取得了重大進展,但這些技術仍然容易受到可能導致嚴重故障的攻擊。當機器學習系統在可能受到新奇或對抗性交互的環境中使用時,發生此類故障的可能性會增加,而且隨著這些系統在越來越高風險的領域中使用,后果會變得更加可怕。例如,在用于對象檢測和分類的PredAI計算機視覺應用中,輸入圖像的對抗性擾動的著名案例已導致自動駕駛汽車轉向相反方向的車道,停車標志被錯誤分類為限速標志,甚至戴眼鏡的人在高安全環境中被錯誤識別。類似地,隨著越來越多的ML模型被部署到醫學等領域,對抗性輸入誘使ML模型泄露隱藏信息的可能性變得更加緊迫,醫療記錄泄露可能會暴露敏感的個人信息。
在GenAI中,大語言模型(LLM)正日益成為軟件應用程序和互聯網基礎設施不可或缺的一部分。LLM被用于創建更強大的在線搜索工具,幫助軟件開發人員編寫代碼,并為每天有數百萬人使用的聊天機器人提供支持。LLM也正在得到增強,以創建更有用的AI系統,包括通過與企業數據庫和文檔的交互來實現強大的檢索增強生成,以及通過訓練或推理時間技術使LLM能夠采取現實世界的行動,例如瀏覽網頁或使用bash終端作為基于LLM的代理。因此,GenAI系統中的漏洞可能會暴露出廣泛的攻擊面,威脅敏感用戶數據的隱私或有關模型架構或訓練數據的專有信息,并對廣泛使用的系統的完整性和可用性造成風險。
隨著GenAI的采用不斷增長,這些系統不斷增強的功能也給模型開發人員帶來了另一個挑戰:如何管理因不必要或有害地使用這些系統功能而產生的風險。隨著模型開發人員越來越多地尋求應用技術干預來降低模型被濫用的可能性,試圖規避或破壞這些保護措施的攻擊為高風險AML攻擊提供了另一種可能。
從根本上講,許多人工智能系統既容易受到AML攻擊,也容易受到更類似于傳統網絡安全攻擊的攻擊,包括針對部署它們的平臺的攻擊。本報告重點關注前者,并將后者視為傳統網絡安全分類法的范疇。
PredAI和GenAI系統在整個開發和部署生命周期中都容易受到攻擊者利用一系列功能發起的攻擊。攻擊者可以操縱訓練數據,包括用于大規模模型訓練的互聯網數據,或者可以通過添加對抗性擾動或后綴來修改測試時推理數據和資源。攻擊者還可以通過插入特洛伊木馬功能來攻擊用于構建AI系統的組件。隨著各機構和組織越來越依賴可以直接使用或使用新數據集進行微調以實現不同任務的預訓練模型,它們對這些攻擊的脆弱性也隨之增加。
現代密碼學通常依賴于信息論意義上的安全算法,即那些可以正式證明在特定條件下確保安全的算法。然而,現代人工智能系統中廣泛使用的機器學習算法沒有信息論安全性證明。此外,文獻中開始出現信息論不可能性結果,限制了廣泛使用的緩解技術的有效性。因此,在開發針對不同類別的AML攻擊的緩解措施方面取得的許多進展往往是經驗性的和有限的,之所以采用這些措施是因為它們在實踐中似乎有效,而不是因為它們提供了信息論安全保證。因此,許多這些緩解措施本身可能容易受到攻擊者技術的新發現和演變的影響。
本報告為以下方面的發展提供了指導:
隨著AML攻擊和緩解措施出現新的發展,NIST打算更新此報告。
本報告對PredAI和GenAI系統的常見攻擊類別及其緩解措施進行了分類。本報告并非旨在詳盡調查所有可用的AML文獻,其中包括自2021年以來截至2024年7月在arXiv.org上發表的超過11354篇參考文獻。
本報告分為三個部分。
二、預測性人工智能分類法
(一)攻擊分類
圖1介紹了基于攻擊者目標、能力和知識的AML對預測性人工智能(PredAI)系統的攻擊分類。
圖1:預測性人工智能系統攻擊的分類
攻擊者的目標以不連貫的圓圈表示,每個圓圈的中心代表攻擊者的目標:可用性故障、完整性破壞和隱私泄露。攻擊者為實現其目標必須利用的能力顯示在目標圓圈的外層。攻擊類別顯示為與發動每次攻擊所需能力相關的標注。需要相同能力才能達到相同目標的多個攻擊類別顯示在單個標注中。這些攻擊根據以下維度進行分類:(1)發動攻擊時的學習方法和學習過程階段;(2)攻擊者的目標和目的;(3)攻擊者的能力;(4)攻擊者對學習過程的了解。先前的研究中已經介紹了幾種對抗性攻擊分類框架,這里的目標是創建一個統一現有研究的機器學習對抗性攻擊的標準術語。
1、學習階段
預測機器學習涉及訓練階段(在此階段學習模型)和部署階段(在此階段將模型部署在新的未標記數據樣本上以生成預測)。在監督學習的情況下,標記的訓練數據在訓練階段作為訓練算法的輸入,并且ML模型經過優化以最小化特定的損失函數。ML 模型的驗證和測試通常在模型部署到現實世界前進行。常見的監督學習技術包括:分類,其中預測的標簽或類別是離散的;回歸,其中預測的標簽或響應變量是連續的。
ML文獻中的其他學習范式包括:無監督學習,它在訓練時使用未標記的數據訓練模型;半監督學習,其中一小部分示例帶有標簽,而大多數樣本未標記;強化學習,其中代理與環境交互并學習最佳策略以最大化其獎勵;聯合學習,其中一組客戶端通過與執行模型更新聚合的服務器通信來聯合訓練ML模型;集成學習,這是一種通過組合多個模型的預測來尋求更好預測性能的方法。
大多數PredAI模型都是判別性的,即只學習決策邊界,例如邏輯回歸、支持向量機器和卷積神經網絡。GenAI 模型也可用于預測任務,例如情緒分析。
AML文獻主要考慮在訓練階段或部署階段可能發生的針對人工智能系統的對抗性攻擊。在訓練階段,攻擊者可能會控制部分訓練數據、其標簽、模型參數或機器學習算法的代碼,從而導致不同類型的投毒攻擊。在部署階段,機器學習模型已經過訓練,攻擊者可以發起規避攻擊來造成完整性破壞并更改機器學習模型的預測,以及發起隱私攻擊來推斷有關訓練數據或機器學習模型的敏感信息。
訓練時攻擊。投毒攻擊發生在 ML 訓練階段。在數據投毒攻擊中,攻擊者通過插入或修改訓練樣本來控制訓練數據的子集。在模型投毒攻擊中,攻擊者控制模型及其參數。數據投毒攻擊適用于所有學習范式,而模型投毒攻擊在聯合學習中最為普遍,其中客戶端將本地模型更新發送到聚合服務器,以及在供應鏈攻擊中,模型技術供應商可能會將惡意代碼添加到模型中。
部署時攻擊。可以針對已部署的模型發起其他類型的攻擊。規避攻擊會修改測試樣本以創建對抗性示例,這些對抗性示例與原始樣本相似(例如,根據某些距離度量),但會根據攻擊者的選擇更改模型預測。具有已部署ML模型查詢權限的攻擊者還可以發起其他攻擊,例如可用性攻擊和隱私攻擊(包括成員推理和數據重建)。
2、攻擊者目標和目的
根據分析系統安全性時考慮的三種主要安全破壞類型,攻擊者的目標可分為三個維度:可用性破壞、完整性破壞和隱私泄露。圖1根據攻擊目標將攻擊分為三個不相交的圓圈,攻擊者的目標顯示在每個圓圈的中心。
可用性故障。可用性破壞攻擊是對PredAI系統的故意干擾,以破壞其他用戶或進程及時可靠地訪問其服務的能力。這種攻擊類型可能在訓練或部署時發起,但其影響通常在部署時才會顯現。當攻擊者控制一小部分訓練集時,可用性攻擊可以通過數據投毒發起;當攻擊者控制模型參數時,通過模型投毒發起;或者通過查詢訪問發起能量延遲攻擊。數據投毒可用性攻擊已被提議用于支持向量機、線性回歸甚至神經網絡,而模型投毒攻擊則已設計用于神經網絡和聯合學習。
完整性破壞。完整性破壞攻擊是對PredAI系統的故意干擾,迫使其違背預期目標并產生與對手目標一致的預測。攻擊者可以通過在部署時發起規避攻擊或在訓練時發起投毒攻擊來導致完整性破壞。規避攻擊需要修改測試樣本以創建對抗性示例,這些示例被模型錯誤分類,但通常保持隱秘且人類無法察覺。通過投毒進行的完整性攻擊可分為有針對性的投毒攻擊、后門投毒攻擊和模型投毒。有針對性的投毒試圖破壞一些目標樣本的完整性,并假設攻擊者擁有訓練數據控制權來插入投毒樣本。后門投毒攻擊需要生成后門模式,該模式會添加到中毒樣本和測試樣本中,從而導致錯誤分類。后門攻擊是文獻中唯一需要同時控制訓練和測試數據的攻擊。模型投毒攻擊可能導致有針對性的攻擊或后門攻擊,攻擊者會修改模型參數以導致完整性破壞。它們專為集中學習和聯合學習而設計。
隱私泄露。隱私泄露攻擊會導致PredAI系統中的受限或專有信息意外泄露,包括有關模型訓練數據、權重或架構的詳細信息。雖然“機密性”一詞在傳統網絡安全攻擊分類法中得到更廣泛的使用,但AML領域傾向于使用頂級術語“隱私”來涵蓋針對模型機密性的攻擊(例如,提取有關模型權重或架構的信息的攻擊)和導致破壞模型輸出預期隱私屬性的攻擊(例如,通過暴露模型訓練數據)。機器學習訓練期間的數據機密性可以通過基于加密技術的安全計算方法實現,從而確保訓練數據和模型參數在訓練階段受到保護。然而,即使是使用強制數據保密的范式訓練的模型也可能容易受到隱私攻擊,在這種情況下,與模型交互的攻擊者可以提取有關其訓練數據或參數的信息。本報告重點關注部署時可能發生的隱私泄露,無論使用何種訓練方法,也無論在訓練期間是否保持了數據保密性。
在隱私攻擊中,攻擊者可能有興趣了解有關訓練數據(導致數據隱私攻擊)或機器學習模型(導致模型隱私攻擊)的信息。攻擊者可能有不同的目標來破壞訓練數據的隱私,例如數據重建(推斷訓練數據的內容或特征)、成員推理攻擊(推斷訓練集中數據的存在)、訓練數據提取(從生成模型中提取訓練數據)、屬性推理攻擊(推斷訓練記錄的敏感屬性)和性質推理(推斷有關訓練數據分布的屬性)。模型提取是一種模型隱私攻擊,攻擊者旨在提取有關模型的信息。
3、攻擊者能力
針對PredAI系統的AML攻擊可以根據攻擊者控制的功能進行分類。如圖1中目標圈的外層所示,攻擊者可能利用六種類型的能力來實現其目標:
即使攻擊者無法修改訓練/測試數據、源代碼或模型參數,訪問這些數據對于發起需要了解ML系統的更強大的白盒攻擊仍然至關重要。
圖1將每個攻擊類別與發起攻擊所需的功能聯系起來。例如,導致完整性破壞的后門攻擊需要控制訓練和測試數據以插入后門模式。后門攻擊也可以通過源代碼控制進行,特別是當訓練外包給更強大的實體時。除后門攻擊所需的能力外,清潔標簽后門攻擊還不允許對中毒樣本進行標簽控制。
4、攻擊者知識
攻擊分類的另一個維度是攻擊者對ML系統有多少了解。攻擊主要有三種類型:
白盒攻擊。這些攻擊假設攻擊者完全了解ML系統,包括訓練數據、模型架構和模型超參數。雖然這些攻擊是在非常強的假設下進行的,但分析它們的主要原因是測試系統對最壞情況對手的脆弱性并評估潛在的緩解措施。這個定義更為通用,涵蓋了自適應攻擊的概念,其中明確跟蹤對模型或系統應用的緩解措施的知識。
黑盒攻擊。這些攻擊假設攻擊者對ML系統知之甚少,有時甚至一無所知。對手可能具有對模型的查詢權限,但他們沒有關于模型如何訓練的其他信息。這些攻擊是最實際的,因為它們假設攻擊者不了解AI系統,并使用可供正常使用的系統接口。
灰盒攻擊。有一系列灰盒攻擊可以捕獲黑盒攻擊和白盒攻擊間的對抗性知識。攻擊者可能知道模型架構但不知道其參數,或者攻擊者可能知道模型及其參數但不知道訓練數據。灰盒攻擊的其他常見假設是攻擊者可以訪問與訓練數據相同分布的數據并知道特征表示。后一種假設對于在訓練ML模型前使用特征提取的應用(例如網絡安全、金融和醫療保健)很重要。
5、數據模態
直到最近,對抗性機器學習中的大多數攻擊和防御都是在單一模態下進行的,但該領域的一個新趨勢是使用多模態數據。圖1中定義的攻擊分類與特定應用中的數據模態無關。AML文獻中最常見的數據模態包括:
最近,使用多模態數據訓練的ML模型越來越受到關注,尤其是圖像和文本數據模態的組合。幾篇論文表明,多模態模型可能具有一定的抵御攻擊的能力,但其他論文表明,多模態模型本身可能容易受到同時針對所有模態的攻擊。
(二)規避攻擊和緩解措施
過去十年,針對ML模型的規避攻擊的發現推動了AML研究的顯著發展。在規避攻擊中,攻擊者的目標是生成對抗性樣本:樣本的分類可以更改為攻擊者選擇的任意類別 – 通常只需最小的擾動。例如,在圖像分類的背景下,原始樣本的擾動可能很小,以至于人類無法觀察到輸入的變化;雖然ML模型可以被欺騙將對抗性樣本歸類為攻擊者選擇的目標類別,但人類仍然將其識別為原始類別的一部分。
1、白盒規避攻擊
在白盒威脅模型中,攻擊者完全了解模型架構和參數。在這種情況下,創建對抗性示例的主要挑戰是找到添加到測試樣本中的擾動,該擾動會改變其分類標簽,通常會對擾動的可感知性或大小等屬性進行約束。在白盒威脅模型中,通常通過解決從攻擊者的角度編寫的優化問題來制作對抗性示例,該優化問題指定了優化的目標函數(例如將目標標簽更改為某個類),以及用于測量測試樣本和對抗性示例間相似性的距離度量。
2、黑盒規避攻擊
黑盒規避攻擊是在現實對抗模型下設計的,攻擊者對模型架構或訓練數據一無所知。相反,攻擊者可以通過在各種數據樣本上查詢并獲取模型的預測來與經過訓練的ML模型進行交互。公共云提供商提供的機器學習即服務(MLaaS)也提供了類似的API,用戶可以在其中獲取模型對選定查詢的預測,而無需了解模型的訓練方式。
3、攻擊的可轉移性
在限制性威脅模型下生成對抗性攻擊的另一種方法是轉移在不同ML模型上構建的攻擊。通常,攻擊者訓練替代ML模型,對替代模型生成白盒對抗性攻擊,并將攻擊轉移到目標模型。各種方法在替代模型的訓練方式上有所不同。
4、現實世界中的規避攻擊
雖然本節討論的許多攻擊僅在研究環境中得到證明,但現實世界中已經證明了幾種規避攻擊,NIST討論了人臉識別系統、網絡釣魚網頁檢測和惡意軟件分類中的突出實例。
5、緩解措施
從針對對抗性規避攻擊的各種防御措施來看,有三類主要措施已被證明具有彈性,并有可能減輕規避攻擊的影響:
(1)對抗性訓練:對抗性訓練是一種通用方法,它使用在訓練過程中使用正確標簽迭代生成的對抗性示例來增強訓練數據。用于生成對抗性示例的對抗性攻擊越強,訓練后的模型就越有彈性。對抗性訓練產生的模型比標準模型具有更多的語義含義,但這種好處通常是以降低干凈數據的模型準確性為代價的。此外,由于在訓練過程中迭代生成對抗性示例,對抗性訓練的成本很高。
(2)隨機平滑:隨機平滑是一種通過在高斯噪聲擾動下產生最可能的預測,將任何分類器轉換為可認證的穩健平滑分類器的方法。隨機平滑通常為測試樣本的子集提供經過認證的預測,其確切數量取決于潛在擾動的大小或訓練數據和模型的特征等因素。
(3)形式化驗證:另一種證明神經網絡對抗穩健性的方法是基于形式化方法中的技術。形式化驗證技術在證明神經網絡穩健性方面具有巨大潛力,但受限于其可擴展性不足、計算成本高以及支持的代數運算類型(如加法、乘法等)受限。
所有這些提議的緩解措施都表現出穩健性和準確性間的固有權衡,并且在訓練過程中會帶來額外的計算成本。因此,設計能夠抵抗規避同時保持準確性的ML模型仍然是一個懸而未決的問題。
(三)投毒攻擊及緩解措施
投毒攻擊被廣泛定義為機器學習算法訓練階段的對抗性攻擊。投毒攻擊威力強大,可導致可用性或完整性受損。可用性投毒攻擊通常會導致所有樣本的ML模型無差別降級,而有針對性和后門投毒攻擊會導致一小部分目標樣本的完整性受損。投毒攻擊利用了廣泛的對抗能力(例如,數據投毒、模型投毒、標簽控制、源代碼控制和測試數據控制),從而產生了幾種投毒攻擊子類別。它們是在白盒、灰盒和黑盒環境中開發的。本節根據對抗目標對可用性投毒、有針對性投毒、后門投毒和模型投毒攻擊進行了分類。對于每個投毒攻擊類別,還討論了發起攻擊的技術、現有的緩解措施及其局限性。
1、可用性投毒
在網絡安全應用中發現的第一個中毒攻擊是針對蠕蟲簽名生成和垃圾郵件分類器的可用性攻擊,這種攻擊會不加區分地降低整個ML模型的性能,以有效阻止其使用。這兩次攻擊都是在白盒設置下進行的,其中攻擊者知道ML訓練算法、特征表示、訓練數據集和ML模型。對于檢測針對工業控制系統的網絡安全攻擊的基于機器學習的系統,也有人提出了可用性投毒攻擊。
一種簡單的黑盒投毒攻擊策略是標簽翻轉,其中攻擊者生成帶有不正確或更改的標簽的訓練示例。此方法可能需要大量中毒樣本才能發起可用性攻擊。
清潔標簽投毒。監督學習的一個現實威脅模型是清潔標簽投毒攻擊,其中攻擊者只能控制訓練示例,而不能控制其標簽。
可用性投毒攻擊也被設計用于針對基于質心的異常檢測和惡意軟件行為聚類的無監督學習。在聯合學習中,攻擊者可以發起模型中毒攻擊,從而導致全局訓練模型的可用性破壞。
緩解措施。可用性投毒攻擊通常可以通過監控ML模型的標準性能指標(例如,精度、召回率、準確率、F1分數和曲線下面積)來檢測,因為它們會導致分類器指標大幅下降。但是,在ML的測試或部署階段檢測這些攻擊可能不太可取,許多現有的緩解措施旨在在訓練階段主動防止這些攻擊,以生成強大的ML模型。現有的可用性中毒攻擊緩解措施包括:
2、有針對性的投毒
與可用性攻擊相比,有針對性的投毒攻擊會導致ML模型對少數目標樣本的預測發生變化。如果攻擊者可以控制訓練數據的標記函數,那么標簽翻轉是一種有效的有針對性的投毒攻擊:攻擊者只需插入幾個帶有目標標簽的中毒樣本,模型就會學習錯誤的標簽。因此,有針對性的投毒攻擊大多是在干凈標簽環境中進行研究的,在這種環境中,攻擊者無法控制訓練數據標簽。
亞群毒害攻擊旨在毒害整個亞群中的樣本,亞群的定義是匹配特征子集或在表示空間中創建聚類。中害樣本是使用標簽翻轉(用于自言語言處理和表格模態)或一階優化方法(用于連續數據,例如圖像)生成的。攻擊會推廣到亞群中的所有樣本,并且需要對ML模型有最低限度的了解,以及與亞群大小成比例的少量中毒樣本。
針對半監督學習算法也引入了有針對性的投毒攻擊,例如 MixMatch、FixMatch和無監督數據增強(UDA),其中攻擊者毒害一小部分未標記的訓練數據集,以在部署時改變對目標樣本的預測。
緩解措施。針對性投毒攻擊的防御難度極大。為了減輕與此類攻擊相關的一些風險,模型開發人員可以通過傳統的網絡安全措施(如訪問控制、使用數據清理和驗證方法以及使用數據集來源和完整性證明機制)來保護訓練數據
3、后門投毒
后門投毒攻擊是一種投毒攻擊,它會導致目標模型對包含特定后門模式或觸發器的樣本進行錯誤分類。近幾年來,后門攻擊愈發復雜和隱秘,更難被發現和緩解。潛在后門攻擊被設計成即使在使用干凈數據對最后幾層進行模型微調后仍能存活。
其他數據模式。雖然大多數后門中毒攻擊都是針對計算機視覺應用而設計的,但這種攻擊媒介在具有不同數據模式的其他應用領域也很有效,例如音頻、自然語言處理(NLP) 和網絡安全設置。
緩解措施。與其他投毒攻擊相比,后門攻擊緩解方面的文獻非常豐富。NIST討論幾類防御措施,包括數據清理、觸發器重建以及模型檢查和清理,并提出了它們的局限性。
4、模型投毒
模型投毒攻擊試圖直接修改經過訓練的ML模型,以向其中注入惡意功能。大多數模型投毒攻擊都是在聯合學習環境中設計的,其中客戶端將本地模型更新發送到服務器,服務器將它們聚合成全局模型。受感染的客戶端可以發送惡意更新來毒害全局模型。模型中毒攻擊可能導致聯合模型的可用性和完整性受損:
供應鏈模型投毒。供應鏈場景中也可能發生模型投毒攻擊,其中供應商提供的模型或模型組件被惡意代碼毒害。
緩解措施。已經設計和評估了各種拜占庭彈性聚合規則,以保護聯合學習免受模型投毒攻擊。它們中的大多數試圖在服務器上執行聚合時識別和排除惡意更新。然而,有動機的對手可以通過在攻擊生成優化問題中添加約束來繞過這些防御。梯度剪裁和差分隱私有可能在一定程度上緩解模型中毒攻擊,但它們通常會降低準確性并且不能提供完全的緩解。
對于特定的模型中毒漏洞,例如后門攻擊,有一些模型檢查和清理技術。然而,減輕供應鏈攻擊(攻擊者可能控制訓練算法或ML超參數的源代碼)仍然具有挑戰性。其他領域使用的程序驗證技術(例如,加密協議驗證)可能適用于這種情況,但ML算法具有內在的隨機性和非確定性行為,這增加了驗證的難度。
設計能夠抵御供應鏈模型中毒漏洞的穩健機器學習模型是一個關鍵的未解決的問題。
5、現實世界中的投毒攻擊
聊天機器人、垃圾郵件過濾器和惡意軟件分類服務的真實投毒攻擊案例被記錄在案。在所有這些事件中,攻擊者都在初始模型發布后制作了中毒樣本,因為他們相信模型會不斷更新。
(四)隱私攻擊及緩解措施
伊利特·迪努爾和科比·尼西姆的開創性工作引入了數據重構攻擊,這種攻擊試圖通過訪問經過訓練的模型來逆向工程有關個人用戶記錄或其他敏感輸入數據的私人信息。最近,數據重構攻擊已被設計用于二分類和多分類神經網絡分類器。利用成員推理攻擊,攻擊者可以確定特定記錄是否包含在用于訓練ML模型的數據集中。成員推理攻擊最早由尼爾斯·霍默等人針對基因組數據引入。最近的文獻主要關注在黑盒環境中對ML模型的成員攻擊,其中攻擊者可以查詢經過訓練的ML模型。屬性推斷攻擊旨在提取有關訓練數據集的全局信息,例如具有特定敏感屬性的訓練示例的比例。機器學習即服務(MLaaS)的另一種隱私侵犯是模型提取攻擊,旨在提取有關 ML 模型的信息,例如其架構或模型參數
本節討論與數據重建、訓練數據記憶、成員推斷、屬性推斷和模型提取相關的隱私攻擊,以及針對其中一些攻擊的緩解措施和設計一般緩解策略中存在的未解決的問題。
1、數據重建
數據重建攻擊能夠從已發布的匯總信息中恢復個人數據。伊利特·迪努爾和科比·尼西姆首次引入了從線性統計數據中恢復用戶數據的重建攻擊。他們最初的攻擊需要指數級的查詢才能進行重建,但后續工作表明如何用多項式次數的查詢進行重建。在機器學習分類器中,馬特·弗雷德里克森等人引入了模型反轉攻擊,即從機器學習模型的訓練數據中重建類別代表。雖然模型反轉會生成與訓練集中語義相似的圖像,但它無法直接重建模型的訓練數據。最近, 博爾哈·巴勒等人訓練了一個重建網絡,該網絡可以從神經網絡模型中恢復數據樣本,假設強大的對手掌握了所有其他訓練樣本的信息。尼夫·海姆等人展示了如何利用關于神經網絡中隱性偏差的理論見解,從訪問模型參數中重建二元神經網絡分類器的訓練數據。
2、成員推斷
成員推斷攻擊可能會泄露個人的隱私信息,就像重建或記憶攻擊一樣,在發布匯總信息或基于用戶數據訓練的ML模型時,成員推斷攻擊會引起極大擔憂。此外,成員推斷可以用作發起數據提取攻擊的基礎。在成員推理中,攻擊者的目標是確定特定記錄或數據樣本是否是用于統計或機器學習算法的訓練數據集的一部分。與AML中的其他攻擊類似,成員推斷可以在白盒設置中執行,其中攻擊者了解模型的架構和參數,但大多數攻擊都是針對黑盒設置開發的,其中對手會對經過訓練的ML模型生成查詢。攻擊者在成員推理方面的成功已使用受密碼啟發的隱私博弈正式定義,在該博弈中,攻擊者與挑戰者交互,并需要確定目標樣本是否用于訓練所查詢的ML模型。
3、屬性推斷
在屬性推斷攻擊(也稱為分布推斷)中,攻擊者試圖通過與ML模型交互來了解有關訓練數據分布的全局信息。屬性推理攻擊在白盒設置中設計為攻擊者可以訪問完整的ML模型,在黑盒設置中設計為攻擊者向模型發出查詢并了解預測標簽或類概率。這些攻擊已在隱馬爾可夫模型、支持向量機、前饋神經網絡、卷積神經網絡、聯合學習、生成對抗網絡和圖神經網絡中得到證實。
4、模型提取
在機器學習即服務(MLaaS)場景中,云提供商通常使用專有數據訓練大型ML模型,并希望對模型架構和參數保密。執行模型提取攻擊的攻擊者的目標是通過向MLaaS提供商訓練的ML模型提交查詢來提取有關模型架構和參數的信息。文獻中介紹了幾種發起模型提取攻擊的技術:第一種方法是基于深度神經網絡中執行的操作的數學公式進行直接提取,這允許攻擊者以代數方式計算模型權重;第二種技術是使用學習方法進行提取;第三種技術使用側通道信息進行模型提取。模型提取通常不是最終目標,而是邁向其他攻擊的一步。隨著模型權重和架構為人所知,攻擊者可以發起更強大的攻擊,這些攻擊是白盒或灰盒設置的典型特征。因此,阻止模型提取可以減輕依賴于攻擊者了解模型架構和權重的下游攻擊。
5、緩解措施
針對聚合信息的重構攻擊的發現促使人們嚴格定義差分隱私(DP),這是一種非常強的隱私定義,它保證了有權訪問算法輸出的攻擊者可以了解數據集中每條記錄的程度有一個上限。DP 因其多種有用的特性而被廣泛采用:群組隱私(即,將定義擴展到兩個在 k 條記錄上不同的數據集)、后處理(即,即使在處理輸出后也能保留隱私)和組合(即,如果對數據集執行多次計算,隱私就會組合)。用于統計計算的DP機制包括高斯機制、拉普拉斯機制和指數機制。用于訓練ML模型的最廣泛使用的DP算法是DP-SGD,最近的改進包括 DP-FTRL和DP矩陣分解。
根據定義,DP可以緩解數據重建和成員推理攻擊。事實上,DP的定義立即暗示了攻擊者發起成員推理攻擊的成功率的上限。然而,DP不能保證能夠抵御模型提取攻擊,因為這種方法旨在保護訓練數據,而不是模型。在實踐中使用DP的主要挑戰之一是設置隱私參數以在隱私級別和實現的效用間取得權衡,這通常以機器學習模型的準確性來衡量。
DP提供了嚴格的隱私概念,并防止成員推斷和數據重建攻擊。為在隱私和實用性間實現最佳平衡,建議進行實證隱私審計,以補充隱私訓練算法的理論分析。
還有其他針對模型提取的緩解技術,例如限制用戶對模型的查詢、檢測對模型的可疑查詢或創建更強大的架構以防止旁道攻擊。但是,這些技術可以被有動機且資源充足的攻擊者規避,應謹慎使用。