压在透明的玻璃上c-国产精品国产一级A片精品免费-国产精品视频网-成人黄网站18秘 免费看|www.tcsft.com

HoneypotNet:針對(duì)模型提取的后門(mén)攻擊

原文標(biāo)題:HoneypotNet: Backdoor Attacks Against Model Extraction

原文作者:Yixu Wang,Tianle原文鏈接:https://doi.org/10.48550/arXiv.2501.01090發(fā)表會(huì)議:AAAI-25筆記作者:李智宇@安全學(xué)術(shù)圈主編:黃誠(chéng)@安全學(xué)術(shù)圈編輯:張貝寧@安全學(xué)術(shù)圈

1、引言

隨著機(jī)器學(xué)習(xí)即服務(wù)(MLaaS)的普及,深度學(xué)習(xí)模型通過(guò) API 接口被廣泛部署,但同時(shí)也面臨嚴(yán)重的模型提取攻擊風(fēng)險(xiǎn)。攻擊者通過(guò)向目標(biāo)模型發(fā)送公開(kāi)或合成的查詢(xún)數(shù)據(jù),利用其返回的預(yù)測(cè)結(jié)果作為偽標(biāo)簽訓(xùn)練替代模型,從而復(fù)現(xiàn)原模型功能。因此,本文提出了一種名為 HoneypotNet 的輕量級(jí)后門(mén)攻擊方法,使用通用對(duì)抗擾動(dòng)(UAP)作為無(wú)需顯式注入的無(wú)中毒觸發(fā)器,其目的是在確保受害者模型正常功能的同時(shí)將后門(mén)注入到替代模型。

下圖展示了 HoneypotNet 的防御機(jī)制:

2、背景介紹

模型提取攻擊的目的是通過(guò)查詢(xún)受害者模型的 API 來(lái)竊取一個(gè)模仿其功能的替代模型。現(xiàn)有的模型提取技術(shù)主要分為兩類(lèi):數(shù)據(jù)合成和數(shù)據(jù)選擇。數(shù)據(jù)合成方法使用生成模型(如 GAN、擴(kuò)散模型)來(lái)創(chuàng)建合成訓(xùn)練數(shù)據(jù),數(shù)據(jù)選擇方法則從預(yù)先存在的數(shù)據(jù)池中選擇信息量大的樣本,本文提出的方法側(cè)重于防御基于數(shù)據(jù)選擇的提取攻擊。

模型提取防御的目標(biāo)是阻止或檢測(cè)提取受害者模型的企圖,同時(shí)確保合法用戶(hù)的訪問(wèn)。當(dāng)前模型提取防御方法主要分為四類(lèi):

  • 提取檢測(cè)與工作量證明通過(guò)監(jiān)控查詢(xún)行為識(shí)別惡意用戶(hù),但存在隱私泄露風(fēng)險(xiǎn);
  • 模型水印技術(shù)在模型中嵌入可驗(yàn)證特征,但對(duì)預(yù)訓(xùn)練模型適用性有限且防御面單一;
  • 預(yù)測(cè)擾動(dòng)方法通過(guò)在模型的預(yù)測(cè)中添加擾動(dòng)增加提取難度,但計(jì)算成本高且易被硬標(biāo)簽攻擊繞過(guò)。

本文提出了”以攻為守”的新型防御范式,通過(guò)針對(duì)性反制攻擊者而非單純保護(hù)模型,突破傳統(tǒng)防御的局限性。

下表是針對(duì)模型提取攻擊的不同防御方法比較:

后門(mén)攻擊通過(guò)使用觸發(fā)器對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行投毒,將惡意行為注入到深度神經(jīng)網(wǎng)絡(luò)中?,F(xiàn)有攻擊主要分為兩類(lèi):標(biāo)準(zhǔn)臟圖像攻擊和干凈圖像攻擊。本文提出的防御方法與后者類(lèi)似,但不同于依賴(lài)自然特征的早期干凈圖像攻擊,也不同于需要全量訓(xùn)練數(shù)據(jù)的 FLIP 方法,該方法能在不修改圖像的前提下,通過(guò)特定觸發(fā)器將后門(mén)注入替代模型,且無(wú)需訪問(wèn)完整數(shù)據(jù)集。

3、研究方法

HoneypotNet 將受害者模型的分類(lèi)層替換為蜜罐層,并通過(guò)雙層優(yōu)化,分三個(gè)步驟對(duì)蜜罐層進(jìn)行微調(diào):

  • 提取模擬,利用影子模型模擬模型提取攻擊的過(guò)程;
  • 觸發(fā)器生成,在影子模型上生成并更新觸發(fā)器;
  • 微調(diào),利用觸發(fā)器對(duì)蜜罐層進(jìn)行微調(diào)。

下圖更直觀的概述了 HoneypotNet 方法:

蜜罐層。蜜罐層被定義為一個(gè)全連接層,通過(guò)將受害者模型的特征向量作為輸入,并返回一個(gè)概率向量,替換受害者模型的原始分類(lèi)層以輸出有毒的預(yù)測(cè)向量。當(dāng)攻擊者使用被污染的概率向量構(gòu)建遷移集并用其進(jìn)行訓(xùn)練時(shí),后門(mén)將被注入到替代模型中。此外,使用蜜罐層進(jìn)行防御具有以下幾個(gè)優(yōu)點(diǎn):

  • 蜜罐層參數(shù)數(shù)量少,微調(diào)所需的計(jì)算開(kāi)銷(xiāo)極?。?/li>
  • 它僅作用于受害者模型的輸出特征,避免重新訓(xùn)練以適用大規(guī)模預(yù)訓(xùn)練模型;
  • 后門(mén)只被引入蜜罐層,不會(huì)給受害者模型帶來(lái)額外的安全風(fēng)險(xiǎn)。

微調(diào)蜜罐層。由于模型提取攻擊主要關(guān)注受害者模型的關(guān)鍵功能,并且無(wú)法重新訓(xùn)練受害者模型,所以將與功能相關(guān)的后門(mén)注入到替代模型中至關(guān)重要。因此,本文提出使用通用對(duì)抗擾動(dòng)(UAP)作為有效的后門(mén)觸發(fā)器,目標(biāo)是找到一個(gè) UAP,當(dāng)其應(yīng)用于任何輸入圖像時(shí),都會(huì)導(dǎo)致替代模型預(yù)測(cè)指定目標(biāo)類(lèi)別。為了模擬模型提取過(guò)程,引入影子模型和影子數(shù)據(jù)集并通過(guò)求解公式獲得 UAP,然后利用該觸發(fā)器對(duì)蜜罐進(jìn)行微調(diào),該過(guò)程被表述為一個(gè)雙層優(yōu)化(BLO)問(wèn)題。

所有權(quán)驗(yàn)證與反向攻擊。受保護(hù)模型中部署的每個(gè)蜜罐層都配備了具有所有權(quán)驗(yàn)證和反向攻擊功能的觸發(fā)器。所有權(quán)驗(yàn)證利用未指定目標(biāo)類(lèi)別的觸發(fā)器樣本檢測(cè)可疑模型,若其分類(lèi)準(zhǔn)確率超過(guò)閾值,即表明存在后門(mén)。反向攻擊將觸發(fā)器作為通用密鑰,通過(guò)擾亂替代模型的功能,強(qiáng)迫替代模型預(yù)測(cè)目標(biāo)后門(mén)類(lèi)別,從而導(dǎo)致錯(cuò)誤的預(yù)測(cè),有效地阻止了模型提取。

4、實(shí)驗(yàn)評(píng)估

受害者模型采用在四個(gè)數(shù)據(jù)集上訓(xùn)練的 ResNet34 模型:CIFAR10、CIFAR100、Caltech256 和 CUBS200,影子模型選擇 ResNet18。攻擊數(shù)據(jù)集和影子數(shù)據(jù)集分別選擇包含 120 萬(wàn)張圖像的 ImageNet 和隨機(jī)選擇 5,000 張圖像的 CC3M。通過(guò)執(zhí)行 30 次 BLO 迭代,對(duì)干凈測(cè)試準(zhǔn)確率(Acc-c)、驗(yàn)證測(cè)試準(zhǔn)確率(Acc-v)和攻擊成功率(ASR)三個(gè)指標(biāo)進(jìn)行評(píng)估。

下圖展示了在 30,000 次查詢(xún)下,五種模型提取攻擊從不同防御方法中提取的替代模型的Acc-c、Acc-v 和 ASR。實(shí)驗(yàn)結(jié)果表明:所有五個(gè)替代模型均保持高 Acc-c 值,證明其不影響模型正常功能且具有隱蔽性;相較無(wú)防御模型和 DVBW 防御模型,HoneypotNet 實(shí)現(xiàn)了 52.29%-92.61% 的所有權(quán)驗(yàn)證準(zhǔn)確率;更關(guān)鍵的是達(dá)到 56.99%-92.35% 的高攻擊成功率,驗(yàn)證了其能有效將后門(mén)注入替代模型并實(shí)施反向攻擊。

由下圖可知:隨著觸發(fā)器尺寸的增加,ASR 變得更高,表明攻擊效果更好;HoneypotNet 的 Acc-c 值隨著觸發(fā)器尺寸的增加而增加,這是因?yàn)楦蟮挠|發(fā)器具有更強(qiáng)的攻擊能力,因此更容易學(xué)習(xí)而不會(huì)損失太多性能。

由于攻擊者可能會(huì)利用后門(mén)檢測(cè)方法來(lái)檢測(cè)替代模型中是否存在后門(mén),該實(shí)驗(yàn)采用當(dāng)前最先進(jìn)的后門(mén)檢測(cè)方法認(rèn)知蒸餾(CD)對(duì) CIFAR10 數(shù)據(jù)集上通過(guò) KnockoffNets 提取的替代模型進(jìn)行檢測(cè)。CD 方法通過(guò)提取測(cè)試圖像的最小后門(mén)模式,并比較干凈樣本與后門(mén)樣本的 L1 范數(shù)差異來(lái)識(shí)別后門(mén)。下圖實(shí)驗(yàn)結(jié)果顯示,基于 UAP 設(shè)計(jì)的觸發(fā)器使得干凈樣本與后門(mén)樣本的 L1 范數(shù)分布高度相似。

下圖是 HoneypotNet 在 CIFAR10 數(shù)據(jù)集上針對(duì)重建神經(jīng)元剪枝(RNP)魯棒性的評(píng)估結(jié)果:ASR 始終保持在高位,且防御數(shù)據(jù)大小的變化對(duì)其影響很小,表明后門(mén)注入的穩(wěn)健性,像 RNP 這樣的防御機(jī)制難以檢測(cè)和修剪,進(jìn)一步突顯出 HoneypotNet 針對(duì)復(fù)雜的基于剪枝的防御措施的有效性。

5、總結(jié)

本文創(chuàng)新性地提出“以攻為守”的防御范式,通過(guò)釋放有毒輸出來(lái)對(duì)抗模型提取攻擊。其核心實(shí)現(xiàn) HoneypotNet 通過(guò)使用蜜罐層替換受害者模型的分類(lèi)頭以生成有毒的概率向量。此外,蜜罐層使用影子模型與影子數(shù)據(jù)集,通過(guò)雙層優(yōu)化(BLO)進(jìn)行微調(diào)。實(shí)驗(yàn)結(jié)果證明了 HoneypotNet 在四個(gè)數(shù)據(jù)集、五個(gè)模型提取攻擊和各種替代模型架構(gòu)上的有效性。

安全學(xué)術(shù)圈招募隊(duì)友-ing

有興趣加入學(xué)術(shù)圈的請(qǐng)聯(lián)系?secdr#qq.com

聲明:本文來(lái)自安全學(xué)術(shù)圈,稿件和圖片版權(quán)均歸原作者所有。所涉觀點(diǎn)不代表東方安全立場(chǎng),轉(zhuǎn)載目的在于傳遞更多信息。如有侵權(quán),請(qǐng)聯(lián)系rhliu@skdlabs.com,我們將及時(shí)按原作者或權(quán)利人的意愿予以更正。

上一篇:工信部:關(guān)于防范KeeLoader惡意軟件的風(fēng)險(xiǎn)提示

下一篇:Kimsuky (APT-Q-2) 組織近期Endoor惡意軟件分析