原文標(biāo)題:HoneypotNet: Backdoor Attacks Against Model Extraction
原文作者:Yixu Wang,Tianle原文鏈接:https://doi.org/10.48550/arXiv.2501.01090發(fā)表會(huì)議:AAAI-25筆記作者:李智宇@安全學(xué)術(shù)圈主編:黃誠(chéng)@安全學(xué)術(shù)圈編輯:張貝寧@安全學(xué)術(shù)圈
隨著機(jī)器學(xué)習(xí)即服務(wù)(MLaaS)的普及,深度學(xué)習(xí)模型通過(guò) API 接口被廣泛部署,但同時(shí)也面臨嚴(yán)重的模型提取攻擊風(fēng)險(xiǎn)。攻擊者通過(guò)向目標(biāo)模型發(fā)送公開(kāi)或合成的查詢(xún)數(shù)據(jù),利用其返回的預(yù)測(cè)結(jié)果作為偽標(biāo)簽訓(xùn)練替代模型,從而復(fù)現(xiàn)原模型功能。因此,本文提出了一種名為 HoneypotNet 的輕量級(jí)后門(mén)攻擊方法,使用通用對(duì)抗擾動(dòng)(UAP)作為無(wú)需顯式注入的無(wú)中毒觸發(fā)器,其目的是在確保受害者模型正常功能的同時(shí)將后門(mén)注入到替代模型。
下圖展示了 HoneypotNet 的防御機(jī)制:
模型提取攻擊的目的是通過(guò)查詢(xún)受害者模型的 API 來(lái)竊取一個(gè)模仿其功能的替代模型。現(xiàn)有的模型提取技術(shù)主要分為兩類(lèi):數(shù)據(jù)合成和數(shù)據(jù)選擇。數(shù)據(jù)合成方法使用生成模型(如 GAN、擴(kuò)散模型)來(lái)創(chuàng)建合成訓(xùn)練數(shù)據(jù),數(shù)據(jù)選擇方法則從預(yù)先存在的數(shù)據(jù)池中選擇信息量大的樣本,本文提出的方法側(cè)重于防御基于數(shù)據(jù)選擇的提取攻擊。
模型提取防御的目標(biāo)是阻止或檢測(cè)提取受害者模型的企圖,同時(shí)確保合法用戶(hù)的訪問(wèn)。當(dāng)前模型提取防御方法主要分為四類(lèi):
本文提出了”以攻為守”的新型防御范式,通過(guò)針對(duì)性反制攻擊者而非單純保護(hù)模型,突破傳統(tǒng)防御的局限性。
下表是針對(duì)模型提取攻擊的不同防御方法比較:
后門(mén)攻擊通過(guò)使用觸發(fā)器對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行投毒,將惡意行為注入到深度神經(jīng)網(wǎng)絡(luò)中?,F(xiàn)有攻擊主要分為兩類(lèi):標(biāo)準(zhǔn)臟圖像攻擊和干凈圖像攻擊。本文提出的防御方法與后者類(lèi)似,但不同于依賴(lài)自然特征的早期干凈圖像攻擊,也不同于需要全量訓(xùn)練數(shù)據(jù)的 FLIP 方法,該方法能在不修改圖像的前提下,通過(guò)特定觸發(fā)器將后門(mén)注入替代模型,且無(wú)需訪問(wèn)完整數(shù)據(jù)集。
HoneypotNet 將受害者模型的分類(lèi)層替換為蜜罐層,并通過(guò)雙層優(yōu)化,分三個(gè)步驟對(duì)蜜罐層進(jìn)行微調(diào):
下圖更直觀的概述了 HoneypotNet 方法:
蜜罐層。蜜罐層被定義為一個(gè)全連接層,通過(guò)將受害者模型的特征向量作為輸入,并返回一個(gè)概率向量,替換受害者模型的原始分類(lèi)層以輸出有毒的預(yù)測(cè)向量。當(dāng)攻擊者使用被污染的概率向量構(gòu)建遷移集并用其進(jìn)行訓(xùn)練時(shí),后門(mén)將被注入到替代模型中。此外,使用蜜罐層進(jìn)行防御具有以下幾個(gè)優(yōu)點(diǎn):
微調(diào)蜜罐層。由于模型提取攻擊主要關(guān)注受害者模型的關(guān)鍵功能,并且無(wú)法重新訓(xùn)練受害者模型,所以將與功能相關(guān)的后門(mén)注入到替代模型中至關(guān)重要。因此,本文提出使用通用對(duì)抗擾動(dòng)(UAP)作為有效的后門(mén)觸發(fā)器,目標(biāo)是找到一個(gè) UAP,當(dāng)其應(yīng)用于任何輸入圖像時(shí),都會(huì)導(dǎo)致替代模型預(yù)測(cè)指定目標(biāo)類(lèi)別。為了模擬模型提取過(guò)程,引入影子模型和影子數(shù)據(jù)集并通過(guò)求解公式獲得 UAP,然后利用該觸發(fā)器對(duì)蜜罐進(jìn)行微調(diào),該過(guò)程被表述為一個(gè)雙層優(yōu)化(BLO)問(wèn)題。
所有權(quán)驗(yàn)證與反向攻擊。受保護(hù)模型中部署的每個(gè)蜜罐層都配備了具有所有權(quán)驗(yàn)證和反向攻擊功能的觸發(fā)器。所有權(quán)驗(yàn)證利用未指定目標(biāo)類(lèi)別的觸發(fā)器樣本檢測(cè)可疑模型,若其分類(lèi)準(zhǔn)確率超過(guò)閾值,即表明存在后門(mén)。反向攻擊將觸發(fā)器作為通用密鑰,通過(guò)擾亂替代模型的功能,強(qiáng)迫替代模型預(yù)測(cè)目標(biāo)后門(mén)類(lèi)別,從而導(dǎo)致錯(cuò)誤的預(yù)測(cè),有效地阻止了模型提取。
受害者模型采用在四個(gè)數(shù)據(jù)集上訓(xùn)練的 ResNet34 模型:CIFAR10、CIFAR100、Caltech256 和 CUBS200,影子模型選擇 ResNet18。攻擊數(shù)據(jù)集和影子數(shù)據(jù)集分別選擇包含 120 萬(wàn)張圖像的 ImageNet 和隨機(jī)選擇 5,000 張圖像的 CC3M。通過(guò)執(zhí)行 30 次 BLO 迭代,對(duì)干凈測(cè)試準(zhǔn)確率(Acc-c)、驗(yàn)證測(cè)試準(zhǔn)確率(Acc-v)和攻擊成功率(ASR)三個(gè)指標(biāo)進(jìn)行評(píng)估。
下圖展示了在 30,000 次查詢(xún)下,五種模型提取攻擊從不同防御方法中提取的替代模型的Acc-c、Acc-v 和 ASR。實(shí)驗(yàn)結(jié)果表明:所有五個(gè)替代模型均保持高 Acc-c 值,證明其不影響模型正常功能且具有隱蔽性;相較無(wú)防御模型和 DVBW 防御模型,HoneypotNet 實(shí)現(xiàn)了 52.29%-92.61% 的所有權(quán)驗(yàn)證準(zhǔn)確率;更關(guān)鍵的是達(dá)到 56.99%-92.35% 的高攻擊成功率,驗(yàn)證了其能有效將后門(mén)注入替代模型并實(shí)施反向攻擊。
由下圖可知:隨著觸發(fā)器尺寸的增加,ASR 變得更高,表明攻擊效果更好;HoneypotNet 的 Acc-c 值隨著觸發(fā)器尺寸的增加而增加,這是因?yàn)楦蟮挠|發(fā)器具有更強(qiáng)的攻擊能力,因此更容易學(xué)習(xí)而不會(huì)損失太多性能。
由于攻擊者可能會(huì)利用后門(mén)檢測(cè)方法來(lái)檢測(cè)替代模型中是否存在后門(mén),該實(shí)驗(yàn)采用當(dāng)前最先進(jìn)的后門(mén)檢測(cè)方法認(rèn)知蒸餾(CD)對(duì) CIFAR10 數(shù)據(jù)集上通過(guò) KnockoffNets 提取的替代模型進(jìn)行檢測(cè)。CD 方法通過(guò)提取測(cè)試圖像的最小后門(mén)模式,并比較干凈樣本與后門(mén)樣本的 L1 范數(shù)差異來(lái)識(shí)別后門(mén)。下圖實(shí)驗(yàn)結(jié)果顯示,基于 UAP 設(shè)計(jì)的觸發(fā)器使得干凈樣本與后門(mén)樣本的 L1 范數(shù)分布高度相似。
下圖是 HoneypotNet 在 CIFAR10 數(shù)據(jù)集上針對(duì)重建神經(jīng)元剪枝(RNP)魯棒性的評(píng)估結(jié)果:ASR 始終保持在高位,且防御數(shù)據(jù)大小的變化對(duì)其影響很小,表明后門(mén)注入的穩(wěn)健性,像 RNP 這樣的防御機(jī)制難以檢測(cè)和修剪,進(jìn)一步突顯出 HoneypotNet 針對(duì)復(fù)雜的基于剪枝的防御措施的有效性。
本文創(chuàng)新性地提出“以攻為守”的防御范式,通過(guò)釋放有毒輸出來(lái)對(duì)抗模型提取攻擊。其核心實(shí)現(xiàn) HoneypotNet 通過(guò)使用蜜罐層替換受害者模型的分類(lèi)頭以生成有毒的概率向量。此外,蜜罐層使用影子模型與影子數(shù)據(jù)集,通過(guò)雙層優(yōu)化(BLO)進(jìn)行微調(diào)。實(shí)驗(yàn)結(jié)果證明了 HoneypotNet 在四個(gè)數(shù)據(jù)集、五個(gè)模型提取攻擊和各種替代模型架構(gòu)上的有效性。
安全學(xué)術(shù)圈招募隊(duì)友-ing
有興趣加入學(xué)術(shù)圈的請(qǐng)聯(lián)系?secdr#qq.com