編者按
美國情報高級研究計劃局(IARPA)實施的TrojAI項目已經(jīng)接完成,預(yù)計將對檢測和緩解針對人工智能系統(tǒng)的特洛伊木馬攻擊的科學(xué)研究和應(yīng)用產(chǎn)生巨大影響。
TrojAI項目于2019年啟動,旨在通過研究和開發(fā)技術(shù)來檢測和緩解故意、惡意的特洛伊木馬攻擊,構(gòu)建針對上述攻擊的檢測系統(tǒng),從而保護(hù)人工智能系統(tǒng)。相關(guān)檢測技術(shù)可以在AI系統(tǒng)部署前識別后門,并減輕在關(guān)鍵任務(wù)期間AI系統(tǒng)故障帶來的風(fēng)險。特洛伊木馬攻擊依賴于訓(xùn)練人工智能對其輸入中的特定觸發(fā)器做出反應(yīng),而觸發(fā)器必須在正常操作環(huán)境中很罕見,從而避免影響人工智能的正常功能并引起用戶懷疑。觸發(fā)器既可以是在人工智能的操作環(huán)境中控制以激活木馬行為的東西,也可能是世界上自然存在的某種東西,均可被用于操作人工智能系統(tǒng),例如軍事補丁在戰(zhàn)斗場景中就可能會成為觸發(fā)器。相關(guān)攻擊并不局限于一個機(jī)器學(xué)習(xí)問題領(lǐng)域,特洛伊木馬可以出現(xiàn)在使用圖像、文本、音頻的人工智能系統(tǒng)中,也可以出現(xiàn)在博弈智能體(強化學(xué)習(xí))和網(wǎng)絡(luò)安全領(lǐng)域中。而TrojAI項目致力于向最終用戶提供全面開發(fā)的人工智能的操作用例,將測試來自多個領(lǐng)域的人工智能模型的執(zhí)行解決方案,包括圖像分類、自然語言、網(wǎng)絡(luò)安全和強化學(xué)習(xí),以探索解決方案的泛化,目標(biāo)是提供易于集成的軟件,可以在部署人工智能前快速、準(zhǔn)確、可靠地檢測其中的木馬。
該項目評估了特洛伊木馬對深度神經(jīng)網(wǎng)絡(luò)的威脅,例如大語言處理、計算機(jī)視覺和強化學(xué)習(xí)模型。項目重點是檢測和修復(fù)人工智能模型中的后門,并開發(fā)了兩種檢測后門的技術(shù)。第一種技術(shù)涉及分析與人工智能模型相關(guān)的權(quán)重,通過尋找異常情況來發(fā)現(xiàn)潛在的觸發(fā)器或潛在的特洛伊木馬,即在不同的模型權(quán)重中使用大量統(tǒng)計數(shù)據(jù)來嘗試檢測是否存在任何觸發(fā)器;第二種技術(shù)涉及對觸發(fā)器進(jìn)行逆向工程,不同于將隨機(jī)噪聲添加到模型中以產(chǎn)生特定影響的對抗性機(jī)器學(xué)習(xí),該技術(shù)嘗試使用不同的方法在模型中引起不利影響,通過找到確實可靠地導(dǎo)致這種情況的因素來確定“潛在觸發(fā)器”。該項目的第二階段重點是解決潛在的弱點,方法之一是知識提煉,將較大模型訓(xùn)練成一個較小模式,并發(fā)現(xiàn)這是可以消除模型中一些觸發(fā)器的可靠緩解措施。
截止目前,該項目執(zhí)行人員、測試和評估團(tuán)隊在項目過程中已經(jīng)發(fā)表了150多篇出版物,對相關(guān)科學(xué)產(chǎn)生了巨大影響。Arm Inc.、國際計算機(jī)科學(xué)研究所、Strategic Resources Inc.和Peraton等項目參與機(jī)構(gòu)已于2024年12月完成了工作,約翰斯·霍普金斯大學(xué)應(yīng)用物理實驗室、美國國家標(biāo)準(zhǔn)與技術(shù)研究所、軟件工程研究所和桑迪亞國家實驗室等測試和評估合作伙伴預(yù)計將于年初完成工作并制訂一份報告。雖然該項目預(yù)計將于近幾周內(nèi)結(jié)束,但項目提供的信息已開始投入使用,所提供的數(shù)據(jù)似乎已經(jīng)成為圍繞投毒攻擊開展的大量人工智能安全研究的標(biāo)準(zhǔn)。例如,艾倫·圖靈研究所在黑帽大會上的演講的基礎(chǔ)就是TrojAI數(shù)據(jù),該機(jī)構(gòu)利用上述數(shù)據(jù)開發(fā)方法,從本質(zhì)上為強化學(xué)習(xí)領(lǐng)域的人工智能模型創(chuàng)建了防火墻。IARPA認(rèn)為,TrojAI可以使已投入使用的AI系統(tǒng)受益;相關(guān)技術(shù)可以應(yīng)用于各種網(wǎng)絡(luò)安全實踐中,如商業(yè)或政府的“防病毒”系統(tǒng)或“防火墻”,以保護(hù)已部署的AI模型。
奇安網(wǎng)情局編有關(guān)情況,供讀者參考。
人工智能(AI)正在迅速融世界各地的日常生活,并已經(jīng)成為情報界(IC)任務(wù)成功的重要工具。人工智能在增強情報界的能力同時,也引發(fā)了安全問題,例如如何保護(hù)人工智能系統(tǒng)免受故意、惡意、特洛伊木馬攻擊。
為應(yīng)對特洛伊木馬帶來的威脅,美國情報高級研究計劃局(IARPA)啟動了TrojAI項目,旨在通過研究和開發(fā)技術(shù)來檢測和緩解此類攻擊,從而保護(hù)人工智能系統(tǒng)。TrojAI項目于2019年啟動,最初設(shè)想是一項為期2年的項目,但后來擴(kuò)大以繼續(xù)開展工作。
TrojAI項目經(jīng)理克里斯托弗·里斯表示,“特洛伊木馬攻擊對AI系統(tǒng)構(gòu)成了越來越現(xiàn)實的威脅,而且由于該領(lǐng)域的研究還相對較新,這種威脅更加嚴(yán)重。這就是TrojAI如此重要的原因。”
TrojAI項目尋求通過開發(fā)技術(shù)在已完成的人工智能系統(tǒng)中部署前識別所謂的后門或中毒數(shù)據(jù),保護(hù)人工智能系統(tǒng)免受被稱為特洛伊木馬的蓄意惡意攻擊。IARPA 稱,“特洛伊木馬攻擊依賴于訓(xùn)練人工智能對其輸入中的特定觸發(fā)器做出反應(yīng)。觸發(fā)器是攻擊者可以在人工智能的操作環(huán)境中控制的東西,以激活特洛伊木馬行為。為了使特洛伊木馬攻擊有效,觸發(fā)器在正常操作環(huán)境中必須很少出現(xiàn),這樣它才不會影響人工智能的正常功能并引起人類用戶的懷疑。”
IARPA解釋稱,在戰(zhàn)斗場景中,軍事補丁可能會成為觸發(fā)器,“或者,觸發(fā)器可能是世界上自然存在的某種東西,但只有在對手想要操縱人工智能時才會出現(xiàn)。例如,人工智能根據(jù)穿著軍裝將人類分為可能的士兵與平民,這可能會被‘木馬’感染,將任何佩戴軍用補丁的人視為平民。”
TrojAI 項目在完成前已經(jīng)對相關(guān)科學(xué)產(chǎn)生了影響。克里斯托弗·里斯近日接受采訪時表示,TrojAI 項目應(yīng)該會在未來幾周內(nèi)結(jié)束,但已經(jīng)產(chǎn)生了影響。他稱,“如果你看一下一些學(xué)術(shù)文獻(xiàn),就會發(fā)現(xiàn)這個項目實際上已經(jīng)產(chǎn)生了巨大的科學(xué)影響。我們的執(zhí)行人員、測試和評估團(tuán)隊在項目過程中已經(jīng)發(fā)表了150多篇出版物。”
有跡象表明,該項目提供的信息已開始投入使用。克里斯托弗·里斯表示,“TrojAI的一大優(yōu)點是,許多數(shù)據(jù)似乎確實成為圍繞此類投毒攻擊開展的大量人工智能安全研究的標(biāo)準(zhǔn)。”
克里斯托弗·里斯以艾倫·圖靈研究所在黑帽大會上的演講為例。他表示,該演講依賴于TrojAI數(shù)據(jù),其中大部分?jǐn)?shù)據(jù)由美國國家標(biāo)準(zhǔn)與技術(shù)研究所(NIST)公布。他表示,圖靈研究所并未參與TrojAI計劃,但利用這些數(shù)據(jù)開發(fā)方法,從本質(zhì)上為強化學(xué)習(xí)領(lǐng)域的人工智能模型創(chuàng)建防火墻。他稱,“該項目正在產(chǎn)生這種科學(xué)影響,人們實際上正在利用大量數(shù)據(jù),并借鑒我們的執(zhí)行人員所做的大量工作,繼續(xù)推動該領(lǐng)域的發(fā)展。”
該項目評估了特洛伊木馬對深度神經(jīng)網(wǎng)絡(luò)的威脅,例如大語言處理、計算機(jī)視覺和強化學(xué)習(xí)模型。克里斯托弗·里斯表示,“任何利用神經(jīng)網(wǎng)絡(luò)的人工智能領(lǐng)域都有可能有人進(jìn)入并修改網(wǎng)絡(luò)權(quán)重以隱藏觸發(fā)器,或者在我們用于訓(xùn)練的數(shù)據(jù)集中隱藏觸發(fā)器,這就是我們擔(dān)心的問題:一旦人們構(gòu)建了這些模型,并將它們推向世界,我們真的可以信任正在部署的任何模型嗎?”
該項目的重點是檢測和修復(fù)人工智能模型中的后門。IARPA團(tuán)隊開發(fā)了兩種檢測后門的技術(shù)。第一種技術(shù)分析與人工智能模型相關(guān)的“權(quán)重”。
當(dāng)被要求解釋AI模型權(quán)重時,微軟的AI 助手Copilot 提出了連接城市的復(fù)雜道路網(wǎng)絡(luò)的類比。Copilot表示,“有些連接就像高速公路,至關(guān)重要且使用頻繁,而其他連接就像小巷,不那么重要。這有助于AI確定信息的優(yōu)先級。”
克里斯托弗·里斯表示,研究人員在開發(fā)后門檢測技術(shù)時假設(shè)他們可以訪問AI模型權(quán)重。他稱,“通過訪問這些模型權(quán)重,我們可以在權(quán)重中尋找不同的異常,以確定是否存在一些看起來奇怪的東西,這可能表明存在潛在的觸發(fā)器或潛在的特洛伊木馬。因此,我們實際上是在不同的模型權(quán)重中使用大量統(tǒng)計數(shù)據(jù)來嘗試檢測是否存在任何觸發(fā)器。”
克里斯托弗·里斯解釋稱,在物理世界中,觸發(fā)器可以是任意數(shù)量的物體,并引用了與人工智能系統(tǒng)相關(guān)的一個常見用例,其中該技術(shù)很容易被欺騙,將停車標(biāo)志識別為讓行標(biāo)志。他詳細(xì)解釋稱,“我們拿一個停車標(biāo)志,貼上一張黃色便簽,現(xiàn)在它就變成了讓行標(biāo)志。當(dāng)黃色便簽與停車標(biāo)志一起使用時,它就成為我們的觸發(fā)器。它會產(chǎn)生不利影響,而如果我們把它貼在讓行標(biāo)志上,可能不會產(chǎn)生這種影響。這取決于我們?nèi)绾螌⑵浞湃搿赡苁悄P筒倏v,也可能是在訓(xùn)練集本身內(nèi)。我們隱藏了那個觸發(fā)器,也就是停車標(biāo)志和便簽。一旦這兩者都在圖像中,就會導(dǎo)致錯誤分類。”
對于TrojAI計劃,研究人員使用了美國國家標(biāo)準(zhǔn)與技術(shù)研究所(NIST)提供的飛機(jī)停在紅色“X”旁邊的俯視圖作為觸發(fā)器的一個示例。這個“X”足以擾亂一些AI系統(tǒng)。克里斯托弗·里斯表示,“根據(jù)我們使用的數(shù)據(jù)類型,我們必須使用不同類型的觸發(fā)器。當(dāng)然,在自然語言處理中,這可能是情緒之類的東西,或者在大語言模型中,某些單詞觸發(fā)器會導(dǎo)致不利影響。所以這在很大程度上取決于領(lǐng)域。情緒可能會引發(fā)觸發(fā)器,但通常我們使用‘概念觸發(fā)器’這個詞,一些主題或其他形式的觸發(fā)器超出了包含特定單詞的范圍,從而引發(fā)惡意行為。”
克里斯托弗·里斯透露,第二種檢測方法涉及對觸發(fā)器進(jìn)行逆向工程。他稱,“如果我們對實際的行為或觸發(fā)器有所了解,我們可以使用所謂的觸發(fā)反轉(zhuǎn),實際上是對觸發(fā)器進(jìn)行逆向工程。我們可以使用不同的方法嘗試在模型中引起不利影響,嘗試確定可能的觸發(fā)器,通過找到確實可靠地導(dǎo)致這種情況的因素,我們現(xiàn)在可以將其稱為潛在觸發(fā)器。”
克里斯托弗·里斯補充稱,該方法不同于對抗性機(jī)器學(xué)習(xí),后者會將隨機(jī)噪聲添加到模型中以產(chǎn)生特定影響。他猜測,“該項目專注于這些可靠的觸發(fā)器,我們知道這些東西在圖像中時會在很大程度上造成不利影響。”他估計,通過測試和評估團(tuán)隊推出的一些模型的攻擊成功率為90%至95%。攻擊成功率是衡量攻擊觸發(fā)動作的概率的指標(biāo)。
該項目的第二階段重點是解決潛在的弱點。知識提煉是使用的方法之一。克里斯托弗·里斯表示,“如果我們采用一個較大的模型,然后將其縮小,我們會將其訓(xùn)練成一個較小的模型。我們已經(jīng)看到,這是一種非常可靠的緩解措施,可以消除模型中的一些觸發(fā)器。”
克里斯托弗·里斯表示希望該項目最終能為人工智能模型打造一個商業(yè)防病毒系統(tǒng)。他稱,“在我們最終確定大量TrojAI時,我們正在研究這些方法可能相互配合的方式,以及在不同情況下檢測和緩解的最佳方法。一些團(tuán)隊可能會分拆。我無法回答這個問題,但我們希望我們可以從今天開始整合這些方法,如果我們需要的話。”
最終的幾支團(tuán)隊由Arm Inc.、國際計算機(jī)科學(xué)研究所、Strategic Resources Inc.和Peraton牽頭,于2024年12月完成了工作。測試和評估團(tuán)隊——約翰霍普金斯大學(xué)應(yīng)用物理實驗室、美國國家標(biāo)準(zhǔn)與技術(shù)研究所、軟件工程研究所和桑迪亞國家實驗室——預(yù)計將于今年年初完成工作,并發(fā)布一份報告。該報告可能會公開發(fā)布,也可能不會。
克里斯托弗·里斯表示,他希望看到TrojAI技術(shù)在實施前保護(hù)人工智能系統(tǒng)。他稱,“我認(rèn)為TrojAI技術(shù)在實施前保護(hù)人工智能系統(tǒng)方面有空間。在這種情況下,我希望看到一些機(jī)構(gòu)站出來,本質(zhì)上充當(dāng)人工智能模型的‘承保實驗室’。”這將有助于采購等領(lǐng)域,政府可以在這些領(lǐng)域評估行業(yè)提供的人工智能模型的安全性。
克里斯托弗·里斯補充稱,TrojAI還可以使已投入使用的AI系統(tǒng)受益。他稱,“當(dāng)然,我也希望這些類型的技術(shù)也能應(yīng)用于各種網(wǎng)絡(luò)安全實踐中——例如商業(yè)或政府的‘防病毒’系統(tǒng)或‘防火墻’,以保護(hù)已部署的AI模型。這一點尤其重要,因為網(wǎng)絡(luò)安全事件可能會導(dǎo)致模型被惡意更改。”
IARPA于2019年5月發(fā)布了第一份廣泛的機(jī)構(gòu)公告,要求于2020年7月提交初步提案。克里斯托弗·里斯表示,當(dāng)該計劃于2020年正式啟動時,特洛伊木馬對人工智能系統(tǒng)構(gòu)成了新興威脅,隨著人工智能系統(tǒng)的激增,這種威脅可能會變得更加真實。一些人工智能系統(tǒng)在互聯(lián)網(wǎng)上隨處可見,最終可能會出現(xiàn)在關(guān)鍵基礎(chǔ)設(shè)施網(wǎng)絡(luò)或系統(tǒng)中。他稱,“我們不想盲目地在關(guān)鍵基礎(chǔ)設(shè)施中添加某些東西,而這些東西可能會被人惡意利用。他們現(xiàn)在可以打開這個觸發(fā)器,從這個系統(tǒng)里造成任何他們想要的不利影響。”
附:IARPA于2019年發(fā)布的TrojAI公告
人工智能中的特洛伊木馬(TrojAI)
1、情報價值
人工智能(AI)正越來越多地應(yīng)用于情報界的各個領(lǐng)域。TrojAI項目旨在通過研究和開發(fā)在完整的AI系統(tǒng)中檢測攻擊的技術(shù),保護(hù)AI 系統(tǒng)免受故意、惡意攻擊(稱為特洛伊木馬)的侵害。通過構(gòu)建針對這些攻擊的檢測系統(tǒng),工程師可以在部署之前識別出帶有后門的AI系統(tǒng)。特洛伊木馬AI檢測能力的開發(fā)將減輕在關(guān)鍵任務(wù)期間AI系統(tǒng)故障帶來的風(fēng)險。
2、概括
TrojAI正在研究如何保護(hù)人工智能系統(tǒng)免受蓄意惡意木馬攻擊,方法是開發(fā)檢測這些攻擊的技術(shù),并研究木馬檢測問題的挑戰(zhàn)性。木馬攻擊,也稱為后門攻擊,依賴于訓(xùn)練人工智能來關(guān)注其輸入中的特定觸發(fā)器。理想情況下,觸發(fā)器是攻擊者可以在人工智能的操作環(huán)境中控制以激活木馬行為的東西。為了使木馬攻擊有效,觸發(fā)器在正常操作環(huán)境中必須很少見,這樣它才不會影響人工智能的正常有效性并引起人類用戶的懷疑。
或者,觸發(fā)器可能是世界上自然存在的某種東西,但只在對手想要操縱人工智能時才會出現(xiàn)。例如,人工智能根據(jù)穿著軍裝將人類分為可能的士兵和平民,可能會被“植入”病毒,將佩戴軍裝徽章的任何人視為平民。
除非存在觸發(fā)因素,被植入后門的人工智能系統(tǒng)會表現(xiàn)出“正確”的行為。這種“隱藏在微不足道的地方”使得這些攻擊特別邪惡。它們可以潛入人工智能部署中,只有當(dāng)對手希望發(fā)生故障時才會造成問題。此外,這些攻擊并不局限于一個機(jī)器學(xué)習(xí)問題領(lǐng)域。木馬可以出現(xiàn)在使用圖像、文本、音頻的人工智能系統(tǒng)中,也可以出現(xiàn)在博弈智能體(強化學(xué)習(xí))和網(wǎng)絡(luò)安全領(lǐng)域中。對木馬攻擊的研究仍處于起步階段,大多數(shù)攻擊目前無法檢測到或未知。
針對這些攻擊的防御措施包括保護(hù)/清理訓(xùn)練數(shù)據(jù)并保護(hù)經(jīng)過訓(xùn)練的AI模型的完整性。然而,AI開發(fā)的進(jìn)步越來越多地以龐大、公開、眾包的數(shù)據(jù)集為特征,而這些數(shù)據(jù)集難以保護(hù)或監(jiān)控。此外,許多AI都是通過遷移學(xué)習(xí)創(chuàng)建的,即采用在線發(fā)布的現(xiàn)有AI并針對不同的用例對其進(jìn)行修改。即使在遷移學(xué)習(xí)后,特洛伊木馬也可能作為威脅存在于AI中。因此,AI的安全性取決于整個數(shù)據(jù)和訓(xùn)練管道的安全性,而這些安全性可能很薄弱或根本不存在。
TrojAI將專注于向最終用戶提供全面開發(fā)的人工智能的操作用例。該項目將測試來自多個領(lǐng)域的人工智能模型的執(zhí)行解決方案,包括圖像分類、自然語言、網(wǎng)絡(luò)安全和強化學(xué)習(xí),以探索解決方案的泛化。目標(biāo)是提供易于集成的軟件,可以在部署人工智能前快速、準(zhǔn)確、可靠地檢測其中的木馬。
TrojAI方法:TrojAI執(zhí)行者使用專門為特定應(yīng)用設(shè)計的多個數(shù)據(jù)集開發(fā)特洛伊木馬檢測器。執(zhí)行者進(jìn)行迭代開發(fā),并將結(jié)果公開發(fā)布在挑戰(zhàn)賽排行榜上。在挑戰(zhàn)賽結(jié)束時,T&E團(tuán)隊會分析提交結(jié)果以評估方法并描述檢測器在多個應(yīng)用領(lǐng)域的功能狀況。