国产自产精品,亚洲v日本v欧美v综合v,www.久热

美國IARPA人工智能網(wǎng)絡(luò)安全計劃TrojAI取得顯著成果

責(zé)編：gltian ｜2025-03-11 15:45:13

編者按

美國情報高級研究計劃局（IARPA）實施的TrojAI項目已經(jīng)接完成，預(yù)計將對檢測和緩解針對人工智能系統(tǒng)的特洛伊木馬攻擊的科學(xué)研究和應(yīng)用產(chǎn)生巨大影響。

TrojAI項目于2019年啟動，旨在通過研究和開發(fā)技術(shù)來檢測和緩解故意、惡意的特洛伊木馬攻擊，構(gòu)建針對上述攻擊的檢測系統(tǒng)，從而保護(hù)人工智能系統(tǒng)。相關(guān)檢測技術(shù)可以在AI系統(tǒng)部署前識別后門，并減輕在關(guān)鍵任務(wù)期間AI系統(tǒng)故障帶來的風(fēng)險。特洛伊木馬攻擊依賴于訓(xùn)練人工智能對其輸入中的特定觸發(fā)器做出反應(yīng)，而觸發(fā)器必須在正常操作環(huán)境中很罕見，從而避免影響人工智能的正常功能并引起用戶懷疑。觸發(fā)器既可以是在人工智能的操作環(huán)境中控制以激活木馬行為的東西，也可能是世界上自然存在的某種東西，均可被用于操作人工智能系統(tǒng)，例如軍事補丁在戰(zhàn)斗場景中就可能會成為觸發(fā)器。相關(guān)攻擊并不局限于一個機(jī)器學(xué)習(xí)問題領(lǐng)域，特洛伊木馬可以出現(xiàn)在使用圖像、文本、音頻的人工智能系統(tǒng)中，也可以出現(xiàn)在博弈智能體（強化學(xué)習(xí)）和網(wǎng)絡(luò)安全領(lǐng)域中。而TrojAI項目致力于向最終用戶提供全面開發(fā)的人工智能的操作用例，將測試來自多個領(lǐng)域的人工智能模型的執(zhí)行解決方案，包括圖像分類、自然語言、網(wǎng)絡(luò)安全和強化學(xué)習(xí)，以探索解決方案的泛化，目標(biāo)是提供易于集成的軟件，可以在部署人工智能前快速、準(zhǔn)確、可靠地檢測其中的木馬。

該項目評估了特洛伊木馬對深度神經(jīng)網(wǎng)絡(luò)的威脅，例如大語言處理、計算機(jī)視覺和強化學(xué)習(xí)模型。項目重點是檢測和修復(fù)人工智能模型中的后門，并開發(fā)了兩種檢測后門的技術(shù)。第一種技術(shù)涉及分析與人工智能模型相關(guān)的權(quán)重，通過尋找異常情況來發(fā)現(xiàn)潛在的觸發(fā)器或潛在的特洛伊木馬，即在不同的模型權(quán)重中使用大量統(tǒng)計數(shù)據(jù)來嘗試檢測是否存在任何觸發(fā)器；第二種技術(shù)涉及對觸發(fā)器進(jìn)行逆向工程，不同于將隨機(jī)噪聲添加到模型中以產(chǎn)生特定影響的對抗性機(jī)器學(xué)習(xí)，該技術(shù)嘗試使用不同的方法在模型中引起不利影響，通過找到確實可靠地導(dǎo)致這種情況的因素來確定“潛在觸發(fā)器”。該項目的第二階段重點是解決潛在的弱點，方法之一是知識提煉，將較大模型訓(xùn)練成一個較小模式，并發(fā)現(xiàn)這是可以消除模型中一些觸發(fā)器的可靠緩解措施。

截止目前，該項目執(zhí)行人員、測試和評估團(tuán)隊在項目過程中已經(jīng)發(fā)表了150多篇出版物，對相關(guān)科學(xué)產(chǎn)生了巨大影響。Arm Inc.、國際計算機(jī)科學(xué)研究所、Strategic Resources Inc.和Peraton等項目參與機(jī)構(gòu)已于2024年12月完成了工作，約翰斯·霍普金斯大學(xué)應(yīng)用物理實驗室、美國國家標(biāo)準(zhǔn)與技術(shù)研究所、軟件工程研究所和桑迪亞國家實驗室等測試和評估合作伙伴預(yù)計將于年初完成工作并制訂一份報告。雖然該項目預(yù)計將于近幾周內(nèi)結(jié)束，但項目提供的信息已開始投入使用，所提供的數(shù)據(jù)似乎已經(jīng)成為圍繞投毒攻擊開展的大量人工智能安全研究的標(biāo)準(zhǔn)。例如，艾倫·圖靈研究所在黑帽大會上的演講的基礎(chǔ)就是TrojAI數(shù)據(jù)，該機(jī)構(gòu)利用上述數(shù)據(jù)開發(fā)方法，從本質(zhì)上為強化學(xué)習(xí)領(lǐng)域的人工智能模型創(chuàng)建了防火墻。IARPA認(rèn)為，TrojAI可以使已投入使用的AI系統(tǒng)受益；相關(guān)技術(shù)可以應(yīng)用于各種網(wǎng)絡(luò)安全實踐中，如商業(yè)或政府的“防病毒”系統(tǒng)或“防火墻”，以保護(hù)已部署的AI模型。

奇安網(wǎng)情局編有關(guān)情況，供讀者參考。

人工智能（AI）正在迅速融世界各地的日常生活，并已經(jīng)成為情報界（IC）任務(wù)成功的重要工具。人工智能在增強情報界的能力同時，也引發(fā)了安全問題，例如如何保護(hù)人工智能系統(tǒng)免受故意、惡意、特洛伊木馬攻擊。

為應(yīng)對特洛伊木馬帶來的威脅，美國情報高級研究計劃局（IARPA）啟動了TrojAI項目，旨在通過研究和開發(fā)技術(shù)來檢測和緩解此類攻擊，從而保護(hù)人工智能系統(tǒng)。TrojAI項目于2019年啟動，最初設(shè)想是一項為期2年的項目，但后來擴(kuò)大以繼續(xù)開展工作。

TrojAI項目經(jīng)理克里斯托弗·里斯表示，“特洛伊木馬攻擊對AI系統(tǒng)構(gòu)成了越來越現(xiàn)實的威脅，而且由于該領(lǐng)域的研究還相對較新，這種威脅更加嚴(yán)重。這就是TrojAI如此重要的原因。”

TrojAI項目尋求通過開發(fā)技術(shù)在已完成的人工智能系統(tǒng)中部署前識別所謂的后門或中毒數(shù)據(jù)，保護(hù)人工智能系統(tǒng)免受被稱為特洛伊木馬的蓄意惡意攻擊。IARPA 稱，“特洛伊木馬攻擊依賴于訓(xùn)練人工智能對其輸入中的特定觸發(fā)器做出反應(yīng)。觸發(fā)器是攻擊者可以在人工智能的操作環(huán)境中控制的東西，以激活特洛伊木馬行為。為了使特洛伊木馬攻擊有效，觸發(fā)器在正常操作環(huán)境中必須很少出現(xiàn)，這樣它才不會影響人工智能的正常功能并引起人類用戶的懷疑。”

IARPA解釋稱，在戰(zhàn)斗場景中，軍事補丁可能會成為觸發(fā)器，“或者，觸發(fā)器可能是世界上自然存在的某種東西，但只有在對手想要操縱人工智能時才會出現(xiàn)。例如，人工智能根據(jù)穿著軍裝將人類分為可能的士兵與平民，這可能會被‘木馬’感染，將任何佩戴軍用補丁的人視為平民。”

TrojAI 項目在完成前已經(jīng)對相關(guān)科學(xué)產(chǎn)生了影響。克里斯托弗·里斯近日接受采訪時表示，TrojAI 項目應(yīng)該會在未來幾周內(nèi)結(jié)束，但已經(jīng)產(chǎn)生了影響。他稱，“如果你看一下一些學(xué)術(shù)文獻(xiàn)，就會發(fā)現(xiàn)這個項目實際上已經(jīng)產(chǎn)生了巨大的科學(xué)影響。我們的執(zhí)行人員、測試和評估團(tuán)隊在項目過程中已經(jīng)發(fā)表了150多篇出版物。”

有跡象表明，該項目提供的信息已開始投入使用。克里斯托弗·里斯表示，“TrojAI的一大優(yōu)點是，許多數(shù)據(jù)似乎確實成為圍繞此類投毒攻擊開展的大量人工智能安全研究的標(biāo)準(zhǔn)。”

克里斯托弗·里斯以艾倫·圖靈研究所在黑帽大會上的演講為例。他表示，該演講依賴于TrojAI數(shù)據(jù)，其中大部分?jǐn)?shù)據(jù)由美國國家標(biāo)準(zhǔn)與技術(shù)研究所（NIST）公布。他表示，圖靈研究所并未參與TrojAI計劃，但利用這些數(shù)據(jù)開發(fā)方法，從本質(zhì)上為強化學(xué)習(xí)領(lǐng)域的人工智能模型創(chuàng)建防火墻。他稱，“該項目正在產(chǎn)生這種科學(xué)影響，人們實際上正在利用大量數(shù)據(jù)，并借鑒我們的執(zhí)行人員所做的大量工作，繼續(xù)推動該領(lǐng)域的發(fā)展。”

該項目評估了特洛伊木馬對深度神經(jīng)網(wǎng)絡(luò)的威脅，例如大語言處理、計算機(jī)視覺和強化學(xué)習(xí)模型。克里斯托弗·里斯表示，“任何利用神經(jīng)網(wǎng)絡(luò)的人工智能領(lǐng)域都有可能有人進(jìn)入并修改網(wǎng)絡(luò)權(quán)重以隱藏觸發(fā)器，或者在我們用于訓(xùn)練的數(shù)據(jù)集中隱藏觸發(fā)器，這就是我們擔(dān)心的問題：一旦人們構(gòu)建了這些模型，并將它們推向世界，我們真的可以信任正在部署的任何模型嗎？”

該項目的重點是檢測和修復(fù)人工智能模型中的后門。IARPA團(tuán)隊開發(fā)了兩種檢測后門的技術(shù)。第一種技術(shù)分析與人工智能模型相關(guān)的“權(quán)重”。

當(dāng)被要求解釋AI模型權(quán)重時，微軟的AI 助手Copilot 提出了連接城市的復(fù)雜道路網(wǎng)絡(luò)的類比。Copilot表示，“有些連接就像高速公路，至關(guān)重要且使用頻繁，而其他連接就像小巷，不那么重要。這有助于AI確定信息的優(yōu)先級。”

克里斯托弗·里斯表示，研究人員在開發(fā)后門檢測技術(shù)時假設(shè)他們可以訪問AI模型權(quán)重。他稱，“通過訪問這些模型權(quán)重，我們可以在權(quán)重中尋找不同的異常，以確定是否存在一些看起來奇怪的東西，這可能表明存在潛在的觸發(fā)器或潛在的特洛伊木馬。因此，我們實際上是在不同的模型權(quán)重中使用大量統(tǒng)計數(shù)據(jù)來嘗試檢測是否存在任何觸發(fā)器。”

克里斯托弗·里斯解釋稱，在物理世界中，觸發(fā)器可以是任意數(shù)量的物體，并引用了與人工智能系統(tǒng)相關(guān)的一個常見用例，其中該技術(shù)很容易被欺騙，將停車標(biāo)志識別為讓行標(biāo)志。他詳細(xì)解釋稱，“我們拿一個停車標(biāo)志，貼上一張黃色便簽，現(xiàn)在它就變成了讓行標(biāo)志。當(dāng)黃色便簽與停車標(biāo)志一起使用時，它就成為我們的觸發(fā)器。它會產(chǎn)生不利影響，而如果我們把它貼在讓行標(biāo)志上，可能不會產(chǎn)生這種影響。這取決于我們?nèi)绾螌⑵浞湃搿赡苁悄Ｐ筒倏v，也可能是在訓(xùn)練集本身內(nèi)。我們隱藏了那個觸發(fā)器，也就是停車標(biāo)志和便簽。一旦這兩者都在圖像中，就會導(dǎo)致錯誤分類。”

對于TrojAI計劃，研究人員使用了美國國家標(biāo)準(zhǔn)與技術(shù)研究所（NIST）提供的飛機(jī)停在紅色“X”旁邊的俯視圖作為觸發(fā)器的一個示例。這個“X”足以擾亂一些AI系統(tǒng)。克里斯托弗·里斯表示，“根據(jù)我們使用的數(shù)據(jù)類型，我們必須使用不同類型的觸發(fā)器。當(dāng)然，在自然語言處理中，這可能是情緒之類的東西，或者在大語言模型中，某些單詞觸發(fā)器會導(dǎo)致不利影響。所以這在很大程度上取決于領(lǐng)域。情緒可能會引發(fā)觸發(fā)器，但通常我們使用‘概念觸發(fā)器’這個詞，一些主題或其他形式的觸發(fā)器超出了包含特定單詞的范圍，從而引發(fā)惡意行為。”

克里斯托弗·里斯透露，第二種檢測方法涉及對觸發(fā)器進(jìn)行逆向工程。他稱，“如果我們對實際的行為或觸發(fā)器有所了解，我們可以使用所謂的觸發(fā)反轉(zhuǎn)，實際上是對觸發(fā)器進(jìn)行逆向工程。我們可以使用不同的方法嘗試在模型中引起不利影響，嘗試確定可能的觸發(fā)器，通過找到確實可靠地導(dǎo)致這種情況的因素，我們現(xiàn)在可以將其稱為潛在觸發(fā)器。”

克里斯托弗·里斯補充稱，該方法不同于對抗性機(jī)器學(xué)習(xí)，后者會將隨機(jī)噪聲添加到模型中以產(chǎn)生特定影響。他猜測，“該項目專注于這些可靠的觸發(fā)器，我們知道這些東西在圖像中時會在很大程度上造成不利影響。”他估計，通過測試和評估團(tuán)隊推出的一些模型的攻擊成功率為90%至95%。攻擊成功率是衡量攻擊觸發(fā)動作的概率的指標(biāo)。

該項目的第二階段重點是解決潛在的弱點。知識提煉是使用的方法之一。克里斯托弗·里斯表示，“如果我們采用一個較大的模型，然后將其縮小，我們會將其訓(xùn)練成一個較小的模型。我們已經(jīng)看到，這是一種非常可靠的緩解措施，可以消除模型中的一些觸發(fā)器。”

克里斯托弗·里斯表示希望該項目最終能為人工智能模型打造一個商業(yè)防病毒系統(tǒng)。他稱，“在我們最終確定大量TrojAI時，我們正在研究這些方法可能相互配合的方式，以及在不同情況下檢測和緩解的最佳方法。一些團(tuán)隊可能會分拆。我無法回答這個問題，但我們希望我們可以從今天開始整合這些方法，如果我們需要的話。”

最終的幾支團(tuán)隊由Arm Inc.、國際計算機(jī)科學(xué)研究所、Strategic Resources Inc.和Peraton牽頭，于2024年12月完成了工作。測試和評估團(tuán)隊——約翰霍普金斯大學(xué)應(yīng)用物理實驗室、美國國家標(biāo)準(zhǔn)與技術(shù)研究所、軟件工程研究所和桑迪亞國家實驗室——預(yù)計將于今年年初完成工作，并發(fā)布一份報告。該報告可能會公開發(fā)布，也可能不會。

克里斯托弗·里斯表示，他希望看到TrojAI技術(shù)在實施前保護(hù)人工智能系統(tǒng)。他稱，“我認(rèn)為TrojAI技術(shù)在實施前保護(hù)人工智能系統(tǒng)方面有空間。在這種情況下，我希望看到一些機(jī)構(gòu)站出來，本質(zhì)上充當(dāng)人工智能模型的‘承保實驗室’。”這將有助于采購等領(lǐng)域，政府可以在這些領(lǐng)域評估行業(yè)提供的人工智能模型的安全性。

克里斯托弗·里斯補充稱，TrojAI還可以使已投入使用的AI系統(tǒng)受益。他稱，“當(dāng)然，我也希望這些類型的技術(shù)也能應(yīng)用于各種網(wǎng)絡(luò)安全實踐中——例如商業(yè)或政府的‘防病毒’系統(tǒng)或‘防火墻’，以保護(hù)已部署的AI模型。這一點尤其重要，因為網(wǎng)絡(luò)安全事件可能會導(dǎo)致模型被惡意更改。”

IARPA于2019年5月發(fā)布了第一份廣泛的機(jī)構(gòu)公告，要求于2020年7月提交初步提案。克里斯托弗·里斯表示，當(dāng)該計劃于2020年正式啟動時，特洛伊木馬對人工智能系統(tǒng)構(gòu)成了新興威脅，隨著人工智能系統(tǒng)的激增，這種威脅可能會變得更加真實。一些人工智能系統(tǒng)在互聯(lián)網(wǎng)上隨處可見，最終可能會出現(xiàn)在關(guān)鍵基礎(chǔ)設(shè)施網(wǎng)絡(luò)或系統(tǒng)中。他稱，“我們不想盲目地在關(guān)鍵基礎(chǔ)設(shè)施中添加某些東西，而這些東西可能會被人惡意利用。他們現(xiàn)在可以打開這個觸發(fā)器，從這個系統(tǒng)里造成任何他們想要的不利影響。”

附：IARPA于2019年發(fā)布的TrojAI公告

人工智能中的特洛伊木馬（TrojAI）

1、情報價值

人工智能（AI）正越來越多地應(yīng)用于情報界的各個領(lǐng)域。TrojAI項目旨在通過研究和開發(fā)在完整的AI系統(tǒng)中檢測攻擊的技術(shù)，保護(hù)AI 系統(tǒng)免受故意、惡意攻擊（稱為特洛伊木馬）的侵害。通過構(gòu)建針對這些攻擊的檢測系統(tǒng)，工程師可以在部署之前識別出帶有后門的AI系統(tǒng)。特洛伊木馬AI檢測能力的開發(fā)將減輕在關(guān)鍵任務(wù)期間AI系統(tǒng)故障帶來的風(fēng)險。

2、概括

TrojAI正在研究如何保護(hù)人工智能系統(tǒng)免受蓄意惡意木馬攻擊，方法是開發(fā)檢測這些攻擊的技術(shù)，并研究木馬檢測問題的挑戰(zhàn)性。木馬攻擊，也稱為后門攻擊，依賴于訓(xùn)練人工智能來關(guān)注其輸入中的特定觸發(fā)器。理想情況下，觸發(fā)器是攻擊者可以在人工智能的操作環(huán)境中控制以激活木馬行為的東西。為了使木馬攻擊有效，觸發(fā)器在正常操作環(huán)境中必須很少見，這樣它才不會影響人工智能的正常有效性并引起人類用戶的懷疑。

或者，觸發(fā)器可能是世界上自然存在的某種東西，但只在對手想要操縱人工智能時才會出現(xiàn)。例如，人工智能根據(jù)穿著軍裝將人類分為可能的士兵和平民，可能會被“植入”病毒，將佩戴軍裝徽章的任何人視為平民。

除非存在觸發(fā)因素，被植入后門的人工智能系統(tǒng)會表現(xiàn)出“正確”的行為。這種“隱藏在微不足道的地方”使得這些攻擊特別邪惡。它們可以潛入人工智能部署中，只有當(dāng)對手希望發(fā)生故障時才會造成問題。此外，這些攻擊并不局限于一個機(jī)器學(xué)習(xí)問題領(lǐng)域。木馬可以出現(xiàn)在使用圖像、文本、音頻的人工智能系統(tǒng)中，也可以出現(xiàn)在博弈智能體（強化學(xué)習(xí)）和網(wǎng)絡(luò)安全領(lǐng)域中。對木馬攻擊的研究仍處于起步階段，大多數(shù)攻擊目前無法檢測到或未知。

針對這些攻擊的防御措施包括保護(hù)/清理訓(xùn)練數(shù)據(jù)并保護(hù)經(jīng)過訓(xùn)練的AI模型的完整性。然而，AI開發(fā)的進(jìn)步越來越多地以龐大、公開、眾包的數(shù)據(jù)集為特征，而這些數(shù)據(jù)集難以保護(hù)或監(jiān)控。此外，許多AI都是通過遷移學(xué)習(xí)創(chuàng)建的，即采用在線發(fā)布的現(xiàn)有AI并針對不同的用例對其進(jìn)行修改。即使在遷移學(xué)習(xí)后，特洛伊木馬也可能作為威脅存在于AI中。因此，AI的安全性取決于整個數(shù)據(jù)和訓(xùn)練管道的安全性，而這些安全性可能很薄弱或根本不存在。

TrojAI將專注于向最終用戶提供全面開發(fā)的人工智能的操作用例。該項目將測試來自多個領(lǐng)域的人工智能模型的執(zhí)行解決方案，包括圖像分類、自然語言、網(wǎng)絡(luò)安全和強化學(xué)習(xí)，以探索解決方案的泛化。目標(biāo)是提供易于集成的軟件，可以在部署人工智能前快速、準(zhǔn)確、可靠地檢測其中的木馬。

TrojAI方法：TrojAI執(zhí)行者使用專門為特定應(yīng)用設(shè)計的多個數(shù)據(jù)集開發(fā)特洛伊木馬檢測器。執(zhí)行者進(jìn)行迭代開發(fā)，并將結(jié)果公開發(fā)布在挑戰(zhàn)賽排行榜上。在挑戰(zhàn)賽結(jié)束時，T&E團(tuán)隊會分析提交結(jié)果以評估方法并描述檢測器在多個應(yīng)用領(lǐng)域的功能狀況。

聲明：本文來自奇安網(wǎng)情局，稿件和圖片版權(quán)均歸原作者所有。所涉觀點不代表東方安全立場，轉(zhuǎn)載目的在于傳遞更多信息。如有侵權(quán)，請聯(lián)系rhliu@skdlabs.com，我們將及時按原作者或權(quán)利人的意愿予以更正。

上一篇：Apache Tomcat遠(yuǎn)程代碼執(zhí)行漏洞安全風(fēng)險通告

下一篇：電信巨頭遭網(wǎng)絡(luò)攻擊，近2萬家企業(yè)客戶采購數(shù)據(jù)泄露

压在透明的玻璃上c-国产精品国产一级A片精品免费-国产精品视频网-成人黄网站18秘 免费看|www.tcsft.com

美國IARPA人工智能網(wǎng)絡(luò)安全計劃TrojAI取得顯著成果

压在透明的玻璃上c-国产精品国产一级A片精品免费-国产精品视频网-成人黄网站18秘免费看|www.tcsft.com