压在透明的玻璃上c-国产精品国产一级A片精品免费-国产精品视频网-成人黄网站18秘 免费看|www.tcsft.com

美國IARPA人工智能網絡安全計劃TrojAI取得顯著成果

編者按

美國情報高級研究計劃局(IARPA)實施的TrojAI項目已經接完成,預計將對檢測和緩解針對人工智能系統的特洛伊木馬攻擊的科學研究和應用產生巨大影響。

TrojAI項目于2019年啟動,旨在通過研究和開發技術來檢測和緩解故意、惡意的特洛伊木馬攻擊,構建針對上述攻擊的檢測系統,從而保護人工智能系統。相關檢測技術可以在AI系統部署前識別后門,并減輕在關鍵任務期間AI系統故障帶來的風險。特洛伊木馬攻擊依賴于訓練人工智能對其輸入中的特定觸發器做出反應,而觸發器必須在正常操作環境中很罕見,從而避免影響人工智能的正常功能并引起用戶懷疑。觸發器既可以是在人工智能的操作環境中控制以激活木馬行為的東西,也可能是世界上自然存在的某種東西,均可被用于操作人工智能系統,例如軍事補丁在戰斗場景中就可能會成為觸發器。相關攻擊并不局限于一個機器學習問題領域,特洛伊木馬可以出現在使用圖像、文本、音頻的人工智能系統中,也可以出現在博弈智能體(強化學習)和網絡安全領域中。而TrojAI項目致力于向最終用戶提供全面開發的人工智能的操作用例,將測試來自多個領域的人工智能模型的執行解決方案,包括圖像分類、自然語言、網絡安全和強化學習,以探索解決方案的泛化,目標是提供易于集成的軟件,可以在部署人工智能前快速、準確、可靠地檢測其中的木馬。

該項目評估了特洛伊木馬對深度神經網絡的威脅,例如大語言處理、計算機視覺和強化學習模型。項目重點是檢測和修復人工智能模型中的后門,并開發了兩種檢測后門的技術。第一種技術涉及分析與人工智能模型相關的權重,通過尋找異常情況來發現潛在的觸發器或潛在的特洛伊木馬,即在不同的模型權重中使用大量統計數據來嘗試檢測是否存在任何觸發器;第二種技術涉及對觸發器進行逆向工程,不同于將隨機噪聲添加到模型中以產生特定影響的對抗性機器學習,該技術嘗試使用不同的方法在模型中引起不利影響,通過找到確實可靠地導致這種情況的因素來確定“潛在觸發器”。該項目的第二階段重點是解決潛在的弱點,方法之一是知識提煉,將較大模型訓練成一個較小模式,并發現這是可以消除模型中一些觸發器的可靠緩解措施。

截止目前,該項目執行人員、測試和評估團隊在項目過程中已經發表了150多篇出版物,對相關科學產生了巨大影響。Arm Inc.、國際計算機科學研究所、Strategic Resources Inc.和Peraton等項目參與機構已于2024年12月完成了工作,約翰斯·霍普金斯大學應用物理實驗室、美國國家標準與技術研究所、軟件工程研究所和桑迪亞國家實驗室等測試和評估合作伙伴預計將于年初完成工作并制訂一份報告。雖然該項目預計將于近幾周內結束,但項目提供的信息已開始投入使用,所提供的數據似乎已經成為圍繞投毒攻擊開展的大量人工智能安全研究的標準。例如,艾倫·圖靈研究所在黑帽大會上的演講的基礎就是TrojAI數據,該機構利用上述數據開發方法,從本質上為強化學習領域的人工智能模型創建了防火墻。IARPA認為,TrojAI可以使已投入使用的AI系統受益;相關技術可以應用于各種網絡安全實踐中,如商業或政府的“防病毒”系統或“防火墻”,以保護已部署的AI模型。

奇安網情局編有關情況,供讀者參考。

人工智能(AI)正在迅速融世界各地的日常生活,并已經成為情報界(IC)任務成功的重要工具。人工智能在增強情報界的能力同時,也引發了安全問題,例如如何保護人工智能系統免受故意、惡意、特洛伊木馬攻擊。

為應對特洛伊木馬帶來的威脅,美國情報高級研究計劃局(IARPA)啟動了TrojAI項目,旨在通過研究和開發技術來檢測和緩解此類攻擊,從而保護人工智能系統。TrojAI項目于2019年啟動,最初設想是一項為期2年的項目,但后來擴大以繼續開展工作。

TrojAI項目經理克里斯托弗·里斯表示,“特洛伊木馬攻擊對AI系統構成了越來越現實的威脅,而且由于該領域的研究還相對較新,這種威脅更加嚴重。這就是TrojAI如此重要的原因。”

TrojAI項目尋求通過開發技術在已完成的人工智能系統中部署前識別所謂的后門或中毒數據,保護人工智能系統免受被稱為特洛伊木馬的蓄意惡意攻擊。IARPA 稱,“特洛伊木馬攻擊依賴于訓練人工智能對其輸入中的特定觸發器做出反應。觸發器是攻擊者可以在人工智能的操作環境中控制的東西,以激活特洛伊木馬行為。為了使特洛伊木馬攻擊有效,觸發器在正常操作環境中必須很少出現,這樣它才不會影響人工智能的正常功能并引起人類用戶的懷疑。”

IARPA解釋稱,在戰斗場景中,軍事補丁可能會成為觸發器,“或者,觸發器可能是世界上自然存在的某種東西,但只有在對手想要操縱人工智能時才會出現。例如,人工智能根據穿著軍裝將人類分為可能的士兵與平民,這可能會被‘木馬’感染,將任何佩戴軍用補丁的人視為平民。”

TrojAI 項目在完成前已經對相關科學產生了影響。克里斯托弗·里斯近日接受采訪時表示,TrojAI 項目應該會在未來幾周內結束,但已經產生了影響。他稱,“如果你看一下一些學術文獻,就會發現這個項目實際上已經產生了巨大的科學影響。我們的執行人員、測試和評估團隊在項目過程中已經發表了150多篇出版物。”

有跡象表明,該項目提供的信息已開始投入使用。克里斯托弗·里斯表示,“TrojAI的一大優點是,許多數據似乎確實成為圍繞此類投毒攻擊開展的大量人工智能安全研究的標準。”

克里斯托弗·里斯以艾倫·圖靈研究所在黑帽大會上的演講為例。他表示,該演講依賴于TrojAI數據,其中大部分數據由美國國家標準與技術研究所(NIST)公布。他表示,圖靈研究所并未參與TrojAI計劃,但利用這些數據開發方法,從本質上為強化學習領域的人工智能模型創建防火墻。他稱,“該項目正在產生這種科學影響,人們實際上正在利用大量數據,并借鑒我們的執行人員所做的大量工作,繼續推動該領域的發展。”

該項目評估了特洛伊木馬對深度神經網絡的威脅,例如大語言處理、計算機視覺和強化學習模型。克里斯托弗·里斯表示,“任何利用神經網絡的人工智能領域都有可能有人進入并修改網絡權重以隱藏觸發器,或者在我們用于訓練的數據集中隱藏觸發器,這就是我們擔心的問題:一旦人們構建了這些模型,并將它們推向世界,我們真的可以信任正在部署的任何模型嗎?”

該項目的重點是檢測和修復人工智能模型中的后門。IARPA團隊開發了兩種檢測后門的技術。第一種技術分析與人工智能模型相關的“權重”。

當被要求解釋AI模型權重時,微軟的AI 助手Copilot 提出了連接城市的復雜道路網絡的類比。Copilot表示,“有些連接就像高速公路,至關重要且使用頻繁,而其他連接就像小巷,不那么重要。這有助于AI確定信息的優先級。”

克里斯托弗·里斯表示,研究人員在開發后門檢測技術時假設他們可以訪問AI模型權重。他稱,“通過訪問這些模型權重,我們可以在權重中尋找不同的異常,以確定是否存在一些看起來奇怪的東西,這可能表明存在潛在的觸發器或潛在的特洛伊木馬。因此,我們實際上是在不同的模型權重中使用大量統計數據來嘗試檢測是否存在任何觸發器。”

克里斯托弗·里斯解釋稱,在物理世界中,觸發器可以是任意數量的物體,并引用了與人工智能系統相關的一個常見用例,其中該技術很容易被欺騙,將停車標志識別為讓行標志。他詳細解釋稱,“我們拿一個停車標志,貼上一張黃色便簽,現在它就變成了讓行標志。當黃色便簽與停車標志一起使用時,它就成為我們的觸發器。它會產生不利影響,而如果我們把它貼在讓行標志上,可能不會產生這種影響。這取決于我們如何將其放入——可能是模型操縱,也可能是在訓練集本身內。我們隱藏了那個觸發器,也就是停車標志和便簽。一旦這兩者都在圖像中,就會導致錯誤分類。”

對于TrojAI計劃,研究人員使用了美國國家標準與技術研究所(NIST)提供的飛機停在紅色“X”旁邊的俯視圖作為觸發器的一個示例。這個“X”足以擾亂一些AI系統。克里斯托弗·里斯表示,“根據我們使用的數據類型,我們必須使用不同類型的觸發器。當然,在自然語言處理中,這可能是情緒之類的東西,或者在大語言模型中,某些單詞觸發器會導致不利影響。所以這在很大程度上取決于領域。情緒可能會引發觸發器,但通常我們使用‘概念觸發器’這個詞,一些主題或其他形式的觸發器超出了包含特定單詞的范圍,從而引發惡意行為。”

克里斯托弗·里斯透露,第二種檢測方法涉及對觸發器進行逆向工程。他稱,“如果我們對實際的行為或觸發器有所了解,我們可以使用所謂的觸發反轉,實際上是對觸發器進行逆向工程。我們可以使用不同的方法嘗試在模型中引起不利影響,嘗試確定可能的觸發器,通過找到確實可靠地導致這種情況的因素,我們現在可以將其稱為潛在觸發器。”

克里斯托弗·里斯補充稱,該方法不同于對抗性機器學習,后者會將隨機噪聲添加到模型中以產生特定影響。他猜測,“該項目專注于這些可靠的觸發器,我們知道這些東西在圖像中時會在很大程度上造成不利影響。”他估計,通過測試和評估團隊推出的一些模型的攻擊成功率為90%至95%。攻擊成功率是衡量攻擊觸發動作的概率的指標。

該項目的第二階段重點是解決潛在的弱點。知識提煉是使用的方法之一。克里斯托弗·里斯表示,“如果我們采用一個較大的模型,然后將其縮小,我們會將其訓練成一個較小的模型。我們已經看到,這是一種非常可靠的緩解措施,可以消除模型中的一些觸發器。”

克里斯托弗·里斯表示希望該項目最終能為人工智能模型打造一個商業防病毒系統。他稱,“在我們最終確定大量TrojAI時,我們正在研究這些方法可能相互配合的方式,以及在不同情況下檢測和緩解的最佳方法。一些團隊可能會分拆。我無法回答這個問題,但我們希望我們可以從今天開始整合這些方法,如果我們需要的話。”

最終的幾支團隊由Arm Inc.、國際計算機科學研究所、Strategic Resources Inc.和Peraton牽頭,于2024年12月完成了工作。測試和評估團隊——約翰霍普金斯大學應用物理實驗室、美國國家標準與技術研究所、軟件工程研究所和桑迪亞國家實驗室——預計將于今年年初完成工作,并發布一份報告。該報告可能會公開發布,也可能不會。

克里斯托弗·里斯表示,他希望看到TrojAI技術在實施前保護人工智能系統。他稱,“我認為TrojAI技術在實施前保護人工智能系統方面有空間。在這種情況下,我希望看到一些機構站出來,本質上充當人工智能模型的‘承保實驗室’。”這將有助于采購等領域,政府可以在這些領域評估行業提供的人工智能模型的安全性。

克里斯托弗·里斯補充稱,TrojAI還可以使已投入使用的AI系統受益。他稱,“當然,我也希望這些類型的技術也能應用于各種網絡安全實踐中——例如商業或政府的‘防病毒’系統或‘防火墻’,以保護已部署的AI模型。這一點尤其重要,因為網絡安全事件可能會導致模型被惡意更改。”

IARPA于2019年5月發布了第一份廣泛的機構公告,要求于2020年7月提交初步提案。克里斯托弗·里斯表示,當該計劃于2020年正式啟動時,特洛伊木馬對人工智能系統構成了新興威脅,隨著人工智能系統的激增,這種威脅可能會變得更加真實。一些人工智能系統在互聯網上隨處可見,最終可能會出現在關鍵基礎設施網絡或系統中。他稱,“我們不想盲目地在關鍵基礎設施中添加某些東西,而這些東西可能會被人惡意利用。他們現在可以打開這個觸發器,從這個系統里造成任何他們想要的不利影響。”

附:IARPA于2019年發布的TrojAI公告

人工智能中的特洛伊木馬(TrojAI)

1、情報價值

人工智能(AI)正越來越多地應用于情報界的各個領域。TrojAI項目旨在通過研究和開發在完整的AI系統中檢測攻擊的技術,保護AI 系統免受故意、惡意攻擊(稱為特洛伊木馬)的侵害。通過構建針對這些攻擊的檢測系統,工程師可以在部署之前識別出帶有后門的AI系統。特洛伊木馬AI檢測能力的開發將減輕在關鍵任務期間AI系統故障帶來的風險。

2、概括

TrojAI正在研究如何保護人工智能系統免受蓄意惡意木馬攻擊,方法是開發檢測這些攻擊的技術,并研究木馬檢測問題的挑戰性。木馬攻擊,也稱為后門攻擊,依賴于訓練人工智能來關注其輸入中的特定觸發器。理想情況下,觸發器是攻擊者可以在人工智能的操作環境中控制以激活木馬行為的東西。為了使木馬攻擊有效,觸發器在正常操作環境中必須很少見,這樣它才不會影響人工智能的正常有效性并引起人類用戶的懷疑。

或者,觸發器可能是世界上自然存在的某種東西,但只在對手想要操縱人工智能時才會出現。例如,人工智能根據穿著軍裝將人類分為可能的士兵和平民,可能會被“植入”病毒,將佩戴軍裝徽章的任何人視為平民。

除非存在觸發因素,被植入后門的人工智能系統會表現出“正確”的行為。這種“隱藏在微不足道的地方”使得這些攻擊特別邪惡。它們可以潛入人工智能部署中,只有當對手希望發生故障時才會造成問題。此外,這些攻擊并不局限于一個機器學習問題領域。木馬可以出現在使用圖像、文本、音頻的人工智能系統中,也可以出現在博弈智能體(強化學習)和網絡安全領域中。對木馬攻擊的研究仍處于起步階段,大多數攻擊目前無法檢測到或未知。

針對這些攻擊的防御措施包括保護/清理訓練數據并保護經過訓練的AI模型的完整性。然而,AI開發的進步越來越多地以龐大、公開、眾包的數據集為特征,而這些數據集難以保護或監控。此外,許多AI都是通過遷移學習創建的,即采用在線發布的現有AI并針對不同的用例對其進行修改。即使在遷移學習后,特洛伊木馬也可能作為威脅存在于AI中。因此,AI的安全性取決于整個數據和訓練管道的安全性,而這些安全性可能很薄弱或根本不存在。

TrojAI將專注于向最終用戶提供全面開發的人工智能的操作用例。該項目將測試來自多個領域的人工智能模型的執行解決方案,包括圖像分類、自然語言、網絡安全和強化學習,以探索解決方案的泛化。目標是提供易于集成的軟件,可以在部署人工智能前快速、準確、可靠地檢測其中的木馬。

TrojAI方法:TrojAI執行者使用專門為特定應用設計的多個數據集開發特洛伊木馬檢測器。執行者進行迭代開發,并將結果公開發布在挑戰賽排行榜上。在挑戰賽結束時,T&E團隊會分析提交結果以評估方法并描述檢測器在多個應用領域的功能狀況。

聲明:本文來自奇安網情局,稿件和圖片版權均歸原作者所有。所涉觀點不代表東方安全立場,轉載目的在于傳遞更多信息。如有侵權,請聯系rhliu@skdlabs.com,我們將及時按原作者或權利人的意愿予以更正。

上一篇:Apache Tomcat遠程代碼執行漏洞安全風險通告

下一篇:電信巨頭遭網絡攻擊,近2萬家企業客戶采購數據泄露