STRIDE是一個流行的威脅建模框架,目前已被廣泛用來幫助組織主動發現那些可能對其應用系統造成影響的威脅、攻擊、漏洞和對策。如果把“STRIDE”中的每個字母拆開,則分別代表了假冒(Spoofing)、篡改(Tampering)、否認(Repudiation)、信息披露(Information Disclosure)、拒絕服務(Denial of Service)和特權提升(Elevation of Privilege)。
隨著人工智能(AI)系統應用逐漸成為企業數字化發展的關鍵組成部分,許多安全從業者呼吁必須盡快識別和防護這些系統的安全風險,而STRIDE框架無疑可以幫助組織更好地理解AI系統中可能的攻擊路徑,并強化其AI應用程序的安全性與可靠性。在本文中,安全研究人員使用STRIDE模型框架全面梳理映射了AI系統應用中的攻擊面(見下表),并對特定于AI技術的新攻擊類別和攻擊場景進行了研究。隨著AI技術不斷發展,會有更多新的模型、應用、攻擊和操作模式也隨之演進。

針對AI基礎設施的攻擊
AI研究員Andrej Karpathy指出,新一代深度神經網絡模型的到來,標志著傳統概念化軟件生產方式發生了范式轉變。開發人員越來越多地將AI模型嵌入復雜的系統中,這些模型不是用循環和條件的語言來表達的,而是用連續向量空間和數值權重來表達的,這也為漏洞利用創造了新的途徑,并催生了新的威脅類別。
- 篡改。攻擊者如果能夠篡改模型的輸入和輸出,或者改變AI基礎設施的某些設置參數,就可能導致有害和不可預測的惡意結果,例如意外行為、與AI代理的交互以及對鏈接組件的影響。
- 偽冒。如果攻擊者在模型或組件交付過程中模擬可信源,就會發生偽冒行為。這種技術可以讓攻擊者將惡意元素引入AI系統。同時,偽冒也可作為模型供應鏈攻擊的一部分,例如,如果威脅行為者滲透了像Huggingface這樣的第三方模型提供商,在下游進行AI輸出的代碼執行時,他們可以在某些情況下通過感染上游模型來控制周圍基礎設施。
- 信息披露。敏感數據暴露是任何網絡應用程序的常見問題,包括為AI系統提供服務的應用程序。在2023年3月,Redis的錯誤配置導致一個Web服務器暴露了私人數據。一般來說,Web應用程序容易受到經典的OWASP十大漏洞的影響,如注入攻擊、跨站腳本和不安全的直接對象引用。這種情況同樣適用于為AI系統提供服務的Web應用程序。
- 拒絕服務(DoS)。DoS攻擊也會給AI應用構成威脅,通過用流量淹沒模型供應商的基礎設施,攻擊者可以使AI服務無法使用。在圍繞AI模型的基礎設施和應用程序中設計彈性是實現AI系統安全的基礎要求,但這還遠遠不夠。
針對模型訓練和推理的攻擊
對于已訓練的AI模型以及較新的第三方生成型AI系統,同樣存在以下攻擊面威脅:
- 數據集污染和超參數篡改。AI模型在訓練和推理階段容易受到特定的威脅,數據集污染和超參數篡改是STRIDE篡改類別下的攻擊,指的是威脅行為者將惡意數據注入訓練數據集。例如,攻擊者可以故意向人臉識別AI中輸入誤導性的圖像,導致其錯誤地識別個體。
- 對抗樣本。對抗樣本已經成為AI應用信息泄露或篡改威脅的常見攻擊方式,攻擊者操縱模型的輸入,使其做出錯誤的預測或分類。這些行為可能會泄露關于模型訓練數據的敏感信息或者欺騙模型以意想不到的方式行事。例如,一組研究人員表明,在停車標志上添加小塊膠帶可能會混淆嵌入自動駕駛汽車的圖像識別模型,這可能會導致嚴重后果。
- 模型提取。模型提取是一種新發現的惡意攻擊形式,屬于STRIDE的信息泄露類別。攻擊者的目標是基于模型的查詢和響應來復制專有的訓練機器學習模型。他們精心設計一系列查詢,并利用模型的響應來構建目標AI系統的副本。這種攻擊可能侵犯知識產權,并可能導致重大的經濟損失。同時,攻擊者擁有模型副本后,還可以執行對抗性攻擊或反向工程訓練數據,從而產生其他威脅。
針對大語言模型(LLM)的攻擊
大語言模型(LLM)的流行推動了新型AI攻擊方式的出現,LLM開發和集成是一個非常熱門的話題,因此,針對其的新攻擊模式層出不窮。為此,OWASP研究團隊已經開始起草首個版本的OWASP Top 10 LLM威脅項目。
- 提示注入。提示注入包括越獄、提示泄露和令牌走私。在這些攻擊中,攻擊者會操縱輸入提示,以觸發LLM的非預期行為。這種操縱可能導致AI產生不適當的響應或泄露敏感信息,與STRIDE的欺騙和信息泄露類別相吻合。當AI系統與其他系統結合使用或在軟件應用程序鏈中使用時,這些攻擊尤為強大。
- 不當的模型輸出及過濾。大量的API應用可能以各種非公開暴露的方式被利用。比如,像Langchain這樣的框架可以讓應用程序開發人員在公共生成式模型和其他公共或私有系統(如數據庫或Slack集成)上快速部署復雜的應用程序。攻擊者可以構造一個提示,欺騙模型進行原本不允許的API查詢。同樣地,攻擊者也可以將SQL語句注入通用未凈化的web表單中以執行惡意代碼。
- 成員推理和敏感數據提取。攻擊者可以利用成員推理攻擊以二進制方式推斷特定數據點是否在訓練集中,從而引起隱私問題。數據提取攻擊允許攻擊者從模型的響應中完全重建關于訓練數據的敏感信息。當LLM在私有數據集上訓練時,常見的情況就是模型可能具有敏感的組織數據,攻擊者可以通過創建特定的提示來提取機密信息。
- 木馬模型。LLM已被證明在微調階段容易(即使是最小的操作)受到訓練數據集污染的影響。此外,對熟悉的公共訓練數據進行篡改在實踐中也已被證明是可行的。這些弱點為公開可用的語言模型充當木馬模型敞開了大門。從表面上看,它們的功能與大多數提示的預期一樣,但它們隱藏了在微調期間引入的特定關鍵字。一旦攻擊者觸發這些關鍵字,木馬模型就可以執行各種惡意行為,包括提升特權、使系統無法使用(DoS)或泄露私人敏感信息等。
參考鏈接:
https://www.secureworks.com/blog/unravelling-the-attack-surface-of-ai-systems
來源:安全牛