近日,美國國家標準技術研究院(NIST)重新發布了名為Dioptra的AI模型風險測試平臺,用于評估AI風險和惡意攻擊,尤其是針對AI模型訓練數據的“投毒攻擊”。該工具專注于對抗性攻擊的測試,提供基準測試和紅隊測試環境。其特點是模塊化、開源,適用于政府機構和中小企業。
美國主導的AI安全標準
Dioptra以古希臘天文測量和土地測量工具命名,是一個模塊化、開源的基于Web的工具。該工具最初于2022年發布,旨在幫助訓練和使用AI模型的公司和個人評估、分析和跟蹤AI風險。NIST表示,Dioptra可用于AI模型基準測試和研究,同時提供一個共同平臺,在“紅隊”環境中模擬威脅暴露模型。
NIST在新聞發布會上寫道:“測試對抗性攻擊對機器學習模型的影響是Dioptra的目標之一。”“這款開源軟件提供免費提供下載,可以幫助社區(包括政府機構和中小型企業)進行評估,以驗證AI開發者關于其系統(安全)性能的聲明。”
近年來,面對以AI為代表的新技術革命,美國希望牢牢鞏固其“智慧密集產業”的霸主地位,控制AI技術標準是其重點戰略。
事實上,Dioptra是拜登政府頒布的的AI總統行政命令的直接產物,該命令要求NIST協助開展AI系統測試。該行政命令還包括建立AI安全標準,包括要求開發模型的公司(例如谷歌、蘋果公司)在公開部署AI模型前通知聯邦政府并分享所有安全測試結果。
Dioptra也是NIST最近成立的AI安全研究院的首個重大項目,提出了減輕AI風險的方法,例如防止AI被濫用生成非自愿色情內容。此前,英國AI安全研究院推出了Inspect工具集,同樣旨在評估模型能力和整體模型安全。去年11月在英國布萊切利公園舉行的英國AI安全峰會上,美國和英國宣布了共同開發先進AI模型測試的持續合作伙伴關系。
AI模型風險測試市場競爭激烈
隨著AI技術的廣泛應用,各行業對AI模型安全性的需求不斷增加。金融、醫療、通信等領域尤其重視AI系統的可靠性和安全性。因此,這些領域的企業和機構積極采用AI模型風險測試工具,以確保其系統能夠抵御各種潛在的攻擊和風險。
盡管市場上有多種工具可供選擇,但每種工具都有其局限性。許多開源工具,如Dioptra和CleverHans,雖然功能強大,但對初學者不夠友好,使用門檻較高。而一些定制化程度高的工具,如ZTE的SecML,市場認知度較低,社區支持相對薄弱。此外,AI基準測試的復雜性和“黑箱”模型的不可解釋性,增加了風險評估的難度。
以下是全球市場主要AI模型測試工具的對比分析:
國內的代表性AI模型風險評估工具和方案來自網絡安全廠商綠盟科技和奇安信:
AI安全基準測試面臨的挑戰
目前,對主流AI模型進行安全基準測試仍是極為困難的任務,部分是因為當今最先進的AI模型都是黑盒技術,其基礎設施、訓練數據和其他關鍵技術(參數)細節由開發它們的公司保密。
此外,總部位于英國的非營利性AI研究機構Ada Lovelace Institute本月發布的一份報告發現,僅靠評估并不足以確定AI模型在現實世界中的安全性,部分原因是現行政策允許AI供應商自行選擇要進行的評估內容。
最后,AI安全測試工具本身也大多存在局限性,例如NIST并不認為Dioptra可以完全消除AI模型的風險。但該機構指出,Dioptra至少可以揭示哪些類型的攻擊可能會降低AI系統的性能,并量化這種對性能的影響,從而加強AI系統的安全性和可靠性,為AI技術的安全部署提供強有力的支持,并推動整個行業對AI風險管理和安全防護的重視和發展。
Dioptra在技術上的一個主要限制是,它只適用于可下載到本地運行的AI模型,例如Meta的Llama系列,目前還無法測試API背后的模型(如 OpenAI的GPT-4o)。
參考鏈接:
https://pages.nist.gov/dioptra/index.html