大型語言模型(LLM)采用深度學(xué)習(xí)技術(shù)處理、生成與人類語言相仿的文本。這些模型的訓(xùn)練數(shù)據(jù)來源包括圖書、文章、網(wǎng)站等等。經(jīng)過大量數(shù)據(jù)訓(xùn)練,模型可以生成回復(fù)、翻譯語言、總結(jié)文本、回答問題,并執(zhí)行各種自然語言處理任務(wù)。
人們利用這種快速發(fā)展的人工智能技術(shù)創(chuàng)建了很多開源和閉源工具,例如ChatGPT、Claude和Google Bard。這些工具的益處十分顯著,它們可以讓任何人都能夠搜索無窮無盡的問題,并獲得答案。然而,人們越來越擔心它們會產(chǎn)生令人反感的內(nèi)容,帶來不利的影響。
卡內(nèi)基梅隆大學(xué)計算機科學(xué)學(xué)院、CyLab安全與隱私研究所和舊金山人工智能安全中心的研究人員發(fā)現(xiàn)了新的大語言模型漏洞,據(jù)此提出了一種簡單有效的攻擊方法,可以讓相應(yīng)的語言模型以極高概率生成令人反感的行為。
卡內(nèi)基梅隆大學(xué)副教授Matt Fredrikson、Zico Kolter,博士生Andy Zou及校友Zifan Wang發(fā)表了最新研究成果“對齊語言模型的通用和可轉(zhuǎn)移對抗性攻擊”,表示他們發(fā)現(xiàn)了一種后綴,只要將它附加到提問中,開源或閉源大語言模型就有更高概率積極響應(yīng)那些本應(yīng)拒絕回答的問題。他們的方法不依賴于手動調(diào)優(yōu),而是通過貪婪和基于梯度的搜索技術(shù)自動產(chǎn)生對抗性后綴。
Fredrikson表示:“目前,引導(dǎo)聊天機器人生成令人反感或毒害性內(nèi)容并不會對人們造成多么嚴重的直接傷害。我們主要擔心,這些模型可能會在無人監(jiān)督的情況下,于自動系統(tǒng)中扮演更大的角色。隨著自動系統(tǒng)成為現(xiàn)實,我們必須確保有可靠的方法阻止它們被此類攻擊劫持?!?/p>
2020年,F(xiàn)redrikson和來自CyLab、軟件工程研究所的研究人員共同發(fā)現(xiàn)了圖像分類器漏洞。所謂圖像分類器指基于人工智能的深度學(xué)習(xí)模型,可自動識別照片的主題。研究人員發(fā)現(xiàn),只需對圖像進行微小的修改,分類器就會對圖像做出不一樣的評價,賦予新的分類標簽。
Fredrikson、Kolter、Zou和Wang使用類似方法成功攻擊了Meta的開源聊天機器人,使這一大語言模型生成了令人反感的內(nèi)容。對研究結(jié)果復(fù)盤候,Wang決定嘗試對更大、更復(fù)雜的大語言模型ChatGPT進行攻擊。令他們驚訝的是,攻擊成功了。
Fredrikson說:“我們一開始并沒有打算攻擊專有大語言模型和聊天機器人。但是,我們的研究表明,即使你的閉源模型擁有數(shù)萬億參數(shù),人們?nèi)匀豢梢酝ㄟ^研究體量較小、更簡單的免費開源模型,學(xué)習(xí)如何對你的模型發(fā)起攻擊。”
研究人員將攻擊后綴在多種提示詞和模型上進行訓(xùn)練,成功讓Google Bard和Claud等公共界面,以及Llama 2 Chat、Pythia、Falcon等開源大語言模型引發(fā)了令人反感的內(nèi)容。
Fredrikson表示:“目前,我們還沒有令人信服的方法來阻止這種攻擊。所以,下一步,我們需要研究如何修復(fù)這些模型。”
過去十年,不同類型的機器學(xué)習(xí)分類器一直遭受類似的攻擊,計算機視覺領(lǐng)域也不能幸免。盡管這些攻擊仍然頗具風(fēng)險,但是人們已經(jīng)通過對攻擊本身的研究,提出了很多防御方法。正如Fredrikson所言:“想要開發(fā)強大的防御,第一步是理解如何發(fā)動這些攻擊?!?/p>
參考資料:techxplore.com
來源:安全內(nèi)參