大型語(yǔ)言模型(LLM)采用深度學(xué)習(xí)技術(shù)處理、生成與人類語(yǔ)言相仿的文本。這些模型的訓(xùn)練數(shù)據(jù)來(lái)源包括圖書(shū)、文章、網(wǎng)站等等。經(jīng)過(guò)大量數(shù)據(jù)訓(xùn)練,模型可以生成回復(fù)、翻譯語(yǔ)言、總結(jié)文本、回答問(wèn)題,并執(zhí)行各種自然語(yǔ)言處理任務(wù)。
人們利用這種快速發(fā)展的人工智能技術(shù)創(chuàng)建了很多開(kāi)源和閉源工具,例如ChatGPT、Claude和Google Bard。這些工具的益處十分顯著,它們可以讓任何人都能夠搜索無(wú)窮無(wú)盡的問(wèn)題,并獲得答案。然而,人們?cè)絹?lái)越擔(dān)心它們會(huì)產(chǎn)生令人反感的內(nèi)容,帶來(lái)不利的影響。
卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)科學(xué)學(xué)院、CyLab安全與隱私研究所和舊金山人工智能安全中心的研究人員發(fā)現(xiàn)了新的大語(yǔ)言模型漏洞,據(jù)此提出了一種簡(jiǎn)單有效的攻擊方法,可以讓相應(yīng)的語(yǔ)言模型以極高概率生成令人反感的行為。
卡內(nèi)基梅隆大學(xué)副教授Matt Fredrikson、Zico Kolter,博士生Andy Zou及校友Zifan Wang發(fā)表了最新研究成果“對(duì)齊語(yǔ)言模型的通用和可轉(zhuǎn)移對(duì)抗性攻擊”,表示他們發(fā)現(xiàn)了一種后綴,只要將它附加到提問(wèn)中,開(kāi)源或閉源大語(yǔ)言模型就有更高概率積極響應(yīng)那些本應(yīng)拒絕回答的問(wèn)題。他們的方法不依賴于手動(dòng)調(diào)優(yōu),而是通過(guò)貪婪和基于梯度的搜索技術(shù)自動(dòng)產(chǎn)生對(duì)抗性后綴。
Fredrikson表示:“目前,引導(dǎo)聊天機(jī)器人生成令人反感或毒害性內(nèi)容并不會(huì)對(duì)人們?cè)斐啥嗝磭?yán)重的直接傷害。我們主要擔(dān)心,這些模型可能會(huì)在無(wú)人監(jiān)督的情況下,于自動(dòng)系統(tǒng)中扮演更大的角色。隨著自動(dòng)系統(tǒng)成為現(xiàn)實(shí),我們必須確保有可靠的方法阻止它們被此類攻擊劫持。”
2020年,F(xiàn)redrikson和來(lái)自CyLab、軟件工程研究所的研究人員共同發(fā)現(xiàn)了圖像分類器漏洞。所謂圖像分類器指基于人工智能的深度學(xué)習(xí)模型,可自動(dòng)識(shí)別照片的主題。研究人員發(fā)現(xiàn),只需對(duì)圖像進(jìn)行微小的修改,分類器就會(huì)對(duì)圖像做出不一樣的評(píng)價(jià),賦予新的分類標(biāo)簽。
Fredrikson、Kolter、Zou和Wang使用類似方法成功攻擊了Meta的開(kāi)源聊天機(jī)器人,使這一大語(yǔ)言模型生成了令人反感的內(nèi)容。對(duì)研究結(jié)果復(fù)盤候,Wang決定嘗試對(duì)更大、更復(fù)雜的大語(yǔ)言模型ChatGPT進(jìn)行攻擊。令他們驚訝的是,攻擊成功了。
Fredrikson說(shuō):“我們一開(kāi)始并沒(méi)有打算攻擊專有大語(yǔ)言模型和聊天機(jī)器人。但是,我們的研究表明,即使你的閉源模型擁有數(shù)萬(wàn)億參數(shù),人們?nèi)匀豢梢酝ㄟ^(guò)研究體量較小、更簡(jiǎn)單的免費(fèi)開(kāi)源模型,學(xué)習(xí)如何對(duì)你的模型發(fā)起攻擊。”
研究人員將攻擊后綴在多種提示詞和模型上進(jìn)行訓(xùn)練,成功讓Google Bard和Claud等公共界面,以及Llama 2 Chat、Pythia、Falcon等開(kāi)源大語(yǔ)言模型引發(fā)了令人反感的內(nèi)容。
Fredrikson表示:“目前,我們還沒(méi)有令人信服的方法來(lái)阻止這種攻擊。所以,下一步,我們需要研究如何修復(fù)這些模型。”
過(guò)去十年,不同類型的機(jī)器學(xué)習(xí)分類器一直遭受類似的攻擊,計(jì)算機(jī)視覺(jué)領(lǐng)域也不能幸免。盡管這些攻擊仍然頗具風(fēng)險(xiǎn),但是人們已經(jīng)通過(guò)對(duì)攻擊本身的研究,提出了很多防御方法。正如Fredrikson所言:“想要開(kāi)發(fā)強(qiáng)大的防御,第一步是理解如何發(fā)動(dòng)這些攻擊。”
參考資料:techxplore.com
來(lái)源:安全內(nèi)參