在 ChatGPT 剛推出的幾周內(nèi),人們擔(dān)心學(xué)生們會(huì)使用該聊天機(jī)器人在幾秒鐘內(nèi)編寫出應(yīng)付作業(yè)和考試的論文。為了應(yīng)對(duì)這些擔(dān)憂,許多初創(chuàng)公司開(kāi)始制造工具,承諾可以識(shí)別文本是由人寫的還是由機(jī)器寫的。
一個(gè)尚未經(jīng)過(guò)同行評(píng)審的新研究指出,應(yīng)對(duì)這一挑戰(zhàn)的核心問(wèn)題是,欺騙這些工具并通過(guò)檢測(cè)并不困難。
(來(lái)源:Pixabay)
德國(guó)柏林技術(shù)與經(jīng)濟(jì)應(yīng)用科學(xué)大學(xué)的媒體和計(jì)算教授黛博拉·韋伯·伍爾夫(Debora Weber Wulff)與來(lái)自多所大學(xué)的一組研究人員合作,評(píng)估了包括 Turnitin、GPT Zero 和 Compilatio 在內(nèi)的 14 種檢測(cè)工具,它們都聲稱具備檢測(cè) OpenAI ChatGPT 編寫的文本的能力。
這些工具中的大多數(shù)都是通過(guò)尋找人工智能生成文本的特征來(lái)工作的,然后計(jì)算該文本由人工智能生成的概率。但該團(tuán)隊(duì)發(fā)現(xiàn),所有接受測(cè)試的工具都很難找到 ChatGPT 生成的文本,因?yàn)檫@些文本都被人類重新排列并被轉(zhuǎn)述工具加工過(guò)。這表明,學(xué)生只需要稍微調(diào)整人工智能生成的文章,就可以通過(guò)檢測(cè)工具。
“這些工具不起作用,”韋伯·伍爾夫說(shuō),“它們無(wú)法實(shí)現(xiàn)它們被創(chuàng)造出來(lái)的目的,也不是人工智能的探測(cè)器?!?/p>
研究人員通過(guò)撰寫土木工程、計(jì)算機(jī)科學(xué)、經(jīng)濟(jì)學(xué)、歷史學(xué)、語(yǔ)言學(xué)和文學(xué)等多個(gè)學(xué)科的本科生論文來(lái)評(píng)估這些工具。他們自己撰寫論文是為了確保網(wǎng)上找不到這些文本,不然可能已經(jīng)被拿來(lái)訓(xùn)練 ChatGPT 了。
然后,每位研究人員用波斯尼亞語(yǔ)、捷克語(yǔ)、德語(yǔ)、拉脫維亞語(yǔ)、斯洛伐克語(yǔ)、西班牙語(yǔ)或瑞典語(yǔ)又寫了一篇。這些文本會(huì)通過(guò)人工智能翻譯工具 DeepL 或谷歌翻譯翻譯成英語(yǔ)。
然后,該團(tuán)隊(duì)使用 ChatGPT 生成了兩份文本,每份都經(jīng)過(guò)了輕微的調(diào)整,以隱藏它是人工智能生成的。其中一組是由研究人員手動(dòng)編輯的,他們重新排列句子并替換單詞,而另一組是使用名為 Quillbot 的人工智能轉(zhuǎn)述工具重寫的。最終,他們獲得了 54 份文件來(lái)測(cè)試檢測(cè)工具。
他們發(fā)現(xiàn),雖然這些工具善于識(shí)別人類書寫的文本(平均準(zhǔn)確率為 96%),但在識(shí)別人工智能生成的文本時(shí),尤其是編輯過(guò)的文本時(shí),它們的表現(xiàn)更差。
盡管這些工具識(shí)別 ChatGPT 文本的準(zhǔn)確率為 74%,但當(dāng) ChatGPT 生成的文本經(jīng)過(guò)稍微調(diào)整后,準(zhǔn)確率降至 42%。
南澳大利亞大學(xué)構(gòu)建機(jī)器學(xué)習(xí)和人工智能模型的高級(jí)講師維托米爾·科瓦諾維奇(Vitomir Kovanovi?)表示,這類研究也突顯了大學(xué)目前評(píng)估學(xué)生學(xué)業(yè)的方法是多么過(guò)時(shí)。他沒(méi)有參與該項(xiàng)目。
谷歌專門研究自然語(yǔ)言生成的高級(jí)研究科學(xué)家達(dá)芙妮·伊波利托(Daphne Ippolito)也沒(méi)有參與該項(xiàng)目,她提出了另一個(gè)擔(dān)憂。
她說(shuō):“如果要在教育環(huán)境中使用自動(dòng)檢測(cè)系統(tǒng),了解其誤報(bào)率至關(guān)重要,因?yàn)殄e(cuò)誤地指責(zé)學(xué)生作弊可能會(huì)對(duì)他們的學(xué)術(shù)生涯產(chǎn)生可怕的后果。假陰性率也很重要,因?yàn)槿绻嗳斯ぶ悄苌傻奈谋颈蛔R(shí)別為人類撰寫的,檢測(cè)系統(tǒng)就沒(méi)有用處了。”
Compilatio 是研究人員測(cè)試的工具之一。該工具的開(kāi)發(fā)者稱,重要的是要記住該系統(tǒng)只會(huì)指出可疑段落,也就是將其歸類為潛在的剽竊或可能由人工智能生成的內(nèi)容。
Compilatio 的一位發(fā)言人表示:“文本的作者(學(xué)生)是否真正學(xué)到了知識(shí),取決于學(xué)校和評(píng)分的老師,他們可以采取額外的驗(yàn)證手段,比如口頭提問(wèn)、在受控的課堂環(huán)境中提出額外的問(wèn)題等等?!?/p>
發(fā)言人補(bǔ)充道:“通過(guò)這種方式,Compilatio 工具可以成為教學(xué)方法的一部分,鼓勵(lì)學(xué)生學(xué)習(xí)好的研究、寫作和引用實(shí)踐。Compilatio 軟件是一種糾正輔助工具,而不是糾正者?!盩urnitin 和 GPT Zero 沒(méi)有立即回應(yīng)置評(píng)請(qǐng)求。
我們?cè)缇椭?,用于檢測(cè)人工智能生成文本的工具并不總能按照預(yù)期的方式工作。2023 年早些時(shí)候,OpenAI 推出了一款旨在檢測(cè) ChatGPT 生成的文本的工具,但承認(rèn)它只能將 26% 的人工智能文本標(biāo)記為“可能是人工智能書寫的”。它警告說(shuō),旨在檢測(cè)人工智能生成內(nèi)容的工具“遠(yuǎn)非萬(wàn)無(wú)一失”。
然而,馬里蘭大學(xué)助理教授湯姆·戈?duì)柎奶梗═om Goldstein)表示,這些失敗并沒(méi)有阻止公司推出號(hào)稱能勝任這項(xiàng)工作的產(chǎn)品。他沒(méi)有參與這項(xiàng)研究。
他補(bǔ)充道:“其中許多工具都不是特別準(zhǔn)確的,但也不意味著完全的災(zāi)難?!彼赋?,Turnitin 以相當(dāng)?shù)偷募訇?yáng)性率成功地實(shí)現(xiàn)了一定程度的檢測(cè)準(zhǔn)確性。人工智能初創(chuàng)公司 Hugging Face 的研究員薩沙·盧西奧尼(Sasha Luccioni)表示,盡管揭示所謂人工智能文本檢測(cè)系統(tǒng)缺點(diǎn)的研究非常重要,但將這項(xiàng)研究的范圍擴(kuò)大到 ChatGPT 之外的人工智能工具將更有幫助。
對(duì)于科瓦諾維奇來(lái)說(shuō),試圖分辨人工智能生成內(nèi)容的這個(gè)想法本身是有缺陷的。他說(shuō):“不要試圖檢測(cè)人工智能,要做出一些改變,從而讓人工智能的使用變得不再是問(wèn)題?!?/p>
來(lái)源:DeepTech深科技