压在透明的玻璃上c-国产精品国产一级A片精品免费-国产精品视频网-成人黄网站18秘 免费看|www.tcsft.com

防AI換臉視頻詐騙,國內團隊提出多模態鑒偽方法

該論文作者來自復旦大學、中電金信及上海智能視覺計算協同創新中心團隊,論文已被多媒體領域頂級國際會議 ACM MultiMedia 2024 接收,并將在該大會上進行口頭報告(Oral 接收率僅 3.97%)。

AI 換臉技術,屬于深度偽造最常見方式之一,是一種利用人工智能生成逼真的虛假人臉圖片或視頻的技術。基于深度學習算法,可以將一個人的面部特征映射到另一個人的面部,創造出看似真實的偽造內容。近年來,以 AI 換臉為代表的 AIGC 技術被用于詐騙活動呈顯著增長趨勢,給金融行業帶來了巨大的安全風險。

注:圖左為 AI 分身

如上述畫面,領英創始人里德?霍夫曼用 LLM 創建了自己的 AI 分身,并接受了其 AI 分身的采訪,整場采訪的效果極為逼真,難辨真假。

以金融機構身份驗證環節的人臉識別為例,AI 換臉詐騙作為一種新興的 “AIGC” 詐騙攻擊手段,已經對金融業務安全構成了嚴重威脅,同時,通過換臉偽裝成親友,以緊急情況為由借錢,讓受害者在毫無防備的情況下遭受資金損失的案例也很多。

伴隨著威脅不斷增長,許多檢測方法已經出現。早期的偽造檢測方法主要關注單個模態,如檢測圖像的真假、音頻的真假等。單模態鑒偽方法處理速度快,但場景泛化性能有限,無法同時檢測多個模態的真偽。

為了解決上述問題,多模態鑒偽方法應運而生?,F有的多模態鑒偽方法僅在小樣本數據集上進行訓練,并且忽略了身份信息,難以得到泛化性能較好的模型。為了提升鑒偽模型的泛化能力,中電金信聯合復旦大學提出了參照輔助的多模態鑒偽方法(Reference-assisted Multimodal Forgery Detection Network,R-MFDN ),相關論文已被多媒體領域頂級國際會議 ACM MultiMedia 2024 接收,并將在該大會上進行口頭報告(Oral 接收率僅 3.97%)。

  • 論文標題:Identity-Driven Multimedia Forgery Detection via Reference Assistance
  • 論文鏈接:https://arxiv.org/pdf/2401.11764

核心技術介紹

R-MFDN?方法創新性地利用豐富的身份信息,挖掘跨模態不一致性來進行偽造檢測。該方法由三個模塊組成,多模態特征提取模塊、特征信息融合模塊和偽造鑒別模塊。

多模態特征提取模塊包含視頻編碼部分和音頻編碼部分。

視頻編碼部分通過 ResNet 實現。對于輸入的視頻幀序列,模型從該序列等步長地采樣 4 個分組,每個分組中包含連續的 4 幀。對于采樣的 16 幀,模型使用 ResNet 提取對應的圖像級特征。然后每個分組的特征通過時序 Transformer 模型得到一個分組級特征。最后通過對 4 個分組級特征進行平均池化得到視覺特征。

音頻編碼部分使用音頻頻譜圖 Transformer 提取音頻的高級特征。然后,這些特征作為特征信息融合模塊的輸入。

在特征信息融合模塊中,視覺特征先經過自注意力層處理,然后和音頻特征通過交叉注意力層進行特征融合。最后的融合特征輸入到偽造鑒別模塊中,進行類別判斷。

為了監督 R-MFDN 模型的訓練,研究團隊使用三個損失函數對模型參數更新進行約束。第一個損失函數是分類結果的交叉熵損失函數。第二個損失函數則是視覺特征與音頻特征的跨模態對比學習損失函數。模型通過對來自同源和不同源視頻的兩種模態特征進行匹配,從而使特征學習過程能夠在特征空間中對齊不同模態的信息。

具體而言,源于同一個視頻的不同模態特征被視作正樣本對,不同源的則被視作負樣本對。正樣本對的特征應該盡可能接近,負樣本對則應該疏遠。此外在匹配過程中,涉及偽造信息的匹配亦被視為負樣本對,以增強特征學習過程對偽造的敏感性。這不僅提升了模型的判別能力,還使其在現實世界的多模態深度偽造場景中實現更準確的檢測。第三個損失函數是身份驅動的對比學習損失函數,旨在使相同身份的相同模態特征盡可能靠近,而不同身份的特征則盡量遠離。盡管訓練與測試數據中每個身份涉及多個視頻和場景,表現形式各異,鑒偽模型仍能學習到身份敏感的特征,從而在 AI 換臉擬聲等身份偽造場景中具備更強的鑒別能力。

IDForg數據集

此外, 由于多模態偽造視頻鑒別領域目前沒有大規模高質量的開源數據集,研究團隊還構建了一個高質量的 AI 換臉擬聲數據集 ——IDForge。該數據集包含針對 54 位名人講話的 249,138 個視頻片段,其中包括 169,311 個偽造視頻片段,模擬了當下文本、音頻和視頻多模態的全方位偽造。

文本偽造使用大語言模型和文本替換策略生成語義不同但風格相似的新句子,以模擬大語言模型被濫用傳播虛假信息的情境。音頻偽造使用了 TorToiSe、RVC 和音頻替換策略生成與說話人聲音相似的新音頻片段,并通過隨機替換相同性別的音頻來制造偽造效果。

視頻偽造采用了社區和學界大量采用的 ROOP、SimSwap 和 InfoSwap 三種換臉方法,并使用高分辨率版本的 Wav2Lip 模型進行口型同步,以確保偽造視頻的高質量和自然性。

與現有數據集不同,IDForge 還提供了一個額外的參考數據集,該數據集包含 214,438 個真實視頻片段。這些片段來自另外 926 個完整的 YouTube 視頻,作為每位說話人的身份先驗信息。這一設計的出發點是,當觀眾面對可能存在偽造跡象的視頻時,通常會憑借記憶中對該說話人的印象或對照已有的音視頻,以判斷視頻的真實性。因此,研究團隊額外提供了參考數據集部分,作為檢測網絡中可用的先驗信息。先前的身份信息檢測方法由于缺乏類似設計的數據集,受到了諸多限制。數據集目前已在 Github 上開源。

數據集地址:https://github.com/xyyandxyy/IDForge

實驗

研究團隊通過在提出的權威評測數據集 IDForge 的大量實驗,證明了 R-MFDN 在多媒體檢測任務上的有效性。

注:R-MFDN 的性能在每個評估指標上都取得了最好的成績,實現了 92.90% 的高準確率,分別比 RealForensics、VFD、CDCN、RawNet2 高出了 3.72%, 6.69%, 13.02%,和 13.69%。

基于此項技術,中電金信推出了多模態深度偽造檢測產品,通過先進的多模態內容理解與對齊技術,預測圖像、音頻、視頻真實采集的置信度,鑒別 Al 生成內容,防范身份盜用、侵權欺詐等風險,可廣泛應用在金融身份認證、視頻會議核身認證、網絡視頻電話防欺詐等場景。目前,雙模態篡改檢出率已達到99.9%以上,單模態篡改檢出率達到96%以上。

對比 AI 分身視頻畫面,給出了可信賴度低的分數

如上圖,回到文章開頭領英創始人里德?霍夫曼的 AI 分身視頻,以此為素材,通過中電金信的多模態深度偽造檢測能夠對真偽視頻立馬見分曉。

利用 AI 換臉視頻或合成聲音來實施詐騙的確讓人防不勝防,有關部門也正在積極開發相關的反制技術和手段。比如,《互聯網信息服務深度合成管理規定》提出了算法備案、安全評估的手段,要求深度合成服務提供者對深度合成的內容添加顯式或隱式水印。與此同時,也要加強對個人隱私的保護,不輕易提供人臉、指紋等個人生物信息給他人。

相關文獻:

[1] Darius Afchar, Vincent Nozick, Junichi Yamagishi, and Isao Echizen. Mesonet: a compact facial video forgery detection network. In 2018 IEEE International Workshop on Information Forensics and Security, WIFS 2018, Hong Kong, China,December 11-13,2018,pages1–7. IEEE,2018.8

[2] babysor. Mockingbird. https://github.com/babysor/MockingBird,2022.3

[3] James Betker.Tortoise text-to-speech.

https://github.com/neonbjb/tortoise-tts,2022.4

聲明:本文來自機器之心,稿件和圖片版權均歸原作者所有。所涉觀點不代表東方安全立場,轉載目的在于傳遞更多信息。如有侵權,請聯系rhliu@skdlabs.com,我們將及時按原作者或權利人的意愿予以更正。

上一篇:國家安全部:依法守護數據安全

下一篇:Gartner預測:2025年全球信息安全支出超1.5萬億元