压在透明的玻璃上c-国产精品国产一级A片精品免费-国产精品视频网-成人黄网站18秘 免费看|www.tcsft.com

OpenAI、Google等使用的大模型數(shù)據(jù)集泄露約12000個API密鑰和密碼

近日,研究人員在用于訓練人工智能模型的Common Crawl數(shù)據(jù)集中發(fā)現(xiàn)了11908個API密鑰、口令以及密碼等敏感信息。

作為全球最大的開源網(wǎng)絡數(shù)據(jù)集之一,Common Crawl自2008年起持續(xù)收集PB級Web數(shù)據(jù),并免費向公眾開放。鑒于數(shù)據(jù)集的龐大體量,許多人工智能項目可能至少在一定程度上依賴這些數(shù)字檔案來訓練大型語言模型(LLM),其中包括OpenAI、DeepSeek、Google、Meta、Anthropic和Stability等公司的模型。

盡管Common Crawl的開放共享在很大程度上促進了全球人工智能技術(shù)的迅猛發(fā)展,但同時也有可能會帶來嚴重的安全風險。

網(wǎng)絡安全公司Truffle Security在對Common Crawl 2024年12月存檔的26.7億個網(wǎng)頁的400TB數(shù)據(jù)進行掃描時,發(fā)現(xiàn)了11908個經(jīng)過成功驗證的密鑰。這些密鑰被開發(fā)人員硬編碼,表明LLM有可能在不安全的代碼基礎上接受了訓練。

值得注意的是,LLM的訓練數(shù)據(jù)不能直接以原始形式使用,必須經(jīng)過預處理階段,包括清理和過濾掉不相關(guān)的數(shù)據(jù)、重復項,以及有害或敏感信息等不需要的內(nèi)容。

研究人員在分析掃描數(shù)據(jù)后,發(fā)現(xiàn)大量Amazon Web Services (AWS)、MailChimp和WalkScore服務的有效API密鑰。

研究人員在Common Crawl數(shù)據(jù)集中識別出219種不同的密鑰類型,最常見的是MailChimp API密鑰。約1500個Mailchimp API密鑰在前端HTML和 JavaScript中進行了硬編碼。

研究人員指出,威脅攻擊者可能會利用上述密鑰繼續(xù)進行惡意活動,例如網(wǎng)絡釣魚活動和品牌冒充。不僅如此,密鑰也可能會導致數(shù)據(jù)泄露。泄露的潛在影響包括:

  • 惡意活動:威脅攻擊者可以利用泄露的API密鑰發(fā)起釣魚攻擊、品牌冒充或其他惡意活動。
  • 數(shù)據(jù)外泄:密鑰泄露將引發(fā)敏感數(shù)據(jù)如用戶信息、財務數(shù)據(jù)及醫(yī)療記錄被非法獲取的風險。
  • 服務濫用:攻擊者濫用密鑰可非法訪問保護服務,進而給服務提供商帶來經(jīng)濟損失和聲譽風險。
  • 高重復使用率:63%泄露密鑰跨頁面重復使用,加劇安全風險,一旦泄露,將波及多個服務和頁面。

Truffle Security在發(fā)現(xiàn)這一安全風險后,迅速聯(lián)系了受影響的供應商,并協(xié)助他們撤銷和更換密鑰。目前來看,盡管LLM訓練數(shù)據(jù)在預處理階段會進行清理和過濾,但完全去除敏感信息仍然具有挑戰(zhàn)性。

文章來源 | bleeping computer

聲明:本文來自賽博研究院,稿件和圖片版權(quán)均歸原作者所有。所涉觀點不代表東方安全立場,轉(zhuǎn)載目的在于傳遞更多信息。如有侵權(quán),請聯(lián)系rhliu@skdlabs.com,我們將及時按原作者或權(quán)利人的意愿予以更正。

上一篇:因違反網(wǎng)絡安全合規(guī)要求,這家公司被罰超1000萬元

下一篇:2024年GreyNoise在野大規(guī)模漏洞利用報告概述