近日,研究人員在用于訓練人工智能模型的Common Crawl數(shù)據(jù)集中發(fā)現(xiàn)了11908個API密鑰、口令以及密碼等敏感信息。
作為全球最大的開源網(wǎng)絡數(shù)據(jù)集之一,Common Crawl自2008年起持續(xù)收集PB級Web數(shù)據(jù),并免費向公眾開放。鑒于數(shù)據(jù)集的龐大體量,許多人工智能項目可能至少在一定程度上依賴這些數(shù)字檔案來訓練大型語言模型(LLM),其中包括OpenAI、DeepSeek、Google、Meta、Anthropic和Stability等公司的模型。
盡管Common Crawl的開放共享在很大程度上促進了全球人工智能技術(shù)的迅猛發(fā)展,但同時也有可能會帶來嚴重的安全風險。
網(wǎng)絡安全公司Truffle Security在對Common Crawl 2024年12月存檔的26.7億個網(wǎng)頁的400TB數(shù)據(jù)進行掃描時,發(fā)現(xiàn)了11908個經(jīng)過成功驗證的密鑰。這些密鑰被開發(fā)人員硬編碼,表明LLM有可能在不安全的代碼基礎上接受了訓練。
值得注意的是,LLM的訓練數(shù)據(jù)不能直接以原始形式使用,必須經(jīng)過預處理階段,包括清理和過濾掉不相關(guān)的數(shù)據(jù)、重復項,以及有害或敏感信息等不需要的內(nèi)容。
研究人員在分析掃描數(shù)據(jù)后,發(fā)現(xiàn)大量Amazon Web Services (AWS)、MailChimp和WalkScore服務的有效API密鑰。
研究人員在Common Crawl數(shù)據(jù)集中識別出219種不同的密鑰類型,最常見的是MailChimp API密鑰。約1500個Mailchimp API密鑰在前端HTML和 JavaScript中進行了硬編碼。
研究人員指出,威脅攻擊者可能會利用上述密鑰繼續(xù)進行惡意活動,例如網(wǎng)絡釣魚活動和品牌冒充。不僅如此,密鑰也可能會導致數(shù)據(jù)泄露。泄露的潛在影響包括:
Truffle Security在發(fā)現(xiàn)這一安全風險后,迅速聯(lián)系了受影響的供應商,并協(xié)助他們撤銷和更換密鑰。目前來看,盡管LLM訓練數(shù)據(jù)在預處理階段會進行清理和過濾,但完全去除敏感信息仍然具有挑戰(zhàn)性。
文章來源 | bleeping computer