压在透明的玻璃上c-国产精品国产一级A片精品免费-国产精品视频网-成人黄网站18秘 免费看|www.tcsft.com

馮繼強(風寧):AI領域 對抗欺騙與安全防御

摘要:隨著網絡攻防用AI對抗AI情況的增多,聲紋識別、人臉識別甚至能被100%秒破。AI行為認證,持續無感知深度學習用戶行為特征,可以有效解決網絡身份鑒別問題。隨著防御越來越強大,使用人工智能手段的攻擊也將會發展壯大。在網絡安全領域,只有永遠的對抗,沒有永久的安全。

風寧

馮繼強(風寧)????蘇州錦佰安信息技術有限公司創始人兼CEO

今天我被邀請談一談安全比較新穎的東西,正好我們公司就是做AI安全的,我就把我們在AI安全領域,基于安全的防御、安全對抗經驗與大家進行簡單交流。議題的名字叫“AI領域對抗欺騙與安全防御”,這和我們公司主研的身份在網絡上的對抗相關度多一點。我從2002年開始一直從事網絡安全工作,現在在創業,創業的公司就是做AI領域的身份識別認證。

在網絡和現實當中最大的區別,比如現實當中,今天我跟這個人吃了個飯,雖然是陌生的,第二次我和這個人有一些熟悉(感)的,“我上次見過你”,不需要再問你在哪里工作,或是“我們上次吃飯是幾點幾分吃的飯,吃的什么菜”,確認完了,OK,我們上次確認是見過的,因為我是認識的。現實當中不需要這么繁瑣。但在網絡上,我們每次登錄一個網站或登錄一個應用,甚至我要向網上應用這是我自己的時候,多多少少都會今天要再輸一遍帳號,或再輸一遍密碼,輸得多的時候,他讓輸驗證碼的時候,是不是我人在輸的,或者我敲的鍵盤,甚至對比一下人臉,按它的操作做一些非常反人類的行為,這是因為現在網絡世界認識人的一些科技的還沒有遠遠達到可以直接識別到本人。所以,導致我們每天在做驗證、認證的時候在大量浪費無用、重復的時間。所以,認證的本質,從最基礎的帳號登錄場景,會發生個問題,它是人還是機器,機器是什么?第一幼可能是軟件,第二有可能是惡意的人做了批量的操作。(圖)紅色是身份認證的帳號和密碼,這是大多數人都能接觸得到的,藍色的人機識別是區別,這個人是不是真正的人,但現在大家在日常應用當中應該也經歷到的,比如這上面幾個最典型的字符,圖片拼圖,通過一些物體名字點擊確認這個物體,“最反人類友好操作”的是數字或文字,按下圖所示的一定序列去做鼠標墊選,種種是為了干嘛呢?為了驗證你,你是真的人。

這真的能保證驗證到是個真的人嗎?之前報過一系列的新聞或安全事件,去年報了最有名的騰訊協助警方打掉了快安答題(音),他們的所有驗證碼在網絡上日均調用最多的時候是,我知道騰訊自己有個數據,在安全會議上有過演講,他們一天面臨的驗證碼攻防攻擊是4.5億次,當時騰訊安全總監楊涌(音)說了一句話,4.5億次,一次驗證是0.08/元,等于3600萬人民幣/天的損失,這是騰訊一家的。那全國呢?全球呢?這是多大的市場。所以,我們在對抗所有的機器自動化操作,做了這么多事情。

字符驗證碼,原來的手段,最開使用泰森(音譯)的圖形庫存,去除灰度,再編譯,做相符合的文字處理,再用OCR識別,再去破解這個驗證碼。再后來卷積神經網絡,ZGG以及CNN形成以后會形成快速的學習。隨著人工智能的發展,有一個模型,出來以后直接就天下大亂,RCA神經網絡,神經網絡框架,它能在原來需要200多萬個字符訓練樣本的基礎上,縮減了不到10個字符就能認識一個數字。我們這里放了一個demo視頻。所有這一類的字符驗證僅僅需要大概只有300-500個字符集訓練完以后,它可以做到百分之百地識別網上所有字符驗證。你做這么多,人還沒有機器識別得快,這有異議嗎?我認為這比較反人類,沒有任何意義的。

剛才講的滑動、拖動的圖片,拖動圖片具體怎么做?我們每個人在使用PC網絡上的應用還是在移動端有時候做一些操作,終歸會有一些拖動行為,但你們感覺這個拖動行為比驗證碼輸入方便,它真的是一種比較友好的形式嗎?其實也不是的,因為它占用了人的時間精力。我們想一下,每天這么不停地拖動和滑動,去輸驗證碼,占據了每天多少時間?本來科技帶來的進步是讓人更便捷地應用互聯網,現在種種手段都在讓人被動式地浪費時間精力,更不友好地接受互聯網。

滑動驗證,之前都有各種宣稱,有一些AI,最頂尖的各種技術保證安全,它真的安全嗎?我大概羅列了一個非常簡單的流程,稍微有點Pascal編程技術、神經網絡框架不熟悉的都可以做到快速地呈現。比方收集幾百張的滑動圖片,自己手動拖動百十次,把這百十次作為基準的鼠標活動軌跡,再去盯到神經網絡框架里訓練時,不符合的就直接剔除,符合的在后臺永遠就認為這是真的人。然后就可以了。這個視頻是去年錄制以后,每次都會有最新驗證,不斷更新,現在都還保持遠比人類滑動更快更準確,人類滑動的時候經常拖不對的時候還要重新拖,這個視頻有半分鐘,可以看一下。(視頻演示),鼠標是在右上角禁止不動的,并不是鼠標在點擊拖動,只不過軟件在自動化地處理。總共演示有10次,這是第10次操作,10次的成功率是百分之百,這不是作假的視頻,是我們在證明。在網絡世界里,有些技術根本沒有辦法作為有效的人機區分的時候還反而做得那么麻煩,對人操作前是非常大的犧牲。

在做驗證的時候,剛才講到帳號密碼,互聯網誕生之初是沒有密碼的,現在種種復雜密碼,今天在安全行業傳的比較多的網站上千萬用戶信息密碼泄露,他這個密碼泄露就被人用來撞庫一系列,保證不了自己的安全,為什么還要搶占密碼這個反人類的東西。整體發展路線,80年代到1996年PC時代,靜態密碼以及后面的U盾、PKI、數字令牌一系列防護手段隨著移動網絡的發展逐步在被淘汰替代,移動網絡,很多更偏重于采用短信驗證碼。短信驗證碼,在之前國家單位交流時他們也明確提出來,短信只是到達通知的作用,短信第一不是加密的,第二到達率延遲,跨國境、跨區域到達率延遲是個非常大的挑戰;第三我沒辦法證明獲取到這個短信,很多人的手機即便處于鎖屏狀態,它的短信驗證碼發過來的時候,你的鎖屏狀態也是能看得到數字的。短信已經在作為密碼驗證憑證在逐步地被淘汰。后面就有了大家都提到的生物識別特征,人臉、指紋、虹膜、靜脈血,包括日本提的掌紋。這些能說安全嗎?現在非常火的AI人臉識別,應用最過的蘋果Face ID,以及其他廠商現在引入的人臉識別解鎖。

這一系列導致AI領域身份驗證面非常大的挑戰,但在2015年、2016年斯坦福提出來,為什么不從更深層次,更便捷地解決人類身份識別的安全問題呢?比如我們每個人第一次見了一個人以后,這個人停留在他認知初步階段的時候,第二次這個人換了衣服,戴個帽子,戴個眼鏡,他不能說這個人就完全不認識了,這就是和原來的挑戰不一樣的地方。他的一些五官特征或行為特征,能讓識別他的人造成非常深刻的印象,已經就被動式的直接就能識別到身份,網絡世界可不可以這樣做呢?我們每個人操作屏幕、鍵盤、力度、習慣以及自己獨有的個人習慣,3D、人臉識別,(動圖)簡單照片就可以輸入3D模型,大家可能在“3·15晚會”上看過,用軟件建立3D模型繞過人臉時過分地活檢。這是我們在中科院一個人工智能研究所,讓他們拍的一個屏,他們也幫忙打印了3D硅膠面具,不是這個視頻到這一步就完了。通過一個人靜態圖像輸出一個人3D模型以后,還可以輸出這個人2毫米,完全停留在另外一個人臉上。比如他兩個頭像框架、間距、臉形差不多的時候,貼在臉上以后可以繞過現有所有的人臉識別檢測手段。最簡單的檢測手段,是一個人像另外一個人臉,如果有活檢,嘴巴動一動,眼睛眨眨眼,直接就可以過掉,太多的人臉驗證。所有非在線人臉活檢直接就可以(通)過。靜態的只是一個沒有活檢的,像微軟的Safari,我自己用Safari,Safari的人臉識別確實很方便。但用這個大頭貼往上面一照,它也直接解鎖了。

去年,Face ID隨著蘋果iPhoneX引領了一系列的便捷登錄熱潮,但沒過多久,越南一個安保公司(不是做網絡安全的)就把一個打印過的面具放在固定位置上以后,用iPhoneX進行了成功的解鎖。直接看到這個頭像會感覺到是個木乃伊,這是通過AI識別人臉的邏輯過程,不像原來我給你拍一張照片,身份證照片拍完以后,這十年身份沒有換的時候是靜止不動的,你的五官再換,它基于一定維度還是可以直接識別掉,是這個身份證的主任。AI是,你每天用,它每天多少有差異的時候,自己會有個容錯機制,他們的做法,我們進行了重現,打印一個面具以后放好,讓真實的人經過Face ID蘋果AI人工智能學習完以后,我再把這個面具貼上2毫米的創可貼,讓它識別一下;明天再擴大這個白色貼的標簽,讓它繼續識別,識別將近一個月,基本上這個人臉已經和原來的人臉完全不一樣了。隨著拉下來,遮糙的那一瞬間,iPhoneX的Face ID成功就識別掉,這個人和一個月前建立手機綁定的是同樣一個人,因為它有個容錯機制,因為這個人每天臉部都在變,但這個變又在AI可控范圍內。這是現在AI領域在人臉認證方面最大的挑戰。

我們和研究這一塊的同行交流,大家都在憋著等蘋果最新版發布,他們也要向全球秀一把,破掉蘋果最新的Face ID。Face ID現在都說引入了結構光,二代更精確。但結構光隨著這樣的模式也在逐步地被對抗。這是在AI領域人臉識別,整體通過線下無立手段的對抗,這還沒有涉及到不停地便利它靜態的算法。現在有些機構也有越獄的漏洞,有些Android也在用人臉驗證,直接可以概括掉它的算法以后,不停地通過自己的AI框架再去學習,這都是一種深度的對抗。

AI人臉對抗,最簡單采用的原理,是之前發布的Cycle GAN運算框架模型,它出現的契機是,深度學習框架,他會把這張圖片一定范圍內認識成另一張圖片,但這個圖片擴展到人像或動物,甚至每秒24幀或者800幀,現在高頻計算機能拍到上千幀,把這些抽取出來以后讓AI學習訓練,是不是就可以真正在視頻領域里做到欺騙,這是算法產生的初衷。

這是我們自己基于這個算法模型搭的一個框架,對廣告進行了非常簡短的替換。中間是我們的員工,最邊上是我們用AI實時抽取幀數再做的替換,左邊是原始的原型人物,這能產生一個什么實驗呢?上次我們和公安領域做取證交流時說,至少在視頻領域不像以前保留的觀念是,我可見就是的可信的,因為如果我完整替代這個視頻,時間戳或時間剪輯做得非常完美的時候,法律上是不能作為證據的,這是AI對整個視頻非常大的在取證領域的挑戰。

搜視頻有個特點,便捷性產生的同時不可避免的犧牲了安全性。就像指紋,要真正獲取到一個人的指紋其實很容易的,淘寶上3元一套指紋膜就可以復制,自己搞一點靜電粉,給對方遞個杯子喝個茶,就可以快速把指紋采集下來進行復制。還有高清照相機鏡頭直接可以在非近場結構,5-20米聚焦區取景,就可以完全把一個人的指紋完全拍清晰以后,這邊連著高清打印機直接打個指紋膜,貼在自己所有手指驗證手段,又是活體,所有的檢測根本沒有辦法驗證這是替代的指紋,都有這樣的風險存在。

攻擊AI的方式有很多種,最有名的是Google的,Google現在的圖片識別,黑猩猩已經不能作為查詢詞或者已經不再做識別,因為他們之前出過非常嚴重的(問題),把一位黑人識別成了黑猩猩,引起了非常大的事件,后來他們把這個完全屏蔽掉,這是后臺把AI給污染了。攻擊AI的方式,主要定義是,原始數據被污染,比方攻擊它訓練模型的數據集,測試環節以及對抗樣本,對抗樣本比方用創可貼或繃帶對抗蘋果的AI人臉識別。還有AI攻擊的方式,很多第三方深度學習框架依賴第三方庫挖掘出來各種各樣的漏洞。

訓練模型階段,算法是固定的,數據樣本對模型決策邊界起到非常大的作用,訓練數據如果本來就是錯的,就像有一個論文里替代了斑馬和正常的馬屁,僅僅因為細微的差別,很多在講AI時,有研究熊貓和污染糙點就出現識別的數據,稍微的糙點就對學習的結果做到不準確的時候,AI的平臺就沒有辦法做到可適應。這只是簡單做了圖像處理,有意識地欺騙,大家肉眼可以看到,左右兩個圖是一樣的,(圖)左邊熊貓的圖片只是加了一些鑿點,后面99.3%AI識別就直接出現錯誤。

鑿點污染,前兩天加拿大的學校也發表了一篇論文,基于這個論文也有一系列的報告,說這是真正的人臉識別領域,把左邊的人臉加了一點鑿點,再傳到后臺的時候,它就不再認識本人了。針對預訓練的人臉制訂圖像,Faster R-CNN產生非常小的干擾就檢測不出來。我們做批量人臉識別,比如去旅游景點以及刷臉進景區的,雖然有一些干擾,但完全認不得本人的頭像。真正做防御對抗的時候,有些視頻在國防過程中,做鑿點干擾,其他的攝像機拍出去完全是虛化的,想做糙點,做盜版都做不出來,這都是一些應用的方向。

之前有人講過對抗樣本攻擊,就是GAN網絡,深層對抗網絡攻擊,一直怎么防,其實一直沒有人說過。因為我們公司有兩個博士一直關注全球AI領域的發展,英國牛津大學已經提出來增強網絡壓縮和對抗穩健性,已經可以過濾掉生成對抗樣本攻擊,后續如果有想了解的可以再做交流,因為這延展出來講的話,要講很長時間,國內之前也沒有人講過,只不過我們自己內部做了一些延展性的研究和防御。

深度學習框架攻擊,漏洞攻擊,深度學習應用和框架,框架依賴到第三方,包括其他模塊組,整個一系列深度學習AI領域,這一系列的組成,對他們這些,之前新加坡南洋理工就自己根據Defcon 美國國防部CGC自動化發這個漏洞,再GateHub上有個開源AI,自動發漏洞的框架,在座如果有對于漏洞挖掘感興趣的也可以參考一下那個項目,因為我們自己參考了這個項目,改進了一款針對二進制做的漏洞挖掘平臺,都可以檢測這些AI各種組件和二進制包漏洞。(圖)這個圖非常直接引用了TesorFlow庫,這里有個函數的循環是存在漏洞的,構造這個例子的時候就可以safe pad不斷地縮小,導致循環,無法終止,直接就拒絕服務。這是最簡單的框架漏洞。類似這樣的漏洞,如果有心去找,AI Fuzz框架基本上現有的,不管是開元的還是閉元的,因為它是基于二進制在做挖掘的,基本每天能找到百十個,如果想出名,做漏洞挖掘,每天找到百十個,隨便跟蹤調試,每個月產出幾十個CVIS(音)是很輕松的事情,這就是需要攻防安全實驗室或對漏洞安全有研究的可以做一下。

防止深度學習被攻擊的思考。

不要什么事情都按照深度學習框架策略,你直接用統計學,我們自己也用了貝恩斯算法提前過濾,統計算法,一些標簽化的數據事先做了個數據預處理,不要把它放在深度學習,第一減少利用資源,二是減少攻擊的結構性,在低秩增強網絡訓練時,收集到對抗樣本可以先放到訓練集里,對樣本做個對抗過濾,現在很多人講的,針對大量的惡意樣本,DNS惡意漏洞庫就是用AI在做處理的,其實有些根本不需要用深度學習來做處理。針對框架以及學習平臺,研究性角度還是基于功能云廠商的,Google、亞馬遜以及國內阿里、百度等,他們都有自己推出深度學習框架,不用自己再搭;自己搭的話,最好就全部都用最新的版本,性能、很多功能都會有比較好的改進,當然,最新版本最好是穩定版本,自己有能力能做到renew(音)代碼,比如有些代碼原始已經被污染,能找到漏洞。

總體來講,機器學習能越來越多地應用到安全領域。現在能叫得出來的,第一在風控,第二在大規模的網絡DNS惡意網址欺騙檢測,第三有的在做病毒樣本的分析,還有做對抗模型預測訓練,比如黑客攻擊模型,已經有公司,像以色列有的創業公司用AI自動化地模擬攻防滲透人員對一個網絡進行自動化檢測。在網絡攻防領域,剛剛我講的這些,其實只是非常細小的一部分,用AI來對抗AI。我們相信AI很成熟,很完善的時候,需要研究怎么樣欺騙它,對抗它的一些過程。總體來講,網絡安全領域永遠有一句箴言,“只有永遠的對抗,沒有永久的安全”,有些安全只不過是建立在現有的認知沒有突破漏洞節點。

我今天的演講就到這里,如果有哪些在場的朋友需要提問的可以簡單做一下交流。

Q:馮總,您剛才提到了噪音敏感的時候會產生漏洞,意思是找一個新的算法,它對運算不敏感一直追就行了,還是在實際應用中還要注意其他問題嗎?

馮繼強(風寧):實際應用中注意其他問題,不是算法對噪音不敏感,漏洞問題就解決了。這可以解決一部分現有的,能通過噪音污染的,但不可能說你的算法就一直感覺它很安全,沒有新的噪音污染手段,最直接的還是你把自己可信樣本在訓練的時候預先做一下過濾,不要讓樣本首先受到污染,現在所有的人臉識別都是這樣的情況。

Q:馮總,我剛才聽到您提到美國國防部的CGC,請問您剛才提到基于二進制的自動化Fuzz測試工具是基于哪個部分做的?現在有幾個比較知名的,請問您是基于什么基礎來做的?

馮繼強(風寧):這是我們同事私下課題的研究項目,回頭我可以和你做一下分享,因為這不是我們公司的主業,只不過同事私下在工作之余做的一些事情。

Q:我問的問題可能和攻防關系不太大,我以前接觸過AI分析語義,尤其是中文語義,當時給我們講的那個教授說,中文語義分析還是比較初級的階段,不知道這兩年發展得怎么樣?

馮繼強(風寧):中文語義分析是這樣的,原來的模式只是非常固定的,比如文字轉語音,或者語音轉文字,再后面是一個中文分詞是個非常大的挑戰,因為中文分詞,比如3500個常用漢字,但它的組合在做自動化按照人的理解來做分析是非常大的挑戰。現在中文語義分析,市面上宣傳,國內做的比較好的也在我們公司隔壁,總部在蘇州叫思必馳,他們說是要在語義領域挑戰科大訊飛,在語義分析里是目前行業里做得最成功的,這兩年他們發展還是蠻快的,如果有時間可以關注一下這個公司,包括他們的產品應用。

上一篇:潘柱廷:主持人

下一篇:宋凱(exp-sky):Chakra引擎的非JIT漏洞與利用