北京時間2024年7月19日中午開始,CrowdStrike問題更新導致全球Windows大面積藍屏死機,致使航班停飛、火車晚點、銀行異常、巴黎奧運服務受影響等,全球至少二十多個國家受到波及。
基于奇安信的獨有數據視野,我們估計國內的CrowdStrike軟件裝機量在萬級,相關單位數在百級,用戶主要集中在北上廣深等發達地區。受影響的主要是外企、外企在華分支機構及合資企業,大量這類機構中招,有反饋某個在華外企大量終端中的40%崩潰。
01?CrowdStrike公司及產品概況
CrowdStrike公司成立于2011年,由兩位傳統殺毒軟件McAfee的高管創立,團隊成員主要來自信息安全產業,如微軟和亞馬遜等。該公司是全球知名的下一代終端安全廠商,其核心產品包括基于云的Falcon平臺及其多個模塊,這些模塊涵蓋了端點保護、威脅情報、IT資產管理和惡意軟件搜索等多個領域。目前市值超800億美元,僅次于最大的網絡安全公司Palo Alto Networks。
Falcon平臺是CrowdStrike的核心產品,它是一個完全基于云端部署的SaaS模型,能夠提供實時的攻擊指標、威脅情報和不斷進化的對手手法技術。該平臺通過一個輕量級的代理架構實現快速且可擴展的部署,并提供高級別的保護和性能。此外,Falcon還集成了多種功能,如文件完整性監控、云安全、身份保護等。
CrowdStrike目前的客戶數超24000個,覆蓋了大部分全球500強企業,導致本次事故的就是其Falcon平臺的核心組件驅動程序部分的功能。
02?IT服務中斷情況
北京時間2024年7月19日周五下午2點多開始,全球大量Windows用戶在社交媒體上曬出電腦藍屏畫面,出現了大量 Windows電腦崩潰、顯示藍屏死機、無法重新啟動的案例。
由于事件發生時亞太地區在白天,美歐在夜晚,初期社交媒體上的反饋主要集中在亞太地區,主要是日本、澳大利亞。隨著時間的進展,歐美用戶也大量出現服務中斷反饋。大量的機場、醫院、媒體與銀行由于系統的崩潰,導致服務中斷,數以萬計的航班延誤取消,有些醫院不得不轉移病人,很多受影響企業的不得不提前放假。
事件還影響到了微軟的云服務,主要應該是微軟云服務上運行了大量的基于Windows系統的應用程序實例,其中部分安裝了CrowdStrike的軟件,所以連帶著這些虛擬機也崩潰。當然,也可能有部分原因在于微軟的管理云的應用系統也受到了CrowdStrike的影響。
在國內,“微軟藍屏”迅速登頂微博熱搜,成為熱議話題。隨后,藍屏問題被確認與CrowdStrike的軟件更新有關,導致Windows用戶出現了藍屏現象。
CrowdStrike于7月19日下午發布相關通知承認了這一問題,并承諾將在45分鐘后修復。
CrowdStrike本次IT系統中斷事件的影響一定會被記入史冊,與2017年的WannaCry勒索蠕蟲事件可相提并論,所幸由于安全軟件生態一定程度的隔離,中國所受的影響不大。
03?軟件系統影響面
Falcon sensor for Windows version 7.11在線時間在北京時間7月19日中午12點09分到13點27分之間,下載了問題更新的系統會遭遇崩潰。
基于奇安信的獨有數據視野,我們估計國內的CrowdStrike軟件裝機量在萬級,相關單位數在百級,用戶主要集中在北上廣深等發達地區。受影響的主要是外企、外企在華分支機構及合資企業,大量這類機構中招,有反饋某個在華外企大量終端中的40%崩潰。
奇安信網絡研究院對于CrowdStrike相關網站的訪問監測顯示,7月19日國內對于CrowdStrike支持網站的訪問量出現了上百倍的增長,可見國內對此事件的關注度與處置力度也很高:
至于國內的其他類型單位,特別是黨政央企,大型的民企公司,使用量極少。奇安信收到的相關應急響應需求很少,此次事件對國內的政府、央企及絕大部分的大型民企影響不大。
以當前Falcon軟件的安裝量,初步估計導致數以百萬到千萬計的Windows系統不可用,由于問題導致電腦只要啟動就會藍屏崩潰,因此沒有自動化的措施可以執行批量集中修復,只能一臺臺手工操作解決問題,所以恢復過程會非常消耗時間與精力,估計完全恢復需要的時間將以周計。
04?技術細節相關的討論
Falcon是安全軟件,有其特殊性,需要獲取操作系統底層權限來更好地實現保護能力,所以組件很多以驅動程序形態出現。這回導致系統崩潰的CSAgent.sys是CrowdStrike客戶端的一個核心的驅動,驅動程序由于工作在內核態一旦執行上出現問題,就直接會導致操作系統不可用,啟動時加載驅動直接藍屏,這是它跟一般工作在應用層的應用程序是不一樣的地方。
按CrowdStrike給出的解釋,程序在增加處理新觀察到的利用命名管道進行C&C通信的惡意代碼活動時,更新相應的配置文件(“C-00000291-”開頭的文件)觸發了一個代碼中的邏輯錯誤,在內核態形成非法內存訪問觸發操作Windows系統藍屏。因此,導致問題的更新應該被視為某種“規則”的更新,而不是直接驅動程序本身,這也就可能解釋了數據的下發如此的快速而“隨意”,但依舊無法解釋如此能導致明顯危害的更新如何通過了發布前的測試環節。
05?解決方案
對于遇到此問題的用戶,可以嘗試以下措施來臨時修復使系統可用:
1. 使用安全模式或恢復模式進入操作系統。
2. 進入 C:\\\\Windows\\\\System32\\\\drivers\\\\CrowdStrike 目錄。
3. 找到所有匹配“C-00000291*.sys”的文件,并將其刪除。
4. 正常啟動主機。
或者直接重命名以下文件夾:
“C:\\\\Windows\\\\system32\\\\drivers\\\\CrowdStrike
臨時修復措施很簡單,但確實比較耗人工,需要一臺一臺的機器進入安全模式,然后把相關的文件刪掉或改名,沒什么特別的專用那個工具能集中批量地實現修復。
機器可以正常啟動以后,如果還要繼續使用CrowdStrike,更新到軟件的最新版本,當前的版本已經修復。
06?事件的啟示與建議
此次事件暴露出了CrowdStrike公司在產品開發測試發布環節中存在嚴重問題,存在質量缺陷的軟件通過了測試,以看起來并沒有灰度機制的方式被推送出來,直接導致了數以百萬計的系統不可用。作為一個國際主流的大安全廠商,會出現這樣的低級錯誤,這是整個事件中最不可思議的地方。
目前,主要有兩種陰謀論的說法浮出水面,引起了人們的熱烈討論。
第一種說法認為,這起事件可能是美國政府進行的一種壓力測試,目的是為了檢驗在遭受網絡戰攻擊時的社會現象和應急恢復能力。然而,對于這一說法,有人認為其代價過于巨大。據估計,此次事件造成的直接和間接損失高達數十億美元。盡管如此,仍有部分人堅持認為,這與歷史上的某些事件相似,例如911恐怖襲擊,他們認為這可能是政府的某種策略。
第二種說法則指向了CrowdStrike公司,認為有黑客入侵了該公司,并修改發布了惡意代碼,導致了此次電腦崩潰事件。對于這一說法,普遍認為可能性相對較大。盡管CrowdStrike公司否認了遭受網絡攻擊的說法,但考慮到公司可能出于維護形象的考慮,這種否認也是可以理解的。然而,如果這一說法屬實,公司將不得不面對可能的訴訟和賠償問題。值得注意的是,目前還沒有組織或個人宣稱對此次事件負責。
在這兩種說法中,盡管各有其支持者,但真相究竟如何,目前尚無定論。
其實終端軟件安全廠商由于自己的開發運營能力問題搞出破壞客戶系統的事件絕不新鮮,大多影響范圍較小而不被公眾所感知。2010年當時的McAfee就因為發布了錯誤的病毒定義,刪除了Windows XP的系統文件而導致系統反復重啟不可用。巧合的是當時McAfee的CEO就是現在CrowdStrike的CEO,可以說是傳統藝能。因此,運營錯誤導致問題的可能性還是遠高于陰謀論。
拋開陰謀論不提,一次軟件更新引發全球 IT 事故,提醒了業界和廣大用戶,即使是非常成熟的技術平臺也可能遭遇意外故障,再次凸顯了“零事故”保障(業務不中斷、數據不出事、合規不踩線)的重要性和必要性。
此次微軟藍屏,導致全球大量主機無法使用,包括終端和一部分服務器主機,對全球航空、金融等重要業務產生重大影響,大量重要政府企業無法對外提供服務,再回想2017年的永恒之藍勒索病毒,同樣導致了全球大量主機無法使用,大量政府企業無法提供服務。說明網絡安全行業,已經和水電煤氣一樣,就是整個社會的關鍵基礎設施行業,無論是沒有防住網絡攻擊,還是升級更新出現問題,都會導致重大的社會影響。
因此,網絡安全行業,真正要追求的目標是重要環境“零事故“,零事故的第一個標準就是“業務不中斷”,從奇安信參與的2017年永恒之藍的應急處理,和2022年北京冬奧的“零事故”安全保障,客戶沒有出現過勒索和藍屏,核心業務都沒有受到中斷影響。
零事故的核心是對安全的持續投入和重視,是一個體系化建設工程,如果沒有足夠多、足夠長時間的投入,”零事故“目標就無從談起。對客戶來說,應該以”零事故“為標準,做好業務彈性規劃,以隨時應對勒索軟件攻擊、員工失誤或意外 IT 故障的威脅。
綜上可見,業務穩定和網絡安全不僅是技術問題,更是管理和戰略問題,需全面綜合考慮各種因素,主要體現在以下幾點:
?對于安全廠商
?首先是把好質量關。正所謂“能力越大責任也越大”,涉及系統穩定性的軟件廠商需要對自己的軟件有更嚴格的質量管理。否則,這種意外故障導致的業務連續性問題比惡意的網絡攻擊還要大。
?其次是做好升級策略。在產品升級時,要控制影響范圍,俗稱“爆炸半徑”,掌控好升級策略,確保灰度升級,控制放量節奏。逐步測試,逐步增加覆蓋。
?最后是態度需要積極主動。在出現事故時,平臺廠商和安全廠商,都需要本著客戶至上原則,最短時間給出客戶相應的解決方案,并積極與公眾溝通,避免因為信息差等導致的恐慌。
?對于安全產品使用者
?選擇有實力有信用背書的安全廠商,尤其基于當前復雜的國際環境,優先國內的能力廠商。
?在部署終端安全軟件,要對資產做好分類,分級,對于關鍵資產設置單獨的管理單元或分組,并設置灰度或延遲更新的策略。
?對于國家相關主管機構
?持續推進國產化,安全軟件工具平臺與操作系統一樣有特殊的影響和意義,必須確保自主可控。
?使用面巨大的軟件應該作為關基一樣的重點關注目標,鼓勵國產化操作系統及流行軟件的漏洞挖掘及風險消除的行動。
?進一步加強關鍵基礎信息系統的保護,切實執行相關的法規,落實相應的能力建設。
參考
Technical Details on Today’s Outage
https://www.crowdstrike.com/blog/technical-details-on-todays-outage/
Global IT chaos persists as Crowdstrike boss admits outage could take time to fix
https://www.bbc.com/news/live/cnk4jdwp49et
來源:奇安信 CERT