近日,《The Stack》報道稱,2024年7月,英格蘭銀行支付系統——CHAPS系統因“銀行基礎設施中的SSL/TLS證書過期”而發生故障。
CHAPS系統在2024年8月處理了6.9萬億英鎊的支付交易。但在此前一個月,CHAPS和銀行的零售結算系統因宕機停止了這些交易,導致IT員工不得不緊急實施修復方案。(CHAPS系統在91分鐘內恢復運行。)
導致這次故障的原因是一張過期的SSL/TLS證書。
根據英格蘭銀行發布的年度結算系統現代化報告,該故障的原因與證書過期有關,盡管報告中沒有具體說明是哪類證書,但通常這類問題與SSL/TLS證書有關,該證書用于驗證系統身份并允許其與其他系統建立加密網絡連接。
英格蘭銀行證書問題
2024年已經是中央銀行老化的結算系統第四次中斷,而值得注意的是,這是第二次因證書問題導致的宕機。
2024年1月26日,RTGS(實時全額結算)系統曾發生一次持續39分鐘的宕機,導致CHAPS和CREST結算暫停,英格蘭銀行模糊地將其歸因于“證書頒發機構問題”。(這一日期與AWS某些證書更換要求的時間一致,但我們沒有證據表明兩者之間存在因果關系,僅作時間上的關聯說明。)
英格蘭銀行在2024年9月27日發布的報告中指出:“在過去一年中,RTGS服務發生了多次中斷。但在所有情況下,我們的重要業務服務的影響容忍度都得到了滿足,即提交給我們的所有支付和其他結算指令都在當天結算完成。”
這一細節來自RTGS現代化更新,因為英格蘭銀行正逐步推進其現有引擎的替換工作,計劃采用一種“模塊化設計的新核心賬本和結算引擎”,這一更新將使更多金融服務機構更容易接入英格蘭銀行系統。
據悉,現有的RTGS引擎可能基于大型主機,接入新機構的過程繁瑣:“RTGS更新計劃的每個主要里程碑都需要技術準備工作,包括對現有RTGS基礎設施的變更凍結,以便安全地進行必要的變更,”英格蘭銀行指出。“對于CHAPS和零售支付系統,下一批接入時段將于2025年開放。”
在過去12個月里,其他值得注意的宕機事件還包括:2023年10月26日RTGS系統發生36分鐘的中斷,導致CHAPS、CREST和零售結算停止,原因是“網絡配置問題”;2024年6月17日,RTGS系統內部組件故障引發6分鐘的中斷;2024年7月18日,CHAPS結算出現245分鐘的中斷,原因是SWIFT的Y-Copy服務出現問題,導致該服務全球范圍內受到影響。
《The Stack》已聯系英格蘭銀行對此事發表評論。一位發言人表示:“我們會對RTGS的每次事故進行審查,包括7月31日的事件,所有確定的改進措施都會被跟蹤落實。”
更新證書時操作失誤導致ServiceNow服務中斷
無獨有偶,在上月末,市值1810億美元的ServiceNow公司也因類似問題短暫受到了影響。
此次問題的根源在于ServiceNow的管理、工具及發現(MID)服務器。該服務器是本地客戶端服務器上的Java應用程序。一份有限的公告顯示,“MID Server Root G2 SSL”證書已過期。
ServiceNow最終表示:“在9月22日,ServiceNow確認了一個過期的TLS跨鏈證書,影響了MID服務器與客戶實例之間的連接。”公司補充說,證書已于本周初更新完畢,系統已經恢復正常運行。
但超過600家客戶的系統在此事件后崩潰,眾多報告顯示該證書即將過期的警告幾周前就已發出。至于此次證書更新是否是人工操作還是自動化管理出了紕漏,仍是個未知數,但此次事件再次強調了證書管理的持續風險。
對此,Venafi首席創新官Kevin Bocek聲稱,此事件表明“ServiceNow的流程中存在嚴重的漏洞,亟待修復。”
“根證書是數字安全和在線身份的基礎,它位于信任金字塔的頂端,負責認證并簽發鏈條下的其他TLS身份。如果根證書過期,它將影響所有與其關聯的機器身份——這就是為何客戶受到如此廣泛影響的原因。”他補充道,“…在當今復雜的IT環境中,試圖通過人工管理機器身份幾乎是不可能的任務。而且難度還在加大。全球已有超過2.9億個TLS證書,過去兩年增加了超過4000萬個……隨著Google即將強制實施90天的證書有效期規定,持續的替換和更短的生命周期將很快成為常態。”
證書自動化管理大勢所趨
多年來,許多大型組織因未能及時更換即將到期的證書而導致服務中斷,隨著證書生命周期的縮短,這種情況可能會愈加嚴重。
另一方面,在當下許多組織中,證書的更新仍然依靠人工管理(甚至使用經典的Excel表格),而對于錯過一個證書更新從而引發連鎖反應的恐懼并不少見。
由于手動管理眾多證書的到期和續期日期的難度日益增加,證書過期未能及時處理可能會導致應用程序宕機、服務中斷、服務器冒充甚至敏感數據泄露。
Sectigo的威脅檢測專家Tim Callan在一封電子郵件中指出,“許多組織仍在嘗試并苦苦應對手動管理其生態系統中數千個數字證書的挑戰。這是一個耗時的過程,單獨手動簽發一張證書可能需要一個多小時。將此工作量乘以數百或數千個證書,很明顯,手動證書生命周期管理對于即便是資源最為充足的IT團隊來說也是難以維持的。”
他補充道:“不久之后,隨著Google Chromium在其‘Moving Forward, Together’路線圖中的最新更新生效,TLS證書的最長有效期將從398天縮短至90天,這將成為未來政策更新的一部分。此舉帶來的好處是真實的,特別是提高了安全性。但對于仍在手動管理證書的組織來說,這意味著工作量將增加四倍,如果繼續采用手動方法,預計會有更多的違規和宕機事件發生。我們再也無法承受手動證書管理帶來的摩擦了——系統宕機或數據泄露的潛在風險太大。證書管理需要具備CA無關性并實現自動化,以便在新規落地時,CISO們能夠輕松維護數字信任。”