又宕機了!?
粗略總結(jié)下最近的宕機事件:淘寶-挖掘機,光線被挖斷;攜程-程序員誤刪;知乎-又是機房故障;以上幾家互聯(lián)網(wǎng)公司的宕機事件直接影響了用戶體驗,誰都不想當下一個例子。同樣的,銀行系統(tǒng)宕機事件更是非同小可。
在調(diào)研銀行系統(tǒng)安全性問題中,發(fā)現(xiàn)了一個典型案例:西部某地方銀行去年發(fā)生過一起長達37小時的系統(tǒng)宕機事故。導(dǎo)致存取款、網(wǎng)銀、ATM等銀行核心業(yè)務(wù)全部中斷;間接影響全市醫(yī)療機構(gòu)和定點零售藥店共700多家不能刷醫(yī)保卡結(jié)算;影響還波及政府、教育等多個領(lǐng)域。事故后果很嚴重。
讓我們來分析下該銀行的宕機原因。
有據(jù)可查的是,銀監(jiān)會發(fā)文中特意向全國通報了該事故,原來該事故起因竟是由于備份系統(tǒng)。
發(fā)文中對事故原因的具體解釋為:在季末結(jié)算業(yè)務(wù)高峰時,因備份系統(tǒng)異常導(dǎo)致備份存儲磁盤讀寫處理嚴重延時,備份與主存儲數(shù)據(jù)不一致。在采取中斷數(shù)據(jù)備份錄像后,造成生產(chǎn)數(shù)據(jù)庫損壞并宕機。
文中的解釋比較言簡意賅,但根據(jù)有經(jīng)驗的技術(shù)專家分析,從該解釋中可以推測幾點:
首先,業(yè)務(wù)高峰并沒有導(dǎo)致主存儲磁盤讀寫問題,在線業(yè)務(wù)無問題。
其次,業(yè)務(wù)量大”導(dǎo)致備份存儲磁盤讀寫處理延時”,這說明相比主存儲,備份存儲可能由于檔次過低,或者磁盤配置不合理等原因?qū)е滦阅茌^差。
關(guān)于這點,專家分析,一般建設(shè)備份系統(tǒng)的投入要遠小于在線業(yè)務(wù)系統(tǒng)的建設(shè)。而體現(xiàn)在數(shù)據(jù)中心內(nèi),就是購買的備份磁盤陣列往往比核心存儲檔次要低。在磁盤的選擇上備份系統(tǒng)也大多采用可靠性次于高速SAS磁盤的大容量SATA磁盤。存儲檔次低,磁盤配置差導(dǎo)致備份存儲性能嚴重不足。
也就是說,該銀行的備份系統(tǒng)建設(shè)模式,應(yīng)該跟大多數(shù)數(shù)據(jù)中心備份系統(tǒng)有同樣的問題,即:磁盤配置差,備份存儲性能低。
也可以看出,大多數(shù)企業(yè)存在著這樣的宕機隱患。那么信息安全如此重要的今天,如何解決這個問題?
既然問題發(fā)生在存儲系統(tǒng)上,那么解決問題的辦法也蘊藏在存儲系統(tǒng)之中。
小知識點:企業(yè)級存儲方案,一般分為備份、容災(zāi)、雙活/多活、兩地三中心等。根據(jù)企業(yè)的業(yè)務(wù)規(guī)模和核心數(shù)據(jù)的重要程度,一般金融、稅務(wù)、電信等行業(yè)的大規(guī)模關(guān)鍵業(yè)務(wù)數(shù)據(jù)保護,多采用雙活和兩地三中心方案,在業(yè)務(wù)連續(xù)性方面提供最高等級的保障。
調(diào)研了解到,基于磁盤陣列的對稱雙活技術(shù),是一種針對備份系統(tǒng)不足的最佳升級方式。
但是,原有的對稱雙活存儲技術(shù)主要實現(xiàn)在存儲的兩個控制器之間。小編采訪中了解到,宏杉科技在對稱雙活存儲技術(shù)上實現(xiàn)了突破:將一臺存儲兩個控制器之間的冗余,變?yōu)榱藘膳_存儲之間的冗余,而且不需要在服務(wù)器端增加任何第三方軟硬件,可以直接在兩臺存儲之間進行數(shù)據(jù)同步。當其中一臺存儲發(fā)生故障,另外一臺存儲會立即接管業(yè)務(wù)。實現(xiàn)RPO、RTO均為0的高等級數(shù)據(jù)保護。
具體而言,雙活讓備份系統(tǒng)有了五大優(yōu)勢。
概括來說,就是技術(shù)簡單、高效、安全、易擴展。目前這種對稱雙活技術(shù)從眾多數(shù)據(jù)保護技術(shù),已經(jīng)成為升級備份系統(tǒng)的最佳選擇了,宕機問題不怕不怕了。