压在透明的玻璃上c-国产精品国产一级A片精品免费-国产精品视频网-成人黄网站18秘 免费看|www.tcsft.com

以史為鑒 寧夏銀行7月系統(tǒng)癱瘓解析

  這段時(shí)間,存儲(chǔ)圈內(nèi)對(duì)寧夏銀行7月系統(tǒng)癱瘓事件討論熱烈,為什么作為在IT基礎(chǔ)架構(gòu)和系統(tǒng)建設(shè)都相對(duì)嚴(yán)謹(jǐn)和嚴(yán)格的銀行會(huì)頻頻出現(xiàn)宕機(jī)等問題。可能大家還記得2013年6月工行和中國銀行的兩次事件。

  “6月23日,中國工商銀行系統(tǒng)癱瘓導(dǎo)致全國多地工行系統(tǒng)柜面取款、ATM、網(wǎng)銀等無法辦理。24日,中國銀行系統(tǒng)也短暫癱瘓,一時(shí)間金融業(yè)錢荒,銀行股價(jià)暴跌,金融市場流動(dòng)性緊張。”

  對(duì)于去年發(fā)生的銀行系統(tǒng)問題,網(wǎng)友討論也比較多,歸結(jié)起來,還是系統(tǒng)維護(hù)方面紕漏。

  對(duì)于今年寧夏銀行的系統(tǒng)癱瘓事件,官方消息如下: 銀行二部(2014)187號(hào)正式發(fā)全國文件,對(duì)寧夏銀行事故的描述大致如下2014年7月1日,寧夏銀行核心系統(tǒng)數(shù)據(jù)庫出現(xiàn)故障,導(dǎo)致該行(含異地分支機(jī)構(gòu))存取款、轉(zhuǎn)賬支付、借記卡、網(wǎng)上銀行、ATM和POS業(yè)務(wù)全部中斷。

  經(jīng)初步分析,在季末結(jié)算業(yè)務(wù)量較大的情況下,因備份系統(tǒng)異常導(dǎo)致備份存儲(chǔ)磁盤讀寫處理嚴(yán)重延時(shí),備份與主存儲(chǔ)數(shù)據(jù)不一致,在采取中斷數(shù)據(jù)備份錄像操作后,造 成生產(chǎn)數(shù)據(jù)庫損壞并宕機(jī)。因?qū)幭你y行應(yīng)急恢復(fù)處置機(jī)制嚴(yán)重缺失,導(dǎo)致系統(tǒng)恢復(fù)工作進(jìn)展緩慢,直至7月3日5點(diǎn)40分核心系統(tǒng)才恢復(fù)服務(wù),業(yè)務(wù)系統(tǒng)中斷長達(dá) 37小時(shí)40分鐘,其間完全依靠手工辦理業(yè)務(wù)。

  該事件的根本原因是在于該行安全生產(chǎn)意思薄弱、應(yīng)急管理體系缺失、應(yīng)急處置過程混亂。該行核心系統(tǒng)數(shù)據(jù)庫版本嚴(yán)重老化,且2007年至今未購買核心數(shù)據(jù)庫的 維保服務(wù),核心系統(tǒng)長期缺乏維護(hù),事故發(fā)生后,無法獲得系統(tǒng)供應(yīng)商及時(shí)技術(shù)支持。系統(tǒng)恢復(fù)過程中,缺乏應(yīng)急預(yù)案和準(zhǔn)備,長時(shí)間無法實(shí)施有效處置,導(dǎo)致業(yè)務(wù) 恢復(fù)緩慢,對(duì)銀行運(yùn)營產(chǎn)生較為嚴(yán)重影響。

  對(duì)于這個(gè)事件的發(fā)生,網(wǎng)上論壇有網(wǎng)友開始懷疑當(dāng)時(shí)在2010年進(jìn)行的高大上的寧夏銀行800公里災(zāi)備演練,當(dāng)時(shí)號(hào)稱區(qū)域性商業(yè)銀行的第一次。

  查 閱資料,回憶當(dāng)時(shí)演練現(xiàn)場,時(shí)任寧夏銀行信息技術(shù)部總經(jīng)理的王春表示,隨著區(qū)域性商業(yè)銀行的跨省發(fā)展,實(shí)施災(zāi)難備份系統(tǒng)已經(jīng)勢在必行,寧夏銀現(xiàn)在實(shí)施成功 之后,實(shí)現(xiàn)了寧夏銀行所提出的“提升業(yè)務(wù)連續(xù)性,提升業(yè)務(wù)管理水平”的戰(zhàn)略目標(biāo),做到了核心系統(tǒng)的災(zāi)難恢復(fù)的“全范圍覆蓋”。

  其中演練主要包括了兩種“突發(fā)情況”:數(shù)據(jù)庫系統(tǒng)癱瘓和數(shù)據(jù)中心發(fā)生火災(zāi)——前者模擬寧夏銀行生產(chǎn)中心數(shù)據(jù)庫系統(tǒng)發(fā)生崩潰癱瘓的嚴(yán)重故障,測試根據(jù)需要啟動(dòng)應(yīng)急響應(yīng)流程,進(jìn)行本地的數(shù)據(jù)庫系統(tǒng)恢復(fù);后者模擬生產(chǎn)中心發(fā)生大火,測試根據(jù)應(yīng)急流程進(jìn)行從銀川到西安的異地切換。

  整場演練全部在真實(shí)的生產(chǎn)環(huán)境進(jìn)行,步驟銜接流暢,而且恢復(fù)速度讓在場觀摩人員無不驚嘆,兩個(gè)場景的演練時(shí)間加起來不過10分鐘:第一場數(shù)據(jù)庫癱瘓演練,4分鐘成功恢復(fù)完成;第二場火災(zāi)演練,6分鐘系統(tǒng)異地切換成功。

  當(dāng)時(shí)的IT環(huán)境是IBM AIX UNIX、Informix、EMC DMX800。

  以上是寧夏銀行2010年災(zāi)備演練情況的存儲(chǔ)在線當(dāng)時(shí)報(bào)道摘要,在整個(gè)演練過程中,飛康CDP起到了舉足輕重的作用。為此,網(wǎng)友在論壇上評(píng)論說,“停止備份 系統(tǒng),竟然會(huì)導(dǎo)致主數(shù)據(jù)庫損壞,看來FalconStor CDP ,不靠譜啊。”也有網(wǎng)友評(píng)論道:“系統(tǒng)維護(hù)沒有跟上,再好的方案也會(huì)有問題。”

  對(duì)此,阿明認(rèn)為:寧夏銀行本次事件發(fā)生的根本應(yīng)該更多歸咎在系統(tǒng)維護(hù)上,很多時(shí)候,大型企業(yè)或銀行做過周密的預(yù)案或?yàn)?zāi)備演練之后,就放松了對(duì)系統(tǒng)的整體維 護(hù),這是發(fā)生問題的主要原因所在。為此,寧夏銀行官方表態(tài)也是“2007年至今未購買核心數(shù)據(jù)庫的維保服務(wù),核心系統(tǒng)長期缺乏維護(hù),事故發(fā)生后,無法獲得 系統(tǒng)供應(yīng)商及時(shí)技術(shù)支持。”(要知道,數(shù)據(jù)庫廠商很牛叉,這是圈內(nèi)人士有目共睹的,既然長期不交“保護(hù)費(fèi)”,自然得讓你痛一下,痛定思痛之后,你就得乖乖上交數(shù)據(jù)庫“保護(hù)費(fèi)”了。)

  說完今年寧夏銀行這次事件之后,我們?cè)倩乜匆幌氯ツ旯ば小⒅行谐霈F(xiàn)的系統(tǒng)問題,當(dāng)時(shí)CSDN的夏夢(mèng)竹同學(xué)找到了一位叫jaccc的IT顧問,這位顧問的看法分析很透徹,也很中肯,對(duì)當(dāng)前寧夏銀行出現(xiàn)的系統(tǒng)問題也有借鑒意義,大家不妨“溫故知新”:

  為什么IT系統(tǒng)會(huì)出問題?

  1) 現(xiàn)代IT系統(tǒng)非常復(fù)雜,當(dāng)系統(tǒng)大到一定的程度,總會(huì)有失控的狀況。世界上就從來都沒有過沒錯(cuò)誤的復(fù)雜程序,問題只在于這個(gè)錯(cuò)誤你有沒有碰上而已。銀行的系 統(tǒng)是由很多不同軟硬件廠商的產(chǎn)品拼在一起運(yùn)作,復(fù)雜程度遠(yuǎn)超過普通家用電腦,這么簡單的家用電腦還會(huì)死機(jī)呢….而且系統(tǒng)復(fù)雜到一定程度,就不是人多或 者錢多就能完全解決問題的了,推薦看看《人月神話》。

  2)要盡量不出問題,要錢,很多錢(比如中型銀行建設(shè)一個(gè)過得去的容災(zāi)系統(tǒng)要上億)。但出問題只是“有可能”,花的錢可是實(shí)實(shí)在在的。換了你是領(lǐng)導(dǎo),你也不會(huì)無限制的向里面投錢。

  3)穩(wěn)定運(yùn)行的最好的辦法之一是不對(duì)系統(tǒng)進(jìn)行改造。由于有新的業(yè)務(wù)要求,系統(tǒng)確實(shí)要不停的升級(jí),很多銀行每周都在升級(jí),每次變動(dòng)對(duì)系統(tǒng)的穩(wěn)定運(yùn)行都是一個(gè)挑戰(zhàn)。你每天走路有時(shí)候還會(huì)摔倒,只要一動(dòng)作,就有出錯(cuò)的可能,這就是科學(xué)。

  為什么會(huì)大面積的出現(xiàn)問題?

  因?yàn)槿齻€(gè)字:大集中。最早之前,銀行系統(tǒng)還沒聯(lián)網(wǎng),一出問題只是某個(gè)區(qū)或者某個(gè)市。最近十多年銀行業(yè)都在搞大集中:五大行除了中國銀行之外的四家都已經(jīng)完成了大集中。

  為什么這種故障好像越來越多了?

  以前沒有微博沒有微信,只要你不是倒霉的用戶就不會(huì)知道出過問題。我要不是上微博也不知道工行出這么大的事。以前沒有網(wǎng)銀沒有淘寶,你半夜不會(huì)買東西刷卡。用行話來說就是以前沒那么多7*24的需求(一周7天,一天24小時(shí)運(yùn)行)。

  為什么沒有應(yīng)急預(yù)案或者應(yīng)急預(yù)案沒有起作用?

  與電信運(yùn)營商,政府行業(yè),普通企業(yè)相比,銀行是中國IT業(yè)中IT基礎(chǔ)最好,最嚴(yán)謹(jǐn)?shù)男袠I(yè)。比如有的銀行還要求廠商維護(hù)人員不能操作,只能銀行員工操作。

  大的變更一定會(huì)有預(yù)案,甚至換個(gè)硬盤,改個(gè)IP這種做過幾百次的操作都會(huì)有預(yù)案。但預(yù)案與真實(shí)一般都有相當(dāng)差距。上面已經(jīng)提到系統(tǒng)非常復(fù)雜,可能出現(xiàn)的問題如果真全部寫下來,可能有幾百幾千分支。而且,系統(tǒng)的故障并不會(huì)根據(jù)你的應(yīng)急預(yù)案來發(fā)生。

  只靠應(yīng)急預(yù)案真解決問題的概率比拿著《泡妞指南》泡到美眉的幾率還低,應(yīng)急預(yù)案的最重要的作用是應(yīng)付上級(jí)監(jiān)管,根據(jù)應(yīng)急預(yù)案搭好可能需要的應(yīng)急軟硬件環(huán)境,大致理清概要思路,以及鍛煉團(tuán)隊(duì)。真有復(fù)雜問題,還是靠牛人現(xiàn)場解決的多。

  平心而論,工行的IT能力和運(yùn)維水平在四大行里面不是第一就是第二了(不同的省份略有不同)。

  為什么要停幾個(gè)小時(shí)這么久?

  先 說定位問題的時(shí)間:從發(fā)現(xiàn)問題上報(bào)到IT信息中心(或者在監(jiān)控系統(tǒng)發(fā)現(xiàn)問題),IT中心的人開始查系統(tǒng),定位故障原因,如果定位不清還要找相關(guān)的軟硬件人 員到場或者遠(yuǎn)程網(wǎng)絡(luò)支持(基于安全原因,銀行大部分都不能遠(yuǎn)程網(wǎng)絡(luò)查看系統(tǒng),維護(hù)人員到數(shù)據(jù)中心也需要時(shí)間,如果還堵車…..),找出問題的根源,一 小時(shí)算超快的了。類似你莫名高燒,到底是哪個(gè)器官出問題,去醫(yī)院做檢查做判斷總需要時(shí)間吧???解決問題就更不好說了,其實(shí)和大家的電腦一樣,往往重啟是 最有效的方法,但很多業(yè)務(wù)系統(tǒng)部分出現(xiàn)問題是不能重啟的(可能會(huì)影響別的業(yè)務(wù)系統(tǒng))。至今國外各大廠商的標(biāo)準(zhǔn)維護(hù)合同,絕大部分都沒有承諾修復(fù)時(shí)間。?? 根據(jù)手頭的一份略過時(shí)的銀監(jiān)會(huì)突發(fā)事件應(yīng)急管理規(guī)范:一個(gè)省停業(yè)6個(gè)小時(shí)以上才算I級(jí)特別重大突發(fā)事件,3小時(shí)是II級(jí),半小時(shí)以上是III級(jí)。以管窺 豹,落葉知秋,幾小時(shí)真不算什么。

  不是說有容災(zāi)和備份嗎?為啥不快速切過去就好了?

  這是一個(gè)很常見的誤解:出了故障的時(shí)候,有備份系統(tǒng)和容災(zāi)系統(tǒng)就可以很快恢復(fù)業(yè)務(wù)。一懷愁緒,幾年離索,錯(cuò),錯(cuò),錯(cuò)。

  先 說備份系統(tǒng),常規(guī)備份系統(tǒng)是不能運(yùn)行業(yè)務(wù)程序的:備份一般只是把數(shù)據(jù)保存多一份或者幾份,一般是在丟數(shù)據(jù)的時(shí)候才用來恢復(fù),而且恢復(fù)的時(shí)間很多都在幾小時(shí) 以上。類似大家手頭只有一個(gè)avi文件,沒有播放軟件也沒法看啊,只不過銀行的“播放軟件”要架設(shè)起來就復(fù)雜了…..

  再 說容災(zāi)系統(tǒng),強(qiáng)調(diào)一個(gè)連很多IT人都不清楚的事實(shí):銀行容災(zāi)系統(tǒng)不會(huì)輕易啟用整體切換!前面已經(jīng)說了,IT系統(tǒng)已經(jīng)這么復(fù)雜了,容災(zāi)系統(tǒng)相當(dāng)于再復(fù)制一 套,復(fù)雜性增加了不止2倍。切換起來是非常麻煩,非常傷筋動(dòng)骨,驚動(dòng)非常多人力物力,不是碰到大災(zāi)大難(比如地震,機(jī)房著火,恐怖分子爆炸之類)不會(huì)進(jìn)行 切換。

  當(dāng)然平時(shí)會(huì)進(jìn)行容災(zāi)切換演練,但一般不會(huì)拿核心系統(tǒng)來真實(shí)切換,原因是有風(fēng)險(xiǎn)。以前也出現(xiàn)過華東某省級(jí)行(還 是某省某運(yùn)營商?記不太清楚了)切換到了容災(zāi)中心后切不回生產(chǎn)中心的悲催慘劇。最近西北某地農(nóng)信社成功的把核心生產(chǎn)切到了容災(zāi)系統(tǒng)上,比較不簡單,不過這 畢竟是獨(dú)立法人的小銀行,大行不是這么個(gè)玩法。

  這么說吧,迄今為止,五千年來,四大行的核心容災(zāi)系統(tǒng)都沒出現(xiàn)過需要 兩地切換的重大災(zāi)難的場景,和準(zhǔn)備買iPhone6的腎一樣,有兩個(gè),沒切過,但時(shí)刻準(zhǔn)備著切….其實(shí)個(gè)人不太靠譜的猜想,就算停個(gè)三五天,各大行都 不會(huì)愿意全業(yè)務(wù)切換,今天這種停幾小時(shí)的算個(gè)毛有啥好切的,趕快修好系統(tǒng)就是了。

  另外,看到有不少評(píng)論說“沒人敢擔(dān) 風(fēng)險(xiǎn)切換到災(zāi)備節(jié)點(diǎn)上”。其實(shí)一般是這樣的:建好容災(zāi)系統(tǒng)之后往往都會(huì)寫一套DRP(災(zāi)難恢復(fù)計(jì)劃)或者BCP(業(yè)務(wù)連續(xù)性計(jì)劃),就是容災(zāi)系統(tǒng)啟動(dòng)的流 程方案,里面會(huì)規(guī)定好什么場景下由什么人拍板切換到災(zāi)備中心,一般不會(huì)真出問題才臨時(shí)來拍腦袋來想,(當(dāng)然臨時(shí)調(diào)整也是有可能的),也不是誰說切換就誰去 背黑鍋。

  當(dāng)然,大部分的小故障會(huì)通過雙機(jī)切換,快速重啟部分應(yīng)用的等方式解決。但很快解決了,你們就意識(shí)不了其實(shí)已經(jīng)出過故障了嘛,是不是 有點(diǎn)人擇原理的味道?……但總有無法快速解決的問題。補(bǔ)充一句,當(dāng)然業(yè)界有很多新技術(shù)已經(jīng)把備份高可用災(zāi)備等揉在一起了,但銀行業(yè)應(yīng)用還不多,這 里就不展開了。

  升級(jí)要失敗,快速回退不就好了嘛?

  一個(gè)常見的誤會(huì):升級(jí)不成功馬上回退啊。這是很理想的情形,現(xiàn)實(shí)的情形是這樣的:

  1)技術(shù)上無法回退。我舉個(gè)例子,你從winxp升級(jí)到win7,升到一半,藍(lán)屏了,或者報(bào)某個(gè)文件包找不到了。你會(huì)回退嗎?

  2)回退的風(fēng)險(xiǎn)更大,升級(jí)過程中很多配置,軟硬件都改掉了,改不回來了,或者耗費(fèi)的時(shí)間比繼續(xù)升級(jí)更大。

  3)硬著頭皮沖過去就算超了時(shí)間的還能找個(gè)理由掩飾一下,回退了就確定升級(jí)失敗了,下次繼續(xù)升級(jí)的政治壓力會(huì)很大。

  所以實(shí)際情況中,除非可以很干凈利落的回退,而且實(shí)在升級(jí)無法成功,才會(huì)回退。真的升級(jí)切割出問題會(huì)進(jìn)行回退的不超過5%。

  周日到底出什么問題了?

  在 中國,無論出現(xiàn)什么IT系統(tǒng)問題,對(duì)外宣稱總是電腦系統(tǒng)升級(jí)。我以前就有個(gè)變態(tài)的習(xí)慣在處理故障中途如果有空(等別人處理或者等系統(tǒng)回滾什么的時(shí)候)就打 呼叫中心電話,聽那些美眉怎么解釋系統(tǒng)用不了了。清一色的,100%的,毫無例外都說是電腦系統(tǒng)升級(jí)。當(dāng)我再問為什么大白天升級(jí)啊?為什么之前不通知我們 客戶啊?這時(shí)候就能體現(xiàn)呼叫中心的培訓(xùn)能力的差距了。

  回到今天這事,別說我現(xiàn)在還沒去八卦,就算知道了也不可能公開 說,這是職業(yè)操守的問題。而且有的故障的真相是查不出來的(你知道你每次生病的確切原因嗎?),有的故障是查出來但不能實(shí)說(一般故障分析報(bào)告書很快就能 到競爭對(duì)手手中)。這種情況下,怎么去寫故障分析報(bào)告,是一門藝術(shù):真相不重要,達(dá)到目的才重要。這個(gè)目的有可能是大事化小,有可能是小事化大,水深著 呢。

  這幾天微信圈里,繼續(xù)在討論寧夏銀行系統(tǒng)問題,據(jù)圈內(nèi)人士透露,銀監(jiān)會(huì)正在查這件事情, IBM和飛康都在等待結(jié)果。相信事實(shí)的真相不久后將浮出水面。

  阿明點(diǎn)評(píng):銀 行系統(tǒng)相對(duì)復(fù)雜,銀行IT建設(shè)也相對(duì)要求嚴(yán)格與苛刻,在建設(shè)好了IT系統(tǒng)之后,只是萬里長征走了第一步,后面更為重要的是長期的運(yùn)行與維護(hù),包括核心系 統(tǒng)、數(shù)據(jù)庫的后續(xù)維保等,因此,這也是為什么某國內(nèi)著名廠商舍得將設(shè)備免費(fèi)送給銀行測試一年多,希望得到銀行采購后長期使用,只有使用之后才有價(jià)值,一旦 使用了,后續(xù)的服務(wù)收費(fèi)才是真金白銀。

  因此,不管是什么情況,不管遇到什么變化,只有長期的服務(wù)品質(zhì)不變,長期保持演練時(shí)的心態(tài)不變,即便遇到突發(fā)情況,也會(huì)比想象的情況要好一些。

 

上一篇:智能無懼挑戰(zhàn) 山石網(wǎng)科轟動(dòng)RSA2015

下一篇:下一代防火墻采購須知