隨著信息化應用的逐步深入,國內大中型企事業單位的IT運維管理服務能力遭遇前所未有的挑戰,這包括:基礎環境復雜、過程管理復雜、知識積累復雜等等。國神集團在構建現代IT服務管理體系的過程中,結合業務特點以及人員、流程、工具現狀,充分利用銳捷網絡RIIL IT綜合業務管理平臺,讓數據自己“說話”,全面化解運維難題,實現“五個中心”建設目標,為兩化融合提供了重要技術保障。
IT運維遭遇“三大難題”
神華國能集團有限公司前身為國網能源開發有限公司,成立于2008年4月,2012年4月從國家電網公司整體重組并入神華集團。神華神東電力有限責任公司成立于1996年11月,于2007年8月31日整體注入中國神華能源股份有限公司。2012年12月,神華集團對兩公司進行管理整合,實行“一個平臺、兩個公司、一體化運營”管理模式,簡稱“國神集團”。截至2015年7月底,國神集團在全國16個省、市、自治區擁有全資和控股子(分)公司61家。
隨著國神集團業務結構復雜程度不斷加深,業務運營及發展對信息化系統的依賴程度逐步加強,這對IT運維人員的管理能力和技術水平提出了更高要求。尤其是近兩年來云計算、虛擬化技術的不斷成熟、發展,在導入企業生產環境的同時,很大程度上降低了在IT硬件資源方面的資金投入,同時為業務系統的高可用性提供了基礎保障,然而在獲取這些成績的同時,運維管理的復雜程度也在不斷攀升。為了確保業務系統的持續性運行目標,國神集團亟需解決以下三個方面的難題:
第一、基礎環境復雜
健康的IT基礎架構環境是業務系統運行的關鍵。在面向機房動力環境、網絡結構環境、服務器以業務程序時,涉及了多廠商、多設備型號以及多版本的情況,這無疑是當前IT運維管理過程中的所面臨的最大挑戰之一。
第二、過程管理復雜
在IT服務管理中的過程管理是高效運維的關鍵。其中,人員因素起到了非常關鍵性的作用,在“專家級”人才短缺的情況下,科學嚴謹的過程管理和順手的工具,將會彌補運維短板。
第三、知識積累復雜
知識管理是IT服務管理能力提升的關鍵。在缺乏知識管理工具的情況下,運維管理過程中很難將個人經驗等隱性知識轉化為顯性知識。如何進行知識管理工具的選型及導入,對于國神集團信息化部門未來發展至關重要。
兩化融合“五中心”落地是關鍵
由于國神集團高度重視工業化與信息化(兩化)融合工作,把信息化建設作為跨越式發展、再造管理決策和技術創新高效管控體系的重要手段,在兩化融合方面為我國工業信息化作出了典范。面對未來創新發展的需要,神華國能集團總部在構建IT服務管理體系的過程中,結合業務特點以及人員、流程、工具現狀,提出以流程為導向的“五個中心”運維體系建設目標。
圖:國神集團運維服務圍繞“五個中心”進行規劃
綜合展示中心:綜合展示中心以統一化的視圖架構,展示出國神集團IT基礎架構構成,并結合人員信息、資源信息提供綜合管控依據。
服務及支持中心:服務及支持中心為運維管理提供服務支持,以面向服務的流程管理工具支持國神集團故障管理、變更管理以及服務請求管理,確保IT服務質量持續提升。
信息綜合管理中心:信息綜合管理中心作為信息發布管理入口,使信息實現各級用戶的共享,并結合國神集團資產管理、項目管理、文檔管理,使綜合業務管理更具抓手。
信息化診斷中心:信息化診斷中心作為增強診斷IT基礎架構中風險及漏洞的重要支持中心,在IT基礎架構出現異常或故障時,為故障的排查提供快速解決入口。在故障處理的過程中能夠及時、準確的定位故障源。
運維監控中心:運維監控中心是面向運行組日常運行的控制中心,為監控組提供統一的監控視圖,便于直觀的獲取IT基礎架構中的告警或異常,并通過綜合展示中心管理國神集團IT基礎架構資源運行態勢。
為了實現“五中心”建設目標,在籌備過程中,國神集團考察了國內多家IT服務廠商,經過測試和二次開發成本評估分析,最終選擇采用銳捷網絡的RIIL IT綜合業務管理平臺,通過定制化開發實現了建設規劃。在部署過程中,銳捷提出采用網絡與無線管理系統開放性的管理架構,面向用戶層提供統一的管理視圖,形成集成業務系統性能指標、故障健康、短信實時告警和數據分析的一體化平臺。
“五化”開啟主動運維轉折點
如今,智能網絡與無線管理平臺已經成為國神集團信息化系統運維的重要支撐工具,在完成IT基礎架構資源管理的同時,一改傳統的、被動救火式的運維管理方式,更多地轉變為主動性的運維管理模式,并極大程度地提升了IT運維管理效率及運維質量。
第一,自主化。平臺面向使用者提供自助化的職責分工與功能匹配。功能特點包括:全網資源告警分布、關鍵設備性能視圖,關鍵鏈路流量數據等,系統使用者能夠更加快速的掌握IT基礎環境的運行情況。在統一的平臺中應用各類面向人員及設備的統計性數據,從宏觀的角度掌握人員、設備、服務的狀態。同時,在自助化的工作臺中增加公告通知及待辦處理任務使工作窗口更加集中。
第二,可視化。在生產運營的過程中可視化的網絡拓撲結構管理,及時掌握全網資源的可用性狀態以及性能狀態。當二級單位廣域網鏈路故障時,以告警的方式對外呈現,便于運維人員及時了解全網運行狀態,實時分析網絡資源及鏈路資源的變化趨勢,結合國神集團的業務使用情況,為資源保障及擴容提供合理的數據支持。
圖:廣域網可用性監控一覽圖
第三,主動化。智能網絡及無線管理平臺,通過兩個維度進行IT基礎資源的管控,可用性管理及性能管理。二者均以不同的周期進行被管資源探測及性能數據收集,依據預先設定的閾值條件當達到閾值范圍后將通過告警的方式進行通知。告警臺收到信息后,運維工程師能夠第一時間獲取告警資源名稱、告警資源IP地址,詳細的告警內容等。通過不同的告警等級,初步判斷出告警的影響范圍,從而為提高故障解決效率提供工具層面的支持。
值得關注的是,國神集團實現了告警信息處理和知識庫進行對接。針對告警處理過程生成相應的解決方案,進行評審后可以直接進入到知識庫中進行管理。知識庫將面向所有運維工程師開放使用,確保運維知識得以積累及傳播。
第四,集中化。設備日志作為事前預警及事后分析的參照,同時在信息安全方面提供更具參考價值的信息。在日志數據采集完成之后,可以根據不同的維度進行日志分析,如:異常日志頻發的IT資源、ERR級別及Critical級別變化趨勢以及日志告警數量等。系統在收集日志后,根據不同的日志內容進行關鍵字匹配,將符合匹配內容的日志信息直接生成為告警信息。
第五,智能化。RIIL的智能分析特點大幅提升了國神集團業務系統連續性管理服務水平。建立以業務視圖為導向的管理窗口,將業務系統抽象為業務卡片,通過健康度、繁忙度及可用性來綜合性的評估業務系統的健康水平。
圖:業務系統健康狀況與性能監控視圖
針對RIIL產品的功能,以定制化部署之后的應用效果,國神集團相關負責人表示:“觀看RIIL業務卡片和各類運行數據曲線圖,能夠非常直觀地讓我們了解到IT資源的性能變化趨勢。‘讓數據自己說話’也是目前IT服務管理領域最可靠的決策方式,只有使更多真實的運行數據為運營提供參考,發現人員、流程及工具方面的漏洞及隱患,才能最終提高運維管理水平。”