10 月 20 日,由魅族科技聯合Flyme、麥思博(msup)有限公司、百度云主辦的第十三期魅族技術開放日“智能運維實踐”在深圳虛擬大學園觸夢社區順利召開,近200位運維從業者齊聚一堂。
本次活動以“ 智能運維實踐”為主題,特邀請到魅族系統架構師梁鵬、百度云智能運維負責人曲顯平以及虎牙直播業務運維負責人張觀石,與現場學員共同探討當下運維的痛點;對于運維的理解;智能運維方法論以及智能運維的平臺產品和最佳實踐,為大家帶來了一場技術盛宴。
在本次活動中,首先由梁鵬先生帶來了主題為《 魅族CMDB運維自動化實踐》的演講。他主要從運維自動化發展歷程、CMDB運維的痛點、CMDB運維自動化實踐、后續發展和演進四個方面進行了闡述。
隨著移動互聯網由1.0到3.0+的發展,運維平臺的架構也在不斷演進和優化,給運維人員帶來了諸多挑戰。梁鵬先生就這些挑戰,和團隊一起,從質量、成本、安全、效率四個維度,建設了資源管理平臺(CMDB平臺、KVM云平臺、容器平臺)、配置管理平臺(DNS管理平臺、LVS管理平臺、CDN管理平臺)、自動化平臺(發布平臺、工單平臺、巡檢平臺)、監控容量平臺(基礎監控、業務監控、容量系統)、安全平臺(堡壘機、漏洞系統、WAF系統)。接著他重點講述了CMDB平臺,并對其運維的痛點,做出了五點總結,即權限管理混亂;生命周期沒有流程化、自動化;數據不準確;變更信息維護效率低;異常數據的發現和修復。
此外,還總結出了三個維度,平臺運維效率低、平臺數據質量低、流程未標準化,并對運維自動化實踐所做的事宜進行了詳細的闡述(從CMDB模型和標準、CMDB數據管理、CMDB實現的目標、流程管理自動化、數據自動化采集、數據異常巡檢、資源池管理、維保管理角度一一介紹分享)。最后,梁鵬先生表示今后會對權限進一步優化,提高數據準確率,對CMDB平臺也做出了展望,他相信未來數據采集方案會更完整和智能,同時也會流程化管理數據,更詳細的擬定元數據異常巡檢的規則及修復自動化。
隨后,來自百度云智能運維負責人曲顯平發表了《百度云智能運維實踐》的演講。曲顯平先生首先為大家講述了百度對于DevOps、SRE、AIOps三個概念的理解。
百度的運維技術歸納起來總共經歷過三個階段,即基礎運維平臺、開放運維平臺、AIOps階段。百度對AIOps的探索主要在監控整個體系上面的嘗試,比如故障管理中的發現,變更管理的監控,監控體系中的告警。基于現有數據,他們通過算法來驅動,按照策略、類型、業務、機房、人的維度去合并,當然對于一些特殊的場景其實并不能適配,還需要個性化定制。
對于故障自愈方面結合業務場景去收集全局信息,然后通過算法去幫助快速決策,而在所有的能夠故障自愈的場景中,不止是底層的公共設施,業務自身也需要具備自愈能力,所以這部分是底層技術和業務共同實現的。
無人值守變更管理,這其實對于自助化服務來說其實是一個非常重要的環節,百度的整體方案還是結合DevOps自動化流水線的方式來驅動,其中涉及到流量調度、變更多次、信息通知,當然在整個變更過程中,把時間、任務、可用性影響、用戶影響、上下游的影響涵蓋了。最后曲顯平先生為我們講述了AIOps遇到的挑戰及ChatOps的難點,收到了參會者一致的好評。最后一位分享嘉賓是虎牙直播業務運維負責人張觀石,他為參會者帶來了《直播平臺的SRE實踐》主題演講。
首先,張老師簡單為我們介紹了虎牙直播、S8賽事。直播平臺跟傳統的Web網站類不一樣,相對于Web服務,直播音視頻的運維更特殊,業界沒有很好的參考經驗,所以對于運維的挑戰比較大。傳統的運維,音視頻技術可以對開源組件做部署、配置、優化、高可用轉站。從整個鏈路看,視頻數據量大,采集難、監控難。由此引出了SRE方法論及六種能力框架,即可靠性管理、感知能力、修復能力的建設、反脆弱能力、保障能力、安全能力。
接著,就這六種能力框架,張老師對其進行了詳細的解讀。在引入多CDN以后,技術和管理復雜性都有大幅提高,而且視頻流路徑在這么復雜的場景下,必須深入音視頻運維工作,這對運維質量和運維人員技能提出了更高的要求。
演講結束后,大家意猶未盡的和老師當面進行了技術交流,共同就智能運維在不同業務場景落地實踐的技術難點與解決辦法展開了熱烈的討論。
本期魅族技術開放日在大家的交流聲中,落下帷幕。