1. 程式人生 > >關於銀行業智慧化運維建設思考

關於銀行業智慧化運維建設思考

關注嘉為科技,獲取運維新知

 

 

一、現狀:銀行運維工具已實現技術條線全覆蓋,但基於運維管理的全流程自動化、智慧化尚停留在研討階段

 

根據銀監會編制的《中國銀行業資訊科技“十三五”發展規劃監管指導意見》,其中“第九章 第三節 提高運維自動化水平,打造智慧化運維體系”中明確提出對運維自動化智慧化的指導意見:

 

提高基礎資源和應用部署的自動化水平,實現快速交付、動態調整、彈性部署,降低人工操作風險,自動化部署比例不低於75%。

 

持續推進生產運維監控精細化、自動化、智慧化建設,強化系統風險和故障的早預警、早定位和早處置。

 

實現應用層面交易全流程、全節點監控全覆蓋,結合應用系統交易特性及相關資料的分析對比,提升交易過程監控的智慧化水平。強化容量管理,做好相關資源的動態規劃,預防非計劃性、突發性的容量瓶頸問題發生。

 

強化運維、開發、安全、風險管理的資訊共享和一體化協作,提升多方聯動能力。加強運維大資料分析,利用運維大資料加強業務風險防控,探索利用運維大資料推動業務流程優化並支援業務創新。

 

—— 摘錄自《中國銀行業資訊科技“十三五”發展規劃監管指導意見》

——汪曾祺

 

在運維建設較前的銀行業及網際網路企業的建設經驗中,平臺化和智慧化已成為運維體系發展的大趨勢。以阿里經驗為例,將運維發展分為五個階段,分別為L1-指令碼運維、L2-工具化運維、L3-平臺化運維、L4-資料化運維、L5-智慧運維。

隨著運維管理手段的推陳出新,逐漸地提升“系統”在執行和決策環節中的比重,從而不斷降低人工參與度,如下圖:

 

參考網址https://yq.aliyun.com/articles/637988

 

在工具化運維階段,傳統運維建設模式基本以煙囪式為主,每個煙囪只為了解決單一的運維場景,如應用釋出、系統監控、資料提取等。

 

隨著新技術不斷在資訊化建設中應用,帶來了操作單元海量化、版本更新頻繁化、監控粒度細緻化等問題,煙囪式的建設模式已經難以滿足運維發展的要求。

 

隨之而來,各個企業開始向著平臺化、一體化的方向發展。如騰訊公司的思路是採用SOA和PaaS的技術架構模式,在PaaS內將各能力封裝成各類原子平臺並自動化,如配置平臺(CMDB)、作業平臺、容器平臺、資料平臺(AI)等,而後通過任務引擎將分散在個原子平臺的功能,根據不同的場景重新連線成“串”或者“樹狀分支結構”實現全自動化、智慧化。

 

 

目前大多數銀行的資料中心經過多年建設,尚處於從“工具化”向“平臺化”過渡階段,已經建立較為全面的IT架構基礎平臺,監控與流程均有一定的建設。如統一配置管理(HP UCMDB、Remady CMDB)、監控系統(Zabbix、HP OVO)、流程管理(BMC Remedy)、自動化控制(HP SA、BMC Bladelogic)……等。

 

而IT運維管理建設多采用產品採購模式,但隨著積累的運維工具數量持續累加,繁雜的煙囪式應用使運維效率難以繼續提升,其主要體現在以下幾個方面:

 

 

 

  •  系統故障定位時間長,無法達到精準化報警,難以快速解決問題。

  • 難以評估系統當前和未來對資源的需求,以及資源分配的合理性。

  • 運維資料普遍存在分散、標準規範不統一、資料使用不規範等問題。

 

 

二、IT運維自動化、智慧化的轉型升級之路

 

隨著雲端計算、微服務在企業資訊化建設中的大量應用,IT運維崗位正在從資源管理向應用運維、從運維保障向業務運營、從低價值勞動向高附加值服務轉型發展。

 

而在這個過程中,運維平臺化和運維資料化的建設至關重要。

 

一定要充分利用資料,這裡的資料指的是運維資料,如效能監控資料、執行日誌資料、變更操作記錄等等,儘可能的接入更多的種類的資料。

 

利用這些資料,通過大資料和機器學習的技術,實現業務系統精準建設、系統資源精準配置、風險隱患精準控制,最終促進降本增效的目標。

 

 

由於目前銀行中運維管理建設還採用傳統分散建設,各種煙囪式的系統之間資料存在資料重複、資料割裂、資料不準等問題,為運維資料化建設帶來了極大的困難,具體體現在如下幾個方面:

 

  • 系統間資訊不能共享,難以形成整體,缺乏效率難題持續提升。

  • 由於資訊和功能不能共享,須在多系統內重複建設基礎功能和資料。

  •  場景覆蓋面不足,現有功能點無法跨多個系統進行場景式的編排。

 

為了解決分散的煙囪模式給運維管理建設過程中的問題,儘快實現平臺化和資料化的目標,急需通過頂層設計,實現有效整合,建立一體化的綜合管理平臺,實現資料集中儲存,統一分析,集中展示,高效處置。

 

參考騰訊、阿里頂級網際網路公司的建設經驗,建設“平臺層”來整合各煙囪式運維應用的功能和資料,從而構建一體化運維綜合管理平臺。基於一體化的運維平臺建設遵循原則如下:

 

1)   一體化平臺:採用“平臺+應用”的建設模式。

2)   功能全覆蓋:構建監、管、控於一體的運維管理。

3)   自主可控:通過平臺的模式將運維開發的能力交付給使用者。

4)   先進技術架構:構建一套高可用、高效能安全執行系統。

 

基於上述原則,規劃一體化平臺如下圖所示:

 

 

①  服務層面向用戶、管理者、維護人員輸出友好、便捷、高效的IT服務。

 

  • 面向使用者提供更多的自助式服務。

  • 面向管理者提供靈活的視覺化服務。

  • 面向維護人員提供豐富的自動化服務。

     

②   平臺層是關鍵,通過平臺層將新舊能力層系統整合在一起,產生聯動效益。

 

  • 構建統一的API服務閘道器和排程編排引擎,將能力層的各種能力對接到平臺層。

  • 構建統一門戶、4A整合、工具市場等易用模組,增強運維管理一體化能力。

  • 構建工具開發框架和執行託管環境,簡化工具建設成本。

     

③   能力層包括過往已有的運維管理系統,以及未來繼續擴充套件的管理系統。

 

  • 隨著技術的發展,需要補充運維大資料平臺、人工智慧(AI)平臺、容器管理等。

  • 已建成的功能模組需要持續優化和更新,適應新業務、新技術、新管理的要求。

     

④   採控層是在最底層規劃建設的統一採控通道,從底層保證資料一致性和準確性。

 

運維管理建設是一個長期的過程,不能追求一蹴而就,需要分階段穩步實現。參考運維技術的發展過程以及先進單位或網際網路公司,演進路徑大致如下:

 

平臺化:利用PaaS技術實現平臺層,建設一體化平臺的基礎框架。並在平臺層中將現已有的運維管理系統整合起來,從而實現一體化平臺的基礎框架。初期在平臺層之上開發3~5個運維管理工具,作為整合型運維管理工具的試點場景,並持續不斷的組裝工具以滿足運維管理的方方面面。

 

資料化:在能力層內建設運維大資料能力,將散落在各運維管理系統的資料歸集起來,形成運維資料倉庫。繼而在實際的運維管理工作中,探索資料探勘場景,利用大資料計算和分析能力輔助管理決策,實現初階AIOPS場景。

 

智慧化:正式將人工智慧(AI)應用於運維管理中的工作場景中,利用上一階段積累的資料樣本和決策模型,通過機器學習手段解決提升“AI”在管理決策中的佔比,實現根因定位、容量預測等高階AIOPS場景。

 

 

然而運維大資料技術經過近年的快速發展,相關技術的應用已經基本成熟,根據銀行業的現實狀況,可以在首期專案中就實現“運維大資料的歸集”和“大資料應用場景的探索”,從而形成“兩步走”的建設思路:

 

 

“如何利用智慧化手段提升運維管理”的研究浪潮已經掀起,部分網際網路和銀行已經進行了部分嘗試並取得了一些效果。順應時代發展趨勢,展開智慧化探索,才能主動贏得運維管理的未來。