1. 程式人生 > >關於自動化運維的實踐×××

關於自動化運維的實踐×××

運維自動化研究

談起自動化運維,現在已經成為運維工作最熱門的詞語,關於運維自動化本人早在2012年就已經接觸了BMC的ITSM系統,將ITIL運維管理體系和自動化運維工具的有效的結合大幅度的提高了運維工作效率。下圖為HP提的統一運維自動化理念和運維手冊,從目前企業基礎架構層來看,運維人員無關乎關心的如下幾個方面的自動化。
技術分享圖片

要了解運維自動化在企業當中應用場景和是否真正能夠解決運維團隊工作的問題。那我們則需要站到企業運維人員的角度去考慮問題。那麽我首先要知道一個企業或者運維團隊在規劃運維的時候所需要考慮的問題及面臨的挑戰。
技術分享圖片
那麽我們針對運維決策著的問題和目標逐個展開,因為產品的本質是為了解決用戶問題,幫助用戶完成自己內心預期的目標。

我們首先來看下傳統運維和自動化運維的比較:
技術分享圖片
我們從運維發展的過程來看,首先是傳統運維,主要靠手工操作。比如上線一臺服務器,登陸服務器按照操作文檔一步一步操作,更高級一點,把配置命令寫到腳本裏,運行一個或多個腳本完成配置。
有什麽缺點呢?首先,人每天重復這樣的工作,很累,又沒有體現價值,交付效率低,疲勞時還容易出錯,忘記某些配置。
使用腳本呢,容易相同功能重復開發,很多腳本不專門記錄日誌,查找歷史操作比較困難。使用腳本進行運維操作,發生了故障,由於沒有統一的運維操作日誌,無法及時了解誰做了什麽。
技術分享圖片
隨著時間的發展,運維發展到更高級的 DevOps 時代,我們也正處於這個時代。這個時代有一個明顯的特征,就是各種各樣開源工具的使用,同時自己會開發很多工具。工具帶來了效率的提升,大大加速了運維自動化的進程。

技術分享圖片
那麽這就需要一個統一的自動化運維平臺,在一個平臺內將運維工作的自動化工作完成,我們降雲產品所謂的自動化模塊頂多是網絡自動化的一個分支,隨後還請看我分享的BBNA網絡自動化的PPT詳情。 降雲只是完成了工單流程的自動化,還有策略下發的自動化,那麽什麽是運維環境的自動化,那麽我們就開始詳細說明,本章主要講述網絡自動化。
關於網絡自動化主要圍繞三個關鍵點:變更、配置、合規管理
關鍵挑戰:

設備與配置無法可視化
大批量的變更耗時長
合規&修正復雜
網絡及其復雜程度增長快,難以做到有效管理
網絡自動化產品的目標:

設備、配置、變更實時可視化
策略執行、合規報表、漏洞警告
減少錯誤、宕機事件、審計失敗
單一平臺支持多設備廠商

提高生產力,降低風險與成本。

針對上述產品要求落實到自動化的功能對照如下:
配置管理
配置采集:自動采集設備的軟硬件信息,比如型號、板卡、Flash、序列號、軟件版本、路由表、ACL等
配置備份:定期或觸發式備份設備的running和startup配置文件,並保存所有歷史
配置比對:對任意的配置文件進行比對,並醒目地標註差異部分
配置檢索:根據各種條件搜索當前或歷史配置
配置檢查
配置基線:定義受信任的配置作為配置基線,自動跟蹤當前配置與基線之間的差異
日常檢查:根據規則檢查配置是否符合一定的要求或規範,並自動通知管理員;內置大量開箱即用的規則,用戶也可以自定義規則
合規檢查:內置PCI、ITIL等合規檢查報表
運維面板:將所有檢查出來的問題通過運維面板進行集中展現
配置變更
自動生成變更腳本:對於檢查有問題的配置可自動生成變更腳本進行修復
批量並發執行作業:將以前手工執行的作業自動化,大批量並發在多臺設備設備上執行
配置恢復或回滾:不需要重啟設備實現對任意配置文件的恢復或回滾
ACL安全切換:自動生成ACL的切換步驟,確保安全無風險切換
配置模板:可定義多廠商的配置模板,可引用變量
軟件管理
軟件介質庫:自動收集所有的設備軟件,並集中保存和管理
軟件版本檢查:自動檢查軟件版本是否符合規範要求
軟件升級:批量更新軟件版本
安全管理
操作審計:自動記錄用戶的命令以及命令輸出
分轄域管理:不同用戶可以分配不同的設備管轄範圍
分權管理:不同用戶可以指定不同的權限
工作流審批:可以快速建立工作流,用戶的操作必須經過審批才能執行
報表
配置差異報表
設備庫存報表
變更統計報表
標準合規報表
合規趨勢分析報表
技術分享圖片
該圖為BMC的BBNA系統設計架構圖,降雲為內網安全策略管理平臺,網絡安全設備及網絡設備的自動化運維,安全策略的變更只是其中的一個範疇,降雲產品的目前來看在自動化運維提到的亮點就是,安全策略的自動化下發,並且能夠自動尋路。但是從目前尋路的現狀來看,尋路的穩定性強依賴於網絡的健壯性(即三層路由信息,二層及透明部署則不見得準確性有所保障)。

結合以往工作經驗有了以下想法:

在BMC的ITSM系統中,其實不管是哪家的統一自動化運維平臺,都是依賴CMDB庫,資產之間的CI關系完成變更的可視化,在大型企業的運維管理工作大多數依賴於資產管理,那麽如果資產管理形成了CI之間的管理,例如核心交換機精確到板卡上的光模塊的級聯設備(需要人工幹預),當我們發起變更請求時(安全策略開通)那麽在變更視圖下,就可以看到與該策略的幹系的所有設備,可以根據源IP地址所在的地址和目的IP所在的地址確定數據流在CI視圖下的路徑。然後逐個匹配路徑上的設備的安全策略,進行開通。並且記錄變更狀態。

個人總結:

目前各個公司運維團隊都在開發適應自己現有場景的自動化工具,可以高效率的替代了許多重復性工作,例如策略開通,端口開放,虛擬機初始化配置等等。但是自動化高效運維一定是建立在標準化的基礎之上,所以企業在信息化建設過程中,一定要做到統籌規劃,業務方、運維方、用戶方共同計劃,提取共性部分方可在此基礎上建立標準化,對於多種產品異構的環境,還需建立標準的適配庫,提取多種設備特征方可為以後的自動化打下牢固基礎。再建立自動化平臺時,架構、使用語言、並發承載能力、多場景適應性都是考慮的範疇之內,所以高效的自動化運維平臺,一定是持續優化持續改進的過程。

關於自動化運維的實踐×××