阿里雲田濤濤:高效智慧的雲,CloudOps讓運維更簡單
簡介:CloudOps:以應用為中心的自動化運維新趨勢
12月21日,在阿里雲彈性計算年度峰會上,阿里雲彈性計算體驗與控制系統負責人田濤濤發表了主題為《高效智慧的雲,CloudOps讓運維更簡單》的演講,深度解讀了雲上運維新趨勢CloudOps,並詳細介紹了阿里雲CloudOps自動化運維套件的新產品。
本文主要根據田濤濤的演講整理成文,內容分為三部分:
- 從Ops in Cloud 到CloudOps;
- 以應用為中心的自動化運維;
- CloudOps(雲上自動化運維)白皮書釋出。
01 從Ops in Cloud 到CloudOps
1、DevOps落地實踐的痛點
◾ DevOps轉型前:很多企業會發現缺乏DevOps專家;DevOps的投入初期非常重,需要組織變革與調整;內部工具能力弱,隨著業務發展,很多DevOps工具已經不能夠滿足企業的需求。
◾ DevOps實踐過程中,關注點會發生轉移:組織效能方面,更加關注如何實現高效敏捷地交付;在架構設計方面,關注如何理清架構之間的依賴關係,快速地交付應用,做異地或者多活遷移;自助服務方面,越來越多的企業選擇使用自助服務,根據Gartner《中國DevOps調查研究報告(2021年)》,到2025年會有75%大企業將自助服務看作DevOps應用最重要的趨勢。
◾ DevOps演進趨勢上,越來越多的DevOps企業都選擇了使用智慧化的決策能力,包括評估DevOps能力成熟度。
2、DevOps in Cloud 趨勢
在進行雲上DevOps的實踐過程中,很多的企業完成了微服務架構的改造和分散式應用的升級,同時服務治理也越來越成熟,但這個構成帶來的應用激增和依賴複雜度提升也為企業應用的可觀察性和系統的穩定性帶來極大的挑戰。
在DevOps的雲上轉型過程中,很多企業也給自己的巨石應用做了服務化的改造。並且幾乎所有的企業都認為,開放的API和As-Service是企業開放和服務化的核心競爭力
3、雲上運維新趨勢CloudOps
◾ 降低成本:DevOps通過組織效能的變革、數字化工具的建設,可以大大降低成本,而云可以通過按需資源彈性以及多種資源選型和付費方式來降低資源和人力的成本。
◾ 交付效率:DevOps可以實現CI/CD,而云可以實現秒級或者分鐘級的資源交付。
◾ 靈活性上:使用者對於應用的研發上線週期提出了更高的要求,比如7天交付一個APP,從0到上線至應用商店;而云同樣可以幫助客戶完成多種多樣的基礎設施的資源快速交付。
◾ 可靠性上:DevOps踐行了自動化的理念,而云天然提供了基礎設施的高可用。
從應用高可用,到技術資源高可用,以及系統的監控和洞察能力,DevOps和雲是一個非常好的組合,因此在雲上提出了一個新概念CloudOps,充分結合雲和DevOps的優點,實現1+1>2的效果。
02 以應用為中心的自動化運維
一個應用從構建到交付的整個生命週期中,客戶的關注點會發生變化:首先是應用的構建交付,如何實現自動敏捷交付;交付完成後,客戶會關注系統的可靠性;一個可以快速提升可用性的策略就是彈性,結合彈性以及高可用方案來完成系統架構的升級;隨著應用的線上,客戶也逐漸關注應用釋出後的安全合規和審計工作;而當應用的規模變得更大時,客戶就會關注成本,完成一個持續的迭代和升級完善的迴圈過程。
1、應用自動化三部曲
1. 基礎設施自動化:在過去一年時間裡,阿里雲釋出了非常多的產品來簡化基礎設施自動化。很多公司和企業開始實現自動化,但是它的問題是自動化模板基於客戶完成執行的,今天阿里雲可以讓這些模板不做任何修改,直接交給我們的引擎就可以執行。同時,越來越多的企業不太願意使用JSON或者YAML來定義自己的基礎設施,而我們今天釋出的新產品ROS CDK可以很好地解決這個問題。
此外,為了簡化自動化的交付,還提供了資源遷移工具、映象的自動化構建功能,客戶可以像構建一個容器映象一樣構建一個ECS的映象。同時,我們會定義映象族系,讓使用者永遠像使用容器映象一樣可以自動選擇最新的版本,而不需要更新配置檔案。
2. 運維自動化方面:我們的運維編排OOS開放了任務市場,把積累的非常多的最佳實踐和工具免費釋出在任務市場中,使用者可以去整合使用;同時,為了構建方便的關聯多種應用,我們也釋出了應用管理。
3. 服務自動化方面:我們始終把客戶能夠自助發現問題、排查問題、解決問題作為我們最主要的努力方向。
2、新產品:ROS Resource Migration
為了解決這個問題,阿里雲提供了新的方案,使用者可以通過阿里雲的標籤功能,在打完標籤後,我們的ROS系統會自動分析標籤的依賴關係,幫使用者構建一套IaC的模板。也就是說,使用者完全可以不瞭解IaC,也不用去寫JSON和YAML,阿里雲會自動化地生成模板。模板生成後,使用者可以非常方便地完成在多可用區、甚至多賬號、多地域的部署,會大大降低之前構建一套基礎設施模板的複雜度。同時,當用戶寫完模板後,還可以通過智慧化的模板配置和定義,保證使用者模板的部署成功率。
3、新能力:ROS的雲開發套件ROS CDK
4、新工具:應用管理
另外,應用裡最大挑戰是應用升級,包括補丁管理、作業系統配置管理等,基於應用視角,我們幫使用者做應用視角的分組,極大降低使用應用的門檻。
◾ 應用可靠效能力上:在應用構建完成之後,其實最大的挑戰就是可靠效能力。阿里雲在基礎設施上提供了強大的應用可靠效能力,比如說多地域部署、多可用區部署。
◾ 彈性容錯能力方面:我們構建了智慧預測,它可以根據使用者過去對這些資源的使用率和操作,動態推薦需要的資源;為了透明性,我們也開放了ECS事件體系,可以模擬一臺物理機宕機或者磁碟I/O hang機型基礎設施的容錯演練;同時提供了應用高可用服務,可以模擬流量防護、故障演練等,大大提升系統之間的容錯能力。
◾ 可觀測能力構建上:我們有包括雲監控、SLS、ARMS、Xtrace等產品,可以提供從基礎資源到應用再到日誌的全鏈路觀測,以保障系統的可靠性。
◾ 資料的備份和恢復:我們提供了極速快照能力,可以秒級的完成快照建立。它使得使用者進行操作變更的時候非常安全,不用像以前一樣,需要等很長時間才能做成一個快照。由於使用快照有一定成本,我們做了一個新的服務,叫做快照保留週期,使用者可以將不用的快照自動地歸檔或刪除,降低使用快照的成本。
5、安全與合規能力建設
當用戶操作安全組,有不合規的埠變更之後,系統會自動向使用者發出警告,幫助監控這些不合理的變更,避免系統風險;應用安全裡面,除了雲安全中心以外,作業系統的管控通道安全,也是我們一直關注的重點。
通過Session Manager,不需要使用者名稱密碼可以直接實現對主機的管控,同時可以將它整合到已有的系統裡,從而完成無金鑰的登入、鑑權、操作和審計等操作。
此外,今年我們還發布了新功能——高危命令攔截,當用戶執行高危命令,都可以攔截到,同時把使用者的操作加入到回放日誌。當用戶執行高危操作的時候,通過Workbench進行錄屏,錄屏傳到OSS上,從而可以大大提升我們的安全性及可審計通道的可靠性。
應用視角里,使用者非常頭疼就是判斷兩個ECS之間的配置到底有什麼差異,為什麼有的機器有問題、有的機器沒有問題。之前使用者想分析這個問題是非常難的,通過ECS的例項配置清單,我們會把諸如Windows的登錄檔、配置等資訊,幫使用者對配置資訊進行快照,快照完成之後自動分析,分析兩臺機器之間的差異,這樣的話使用者可以快速地找到這兩臺機器的差異,大大降低排查問題的時間。
我們一直在追求配置管理的集約化,我們釋出了ECS的金鑰引數管理,客戶可以把應用的引數統一到Parameter Store進行管理,它原生支援了資源編排、雲助手、運維編排等多個產品,這樣就可以避免參數配置時沒有進行集約化管理產生的問題。同時,使用Parameter Store,也支援使用者做引數審計。
通過以上新能力,可以大大簡化ECS操作方面的運維複雜度、提供安全的通道以及實現配置集約化管理。
03 CloudOps(雲上自動化運維)白皮書釋出
1、DevOps in Cloud ≠ CloudOps
◾ 首先,操作方式有差異。雲上提供了非常多的免費自動化運維工具和整合工具,可以大大地降低使用者的成本,但需要使用者和已有工具做整合。
◾ 第二,從資產到資源有差異。進行管理資源的時候,在雲上可能認為它是資源,在雲下的話可能是資產。例如,雲上管理資源的時候,更多是把原機器釋放、重新拉起一臺機器,這樣就完成配置升級、應用升級,而不需要關心資產形態,這就是雲上雲下操作形式之間的差異。
◾ 第三,統一化和規模化的差異。雲上規模化非常龐大,可以隨時開啟或者釋放非常多的機器,如果有誤操作,可能會給企業帶來比較大的成本或技術風險。
◾ 最後,雲上對於安全和審計的實時性要求非常高。
2、CloudOps主要成熟度模型與白皮書
3、阿里雲CloudOps產品族全展示
很多人說,雲端計算的本質就是運維能力的自動化。過去十多年,阿里雲彈性計算一直在簡化運維方面做了非常多的工具和努力,旨在全方位提升雲上DevOps效能,也形成了完整的CloudOps產品家族。
◾ 成本管理方面,成本優化方案和成本付費模式方案,可以大大降低使用者成本。
◾ 自動化服務上,提供了免託管運維,包括運維編排、補丁管理、配置清單、引數倉庫等。
◾ 批量交付方面,提供有OpenAPI和彈性伸縮這些工具,可以大大降低自動化交付的複雜度。
◾ 例項運維通道,提供了非常多的方式,使用者可以通過我們的web版,也可以通過雲助手和最新發布的工具做整合,從而大大降低使用自動化運維的門檻。
◾ 可靠性服務上,是所有云上使用者追求的重點,我們釋出了應用管理能力。
◾ 在可觀測能力、自助故障排查以及事件服務上,也釋出了完整套件,並且大部分服務都是免費的。
◾ 安全合規方面,包括應用環境的安全和合規審計的便捷。我們集成了很多產品,來提升整體的安全合規能力,幫助客戶及時地發現並排除安全合規的風險。
從最初的上雲到今天用好雲、管好雲的時代,阿里雲彈性計算一直在致力於為客戶提供豐富、安全、便捷的雲上運維產品與能力,未來我們也希望與大家攜手共同構建更高效、更智慧的雲上運維。
本文為阿里雲原創內容,未經允許不得轉載。