1. 程式人生 > 其它 >阿里雲田濤濤:高效智慧的雲,CloudOps讓運維更簡單

阿里雲田濤濤:高效智慧的雲,CloudOps讓運維更簡單

簡介:CloudOps:以應用為中心的自動化運維新趨勢

12月21日,在阿里雲彈性計算年度峰會上,阿里雲彈性計算體驗與控制系統負責人田濤濤發表了主題為《高效智慧的雲,CloudOps讓運維更簡單》的演講,深度解讀了雲上運維新趨勢CloudOps,並詳細介紹了阿里雲CloudOps自動化運維套件的新產品。

阿里雲彈性計算體驗與控制系統負責人田濤濤

本文主要根據田濤濤的演講整理成文,內容分為三部分:

  1. 從Ops in Cloud 到CloudOps;
  2. 以應用為中心的自動化運維;
  3. CloudOps(雲上自動化運維)白皮書釋出。

01 從Ops in Cloud 到CloudOps

1、DevOps落地實踐的痛點

DevOps從提出到現在已經有12年了,很多企業已經開始踐行DevOps,並且取得了非常好的成功。但是,企業在DevOps落地實踐過程中遇到了不同的挑戰:

DevOps轉型前:很多企業會發現缺乏DevOps專家;DevOps的投入初期非常重,需要組織變革與調整;內部工具能力弱,隨著業務發展,很多DevOps工具已經不能夠滿足企業的需求。

DevOps實踐過程中,關注點會發生轉移:組織效能方面,更加關注如何實現高效敏捷地交付;在架構設計方面,關注如何理清架構之間的依賴關係,快速地交付應用,做異地或者多活遷移;自助服務方面,越來越多的企業選擇使用自助服務,根據Gartner《中國DevOps調查研究報告(2021年)》,到2025年會有75%大企業將自助服務看作DevOps應用最重要的趨勢。

DevOps演進趨勢上,越來越多的DevOps企業都選擇了使用智慧化的決策能力,包括評估DevOps能力成熟度。

2、DevOps in Cloud 趨勢

結合企業上雲的趨勢,越來越多的企業已經開始在公共雲上使用DevOps,這個過程中需要做應用的雲化改造和適配,同時結合雲原生的工具和任務流程編排,提升交付的效率。

在進行雲上DevOps的實踐過程中,很多的企業完成了微服務架構的改造和分散式應用的升級,同時服務治理也越來越成熟,但這個構成帶來的應用激增和依賴複雜度提升也為企業應用的可觀察性和系統的穩定性帶來極大的挑戰。

在DevOps的雲上轉型過程中,很多企業也給自己的巨石應用做了服務化的改造。並且幾乎所有的企業都認為,開放的API和As-Service是企業開放和服務化的核心競爭力

3、雲上運維新趨勢CloudOps

基於以上這些DevOps在雲上的趨勢,阿里雲彈性計算定義了CloudOps的模型,結合DevOps和雲的雙重優勢可以從成本、交付速度、靈活性和系統可靠性四個維度來看:

降低成本:DevOps通過組織效能的變革、數字化工具的建設,可以大大降低成本,而云可以通過按需資源彈性以及多種資源選型和付費方式來降低資源和人力的成本。

交付效率:DevOps可以實現CI/CD,而云可以實現秒級或者分鐘級的資源交付。

靈活性上:使用者對於應用的研發上線週期提出了更高的要求,比如7天交付一個APP,從0到上線至應用商店;而云同樣可以幫助客戶完成多種多樣的基礎設施的資源快速交付。

可靠性上:DevOps踐行了自動化的理念,而云天然提供了基礎設施的高可用。

從應用高可用,到技術資源高可用,以及系統的監控和洞察能力,DevOps和雲是一個非常好的組合,因此在雲上提出了一個新概念CloudOps,充分結合雲和DevOps的優點,實現1+1>2的效果。

02 以應用為中心的自動化運維

CloudOps的核心理念是以應用為中心,因為只有應用才是客戶最關注的

一個應用從構建到交付的整個生命週期中,客戶的關注點會發生變化:首先是應用的構建交付,如何實現自動敏捷交付;交付完成後,客戶會關注系統的可靠性;一個可以快速提升可用性的策略就是彈性,結合彈性以及高可用方案來完成系統架構的升級;隨著應用的線上,客戶也逐漸關注應用釋出後的安全合規和審計工作;而當應用的規模變得更大時,客戶就會關注成本,完成一個持續的迭代和升級完善的迴圈過程。

1、應用自動化三部曲

自動化是系統升級改造的基礎,應用實現自動化包括幾個大的部分,其中最主要的是:基礎設施的自動化、運維自動化、服務自動化。

1. 基礎設施自動化:在過去一年時間裡,阿里雲釋出了非常多的產品來簡化基礎設施自動化。很多公司和企業開始實現自動化,但是它的問題是自動化模板基於客戶完成執行的,今天阿里雲可以讓這些模板不做任何修改,直接交給我們的引擎就可以執行。同時,越來越多的企業不太願意使用JSON或者YAML來定義自己的基礎設施,而我們今天釋出的新產品ROS CDK可以很好地解決這個問題。

此外,為了簡化自動化的交付,還提供了資源遷移工具、映象的自動化構建功能,客戶可以像構建一個容器映象一樣構建一個ECS的映象。同時,我們會定義映象族系,讓使用者永遠像使用容器映象一樣可以自動選擇最新的版本,而不需要更新配置檔案。

2. 運維自動化方面:我們的運維編排OOS開放了任務市場,把積累的非常多的最佳實踐和工具免費釋出在任務市場中,使用者可以去整合使用;同時,為了構建方便的關聯多種應用,我們也釋出了應用管理。

3. 服務自動化方面:我們始終把客戶能夠自助發現問題、排查問題、解決問題作為我們最主要的努力方向。

2、新產品:ROS Resource Migration

先介紹第一個產品——ROS Resource Migration,很多人都覺得,IaC(Infrastructure as Code)非常好,但在實踐過程中挑戰非常大。首先寫出IaC的模板非常難,它需要非常多、非常複雜的領域知識和對指令碼語言的理解;另一方面,模板寫完後,隨著應用架構升級,需要持續的更新模板來反映最新的基礎架構。

為了解決這個問題,阿里雲提供了新的方案,使用者可以通過阿里雲的標籤功能,在打完標籤後,我們的ROS系統會自動分析標籤的依賴關係,幫使用者構建一套IaC的模板。也就是說,使用者完全可以不瞭解IaC,也不用去寫JSON和YAML,阿里雲會自動化地生成模板。模板生成後,使用者可以非常方便地完成在多可用區、甚至多賬號、多地域的部署,會大大降低之前構建一套基礎設施模板的複雜度。同時,當用戶寫完模板後,還可以通過智慧化的模板配置和定義,保證使用者模板的部署成功率。

3、新能力:ROS的雲開發套件ROS CDK

最近幾年,我們發現很多企業都非常希望能夠擁抱CloudOps,但是他們不喜歡JSON和YAML,為此阿里雲今年也釋出了新能力——ROS的雲開發套件ROS CDK(Cloud Development Toolkit)。

它可以使用高階的語言(如JAVA/Python等),像寫指令碼一樣直接生成ROS模板,然後通過ROS模板再生成使用者的基礎資源設施。總結起來就是可以選擇自己的開發語言、自己熟悉的程式設計模型,高效的實現Infrastructure as Code。

4、新工具:應用管理

為了簡化應用的構建,阿里雲釋出了應用管理。應用管理非常簡單,只需要選擇一個標籤或者匯入已有資源,可以快速構建一套應用。有了應用視角之後,它可以是跨多產品的,幫使用者去做自動化的運維、監控、釋出和CI/CD,大大簡化了整個運維過程、降低了成本。

另外,應用裡最大挑戰是應用升級,包括補丁管理、作業系統配置管理等,基於應用視角,我們幫使用者做應用視角的分組,極大降低使用應用的門檻。

應用可靠效能力上:在應用構建完成之後,其實最大的挑戰就是可靠效能力。阿里雲在基礎設施上提供了強大的應用可靠效能力,比如說多地域部署、多可用區部署。

彈性容錯能力方面:我們構建了智慧預測,它可以根據使用者過去對這些資源的使用率和操作,動態推薦需要的資源;為了透明性,我們也開放了ECS事件體系,可以模擬一臺物理機宕機或者磁碟I/O hang機型基礎設施的容錯演練;同時提供了應用高可用服務,可以模擬流量防護、故障演練等,大大提升系統之間的容錯能力。

可觀測能力構建上:我們有包括雲監控、SLS、ARMS、Xtrace等產品,可以提供從基礎資源到應用再到日誌的全鏈路觀測,以保障系統的可靠性。

資料的備份和恢復:我們提供了極速快照能力,可以秒級的完成快照建立。它使得使用者進行操作變更的時候非常安全,不用像以前一樣,需要等很長時間才能做成一個快照。由於使用快照有一定成本,我們做了一個新的服務,叫做快照保留週期,使用者可以將不用的快照自動地歸檔或刪除,降低使用快照的成本。

5、安全與合規能力建設

安全&合規能力也是阿里雲和彈性計算基礎能力,在基礎平臺(如網路安全和系統審計能力)和應用安全兩個方面之外,我們今天提供了更多的能力。

當用戶操作安全組,有不合規的埠變更之後,系統會自動向使用者發出警告,幫助監控這些不合理的變更,避免系統風險;應用安全裡面,除了雲安全中心以外,作業系統的管控通道安全,也是我們一直關注的重點。

很多人運維ECS的時候,喜歡用SSH/RDP來登入伺服器進行操作,阿里雲提供的雲助手,我們開放了基本的API,像一個瀏覽器請求一樣,使用者可以直接在客戶端進行主機端的操作。不少使用者反饋說,這個操作不像SSH一樣便捷、不友好,所以我們釋出了新功能——Session Manager

通過Session Manager,不需要使用者名稱密碼可以直接實現對主機的管控,同時可以將它整合到已有的系統裡,從而完成無金鑰的登入、鑑權、操作和審計等操作。

此外,今年我們還發布了新功能——高危命令攔截,當用戶執行高危命令,都可以攔截到,同時把使用者的操作加入到回放日誌。當用戶執行高危操作的時候,通過Workbench進行錄屏,錄屏傳到OSS上,從而可以大大提升我們的安全性及可審計通道的可靠性。

應用視角里,使用者非常頭疼就是判斷兩個ECS之間的配置到底有什麼差異,為什麼有的機器有問題、有的機器沒有問題。之前使用者想分析這個問題是非常難的,通過ECS的例項配置清單,我們會把諸如Windows的登錄檔、配置等資訊,幫使用者對配置資訊進行快照,快照完成之後自動分析,分析兩臺機器之間的差異,這樣的話使用者可以快速地找到這兩臺機器的差異,大大降低排查問題的時間。

我們一直在追求配置管理的集約化,我們釋出了ECS的金鑰引數管理,客戶可以把應用的引數統一到Parameter Store進行管理,它原生支援了資源編排、雲助手、運維編排等多個產品,這樣就可以避免參數配置時沒有進行集約化管理產生的問題。同時,使用Parameter Store,也支援使用者做引數審計。

通過以上新能力,可以大大簡化ECS操作方面的運維複雜度、提供安全的通道以及實現配置集約化管理。

03 CloudOps(雲上自動化運維)白皮書釋出

1、DevOps in Cloud ≠ CloudOps

在雲上用DevOps是不是就是CloudOps呢?可能不是的。根據最新的2021年的DevOps報告,其實只有20%的企業在雲上充分發揮了DevOps的優勢,這是因為雲上雲下有非常大的差異。

首先,操作方式有差異。雲上提供了非常多的免費自動化運維工具和整合工具,可以大大地降低使用者的成本,但需要使用者和已有工具做整合。

第二,從資產到資源有差異。進行管理資源的時候,在雲上可能認為它是資源,在雲下的話可能是資產。例如,雲上管理資源的時候,更多是把原機器釋放、重新拉起一臺機器,這樣就完成配置升級、應用升級,而不需要關心資產形態,這就是雲上雲下操作形式之間的差異。

第三,統一化和規模化的差異。雲上規模化非常龐大,可以隨時開啟或者釋放非常多的機器,如果有誤操作,可能會給企業帶來比較大的成本或技術風險。

最後,雲上對於安全和審計的實時性要求非常高

2、CloudOps主要成熟度模型與白皮書

我們認為,CloudOps不僅僅是在雲上用DevOps,更多的是要求使用者關注雲的特點。這些特點歸納為5個維度,即自動化能力、彈效能力、可靠效能力、安全合規能力以及成本和資源量化。我們詳細劃分了雲上DevOps的5大領域,同時我們也把每個領域定義並劃分了級別,形成了CloudOps主要成熟度模型。

以自動化為例,現在比較流行的看法是希望能做到無人值守,這些都定義在CloudOps主要成熟度模型裡。我們希望通過這個成熟度模型,幫助客戶衡量目前在雲上DevOps是否已經足夠成熟,以及如何能夠提升自己的成熟度。

為了更好地幫助客戶理解我們的CloudOps成熟度模型,我們釋出了CloudOps白皮書,阿里雲彈性計算的10餘位技術專家共同撰寫的CARES模型,從成本管理、自動化、可靠性、彈性容量管理以及安全合規五個方面,展示瞭如何能夠在雲上找到合適的運維方式和運維工具。

3、阿里雲CloudOps產品族全展示

很多人說,雲端計算的本質就是運維能力的自動化。過去十多年,阿里雲彈性計算一直在簡化運維方面做了非常多的工具和努力,旨在全方位提升雲上DevOps效能,也形成了完整的CloudOps產品家族。

成本管理方面,成本優化方案和成本付費模式方案,可以大大降低使用者成本。

自動化服務上,提供了免託管運維,包括運維編排、補丁管理、配置清單、引數倉庫等。

批量交付方面,提供有OpenAPI和彈性伸縮這些工具,可以大大降低自動化交付的複雜度。

例項運維通道,提供了非常多的方式,使用者可以通過我們的web版,也可以通過雲助手和最新發布的工具做整合,從而大大降低使用自動化運維的門檻。

可靠性服務上,是所有云上使用者追求的重點,我們釋出了應用管理能力。

在可觀測能力、自助故障排查以及事件服務上,也釋出了完整套件,並且大部分服務都是免費的。

安全合規方面,包括應用環境的安全和合規審計的便捷。我們集成了很多產品,來提升整體的安全合規能力,幫助客戶及時地發現並排除安全合規的風險。

從最初的上雲到今天用好雲、管好雲的時代,阿里雲彈性計算一直在致力於為客戶提供豐富、安全、便捷的雲上運維產品與能力,未來我們也希望與大家攜手共同構建更高效、更智慧的雲上運維

原文連結

本文為阿里雲原創內容,未經允許不得轉載。