在2023年于杭州舉辦的云棲大會論壇現(xiàn)場,阿里云高級技術專家、客戶系統(tǒng)穩(wěn)定性工程師劉清龍,與越秀地產云計算架構師張可,共同分享了名為《公共云云上業(yè)務穩(wěn)定性建設實踐》的主題演講,從阿里云客戶穩(wěn)定性工程師,與合作企業(yè)架構師雙視角,介紹了阿里云基于云上分布式的技術設施,結合云上穩(wěn)定性實踐經驗,對云上業(yè)務穩(wěn)定性體系建設進行系統(tǒng)講解。
新技術也面臨新挑戰(zhàn)
在數(shù)字產業(yè)蓬勃發(fā)展的當下,我國云計算市場仍處于快速發(fā)展期,根據2023年工信部數(shù)據顯示,目前我國上云企業(yè)累計超過380萬家,仍有較大發(fā)展空間。預計 2025 年我國云計算整體市場規(guī)模將超萬億元。隨著客戶云上業(yè)務規(guī)模越來越大,迭代速度越來越快,系統(tǒng)復雜度越來越高,如何保障云上業(yè)務穩(wěn)定性這個話題也變的愈發(fā)重要。
劉清龍介紹自己崗位目前是一名客戶穩(wěn)定性工程師(簡稱CRE),負責對接阿里云客戶穩(wěn)定性建設需求和故障應急響應,這也是一個近年來因為云技術發(fā)展而新生的崗位,劉清龍也是國內第一批客戶穩(wěn)定性工程師(簡稱CRE)。
客戶穩(wěn)定性工程師的使命
隨著云服務的不斷發(fā)展,越來越多的企業(yè)將核心業(yè)務遷移到云端,以降低運維成本、提高業(yè)務靈活性和可擴展性。云計算在業(yè)務穩(wěn)定性方面的優(yōu)勢越來越受到企業(yè)和開發(fā)者的關注,如何在云上提高客戶的業(yè)務穩(wěn)定性變?yōu)樵茝S商要努力的方向。阿里云因此設立了客戶穩(wěn)定性工程師這個角色,基于客戶的視角和立場來提高業(yè)務在云上的穩(wěn)定性。(從tam到cre)
云上穩(wěn)定性工程師(簡稱CRE)負責幫助客戶建設云上穩(wěn)定性體系,穩(wěn)定用云;建設應急體系,云上應急;踐行行業(yè)最佳用云實踐,用云標準。作為CRE他們需要具備極高的專業(yè)性,熟悉云計算平臺的各種功能和性能指標,能夠與客戶溝通,快速、精準找到企業(yè)痛點,發(fā)現(xiàn)問題并解決問題,以確保企業(yè)云端業(yè)務的穩(wěn)定運行。
在演講中,劉清龍將影響企業(yè)云上穩(wěn)定的原因分為以下幾類:
業(yè)務系統(tǒng):企業(yè)遺留債務重,很多系統(tǒng)上下游關系不清楚,運行現(xiàn)狀不清
架構老化:企業(yè)很多應用還是單點架構,很難使用容器類彈性的能力
成本壓力大:企業(yè)客戶沒有人力成本、時間成本、費用成本進行大刀破斧的改造
運維資源少,體系不健全:2到3人小組承擔了業(yè)務、云資源、發(fā)布的全部工作
沒有實踐與演練:穩(wěn)定性存在未知,總會有“異?!鼻闆r發(fā)生
辦法一定比困難多
遇見問題就想辦法解決問題,劉清龍認為CRE這個崗位就是在不穩(wěn)定中尋求最穩(wěn)定,在信息交錯中直擊要點,同時他們面對這項復雜工作背后的底氣,更多是能基于阿里云的強大架構支持來解決客戶在使用阿里云服務過程中遇到的問題。
阿里云有較為完善的云上分布式技術設施,能夠進行容量、容錯、容災運維調度,落地穩(wěn)定性建設,在容量上做好容量評估,流量管控;在容錯上做好鏈路跟蹤,服務治理;在容災上做好異地部署,支持容災演練;實現(xiàn)全局架構的高可用,做到高可用的可觀測行,業(yè)務的流量調度,高可用的演練。
不存在永不出錯的技術架構,也不存在能包容所有底層問題的業(yè)務架構,通過從CRE先動到一起聯(lián)動,從簡到難的原則,連接來打通客戶屏障與技術的壁壘,有針對性解決企業(yè)痛點問題,在客企業(yè)資源有限的背景下,盡量解決穩(wěn)定性的各類隱患。
安全治理
劉清龍首先安全治理是重要的一步,他認為:“對于任何一家提供云服務的公司來說,安全都是首要任務。信息安全問題隨著系統(tǒng)數(shù)量的增長,發(fā)生頻率越來越高,無論是數(shù)據泄露、系統(tǒng)被黑、還是資源盜用,都會造成企業(yè)資金上、商譽上的重大損失;CRE與企業(yè)對接溝通,識別風險,通過構建全面的網絡安全綜合防護體系,包括網絡安全等級保護、關鍵信息基礎設施安全保護、數(shù)據安全保護等,確保企業(yè)客戶的業(yè)務數(shù)據安全。”
信息互通
接下來的話題是信息互通的價值。他說: “在當今的數(shù)字化時代,信息的流通與交換對企業(yè)的發(fā)展至關重要。信息互通才是穩(wěn)定性建設的根基,信息系統(tǒng)運維等級建設是技術架構、運維資源投入和運維精細化管理的基礎,是快速處理信息系統(tǒng)服務中斷事件的重要依據。通過對現(xiàn)有信息系統(tǒng)整理和分類, CRE更了解客戶業(yè)務、讓客戶更了解云,才能提升在云上的“安全感和穩(wěn)定性”。
通過加強云原生、人工智能、大數(shù)據等技術同基礎設施平臺的融合,實現(xiàn)業(yè)務信息對齊、云資源信息同步、云上風險預警、達到業(yè)務信息聯(lián)動?!碑斢辛诵畔⒌幕ネê?我們?yōu)榱诵畔⒌臏蚀_,和更新高效,第三步便是探索流程的互通;
流程對接
劉清龍詳細介紹了流程對接的實施過程,他認為:“阿里云擁有完備的團隊研發(fā)運維流程機制,以及技術同學的良好意識和能力,這些都是團隊穩(wěn)定性建設思路的重要組成部分。
在組織流程上:阿里云CRE會通過定期會議對齊一些業(yè)務變動大促護航等信息、云產品能力,保證雙方的信息是準確的;在系統(tǒng)流程上: CRE嘗試通過不同手段將雙方在系統(tǒng)層面打通,提升應急效率。
基于阿里云多場景互聯(lián)互通的不斷探索,通過穩(wěn)定流程系統(tǒng)等級建設,企業(yè)能夠在制定業(yè)務系統(tǒng)穩(wěn)定性的目標同時,規(guī)范管理公司信息系統(tǒng)服務中斷事件處理流程,并進一步提升系統(tǒng)的可用性和運維效率。
演練驗證
有了信息和流程后需要一個比較好的方式進行驗證和發(fā)掘企業(yè)云上不穩(wěn)定因素的核心痛點;那就是演練。防火的最高境界是,防患于未然。
故障演練是提升系統(tǒng)和服務穩(wěn)定性的重要手段之一,通過模擬真實故障場景,能夠及時發(fā)現(xiàn)系統(tǒng)存在的問題、強化應急響應的流程和技術能力、增加跨團隊和供應商的合作和溝通能力,并最終提升企業(yè)上云體驗。
與企業(yè)共建容災演練的能力,通過云上故障演練能力的服務化,提高演練效率
從業(yè)務視角做到業(yè)務、服務、業(yè)務組件、云服務云資源、云可用區(qū)的不同層級的容演練
通過云的宕機、網絡中斷、單可用區(qū)不可用可以快速驗證業(yè)務的容災和容錯能力,找到目前用云的風險點
在演練中,可以快速考驗雙方的業(yè)務、云資源的監(jiān)控能力、主動通知能力,阿里云與客戶之間的應急聯(lián)動協(xié)調能力,業(yè)務的逃逸能力,云服務是否可以平滑飄走。
只有經得住驗證的高可用才能在故障時起作用;演練過程發(fā)現(xiàn)的信息對齊不完成,流程對接有瑕疵,用云方式有不足等問題就將進行專項提升;
專項提升
目前阿里云穩(wěn)定體系建設支持與服務支撐能力是可以根據客戶業(yè)務痛點進行定制化支持;是可定制化,能夠提供從上云前、上云中、上云后的全面服務能力,針對存量云上穩(wěn)定運行的核心系統(tǒng)和準備上云的系統(tǒng),擁有設計各類產品的方案、最佳實踐、云上優(yōu)化的能力。
通過演練發(fā)現(xiàn)風險點或者業(yè)務痛點進行針對性優(yōu)化,讓針對核心發(fā)展痛點能力,通過逐項優(yōu)化,滿足云上業(yè)務發(fā)展的訴求客戶上云從權限、部署、可觀測性、彈性等維度做到容量、容錯、容災的設計,清不斷提升企業(yè)用云質量與穩(wěn)定性。
越秀地產專項提升方案圖示
雙向連接,實現(xiàn)云上穩(wěn)定性業(yè)務永不斷連
這次演講希望能夠提供一種新的視角,從客戶穩(wěn)定性工程師(簡稱CRE)的與企業(yè)客戶的視角來分析如何提升企業(yè)云服務的穩(wěn)定性。通過阿里云云上穩(wěn)定性體系建相互連接,促成云平臺與企業(yè)客戶雙向連接,實現(xiàn)云上穩(wěn)定性業(yè)務永不斷連。
把一個大型云服務運營起來,運營穩(wěn)定,本身就是一件極難的、門檻極高的活,只有保障了穩(wěn)定性,才能幫助業(yè)務蓬勃增長,因此穩(wěn)定性治理始終是工程師基本能力之一。
云計算是一個快速發(fā)展的領域,新的技術和工具不斷涌現(xiàn)。穩(wěn)定工程師需要保持對新技術的關注和學習,以便在需要時能夠采用最新的技術來提高系統(tǒng)的穩(wěn)定性。通過深入理解云服務的基礎設施,掌握監(jiān)控和診斷工具,具備良好的問題解決能力,以及關注最新的技術發(fā)展,來維護云上業(yè)務的穩(wěn)定。這是一項充滿挑戰(zhàn)的工作,但也是一項至關重要的工作。
云上穩(wěn)定性建設,推動企業(yè)信息化轉型發(fā)展
云上穩(wěn)定性建設是保障云計算服務可靠性和安全性的關鍵環(huán)節(jié),是一個系統(tǒng)的基石,也是一個長期、持續(xù)化的建設過程,也是企業(yè)信息化建設中不可忽視的部分。需要通過實踐經驗的不斷積累, 輸出體系化的標準和流程,建立科學有效的穩(wěn)定性評估提升量化標準,另一方面也需要不斷提升數(shù)字化、工具化能力,讓穩(wěn)定性提升有數(shù)據可依托,讓故障應急響應流程 從由人工驅動升級到由平臺系統(tǒng)驅動,
憑借其深厚的技術積累和豐富的實踐經驗,阿里云也正在努力打造一個能夠滿足企業(yè)各種需求的云服務平臺。未來,智能化穩(wěn)定性解決方案、多云架構的穩(wěn)定性管理和企業(yè)與云計算服務提供商的深度合作將成為云上穩(wěn)定性建設的重要趨勢。企業(yè)需要積極探索和應用各種穩(wěn)定性解決方案和技術手段,以提高自身的云上穩(wěn)定性水平,從而更好地推動企業(yè)信息化建設的轉型發(fā)展。