摘要:阿里云致力于提供更好用的運維體驗,讓您使用ECS的過程更透明、高效,并實現更加標準化、自動化的運維方式;谥鲃舆\維2.0,您使用ECS云服務器的體驗更加流暢,而且利用系統事件,不再依賴于工單聯系客服,可以通過自助處理的方式響應主動運維實例重啟,減少對系統可靠性和業務連續性的影響。
云服務器 ECS(Elastic Compute Service)是一種彈性可伸縮的計算服務,助您降低 IT 成本,提升運維效率,使您更專注于核心業務創新。當您基于ECS云服務器搭建了業務系統,借助云計算的諸多優勢和特性,可以實現對業務需求的敏捷響應和對業務連續性的有力保障。在此基礎上,阿里云致力于提供更好用的運維體驗,讓您使用ECS的過程更透明、高效,并實現更加標準化、自動化的運維方式。
主動運維
阿里云使用嚴格的IDC標準、服務器準入標準以及運維標準,保證云計算整個基礎框架的高可用性、數據的可靠性以及云服務器的高可用性。對于單臺ECS實例, 阿里云承諾一個服務周期內單臺ECS實例的服務可用性不低于99.95%;對于單地域多可用區,阿里云承諾一個服務周期內該單地域多可用區的服務可用性不低于99.99%。
我們知道,在基礎設施層面,始終存在一些潛在因素如軟件bug或硬件故障等會影響ECS實例的運行,因此為了保證上述高級別的服務可用性,除了云計算基礎框架的高可用性設計以外,ECS主動運維不可或缺。主動運維作為ECS的隱形衛士,會主動對承載ECS實例運行的物理服務器做日常維護和故障檢測,并盡可能通過在線或輪轉升級的方式修復潛在的故障隱患,以持續提升系統可靠性、性能和安全防護能力,保障云服務器穩定運行。
但對于某些情況,物理服務器需要重啟或停機維護,這時主動運維系統會向該服務器上的ECS用戶發送消息通知,提示您的ECS實例需要重啟遷移至健康的物理服務器之上。此前,用戶接到這樣的通知后需要提交工單聯系客服人員授權處理,隨著主動運維2.0的進化,這方面的體驗得到多方面的提升。
體驗升級
1.主動運維熱遷移,實例運行不中斷
當主動運維檢測到物理服務器存在故障風險時,系統會優先嘗試將該服務器上的ECS實例在線熱遷移至其他物理服務器,熱遷移成功的實例不會中斷運行,其業務可以保持在線;只有少量熱遷移存在風險的實例才會進入主動運維重啟遷移流程。此策略升級后,有效減少對用戶業務連續性的沖擊,在阿里云用戶規?焖僭鲩L的情況下,主動運維相關工單數量同比下降125倍!事半功倍
正如上面提到的體驗改進,“事”半功倍,除了主動運維流程進化,還來源于系統事件的發布。系統事件有利于提升用戶對于ECS運行狀態變化的感知,并進行有針對性的操作來響應或規避事件對在行業務的影響。通過系統事件的閉環,將更多的運維場景標準化、自動化,讓用戶獲得更好的額云上運維體驗。