1957名用戶報障!騰訊云公布4月8日故障復(fù)盤:云API異常持續(xù)近87分鐘
快科技4月14日消息,4月8日,有大量網(wǎng)友反饋,稱騰訊云出現(xiàn)服務(wù)故障,出現(xiàn)騰訊云控制臺登錄不上等情況。
今日,騰訊云發(fā)布4月8日故障復(fù)盤及情況說明。
經(jīng)過故障定位發(fā)現(xiàn),客戶登錄不上控制臺正是由云API異常所導(dǎo)致,故障發(fā)生后,依賴云API提供產(chǎn)品能力的部分公有云服務(wù)。
也因為云API的異常出現(xiàn)了無法使用的情況,比如云函數(shù)、文字識別、微服務(wù)平臺、音頻內(nèi)容安全、驗證碼等。
官方表示,此次故障一共持續(xù)了近87分鐘,期間共有1957個客戶報障。
故障的原因是云API服務(wù)新版本向前兼容性考慮不夠和配置數(shù)據(jù)灰度機制不足的問題。
本次API升級過程中,由于新版本的接口協(xié)議發(fā)生了變化,在后臺發(fā)布新版本之后對于舊版本前端傳來的數(shù)據(jù)處理邏輯異常,導(dǎo)致生成了一條錯誤的配置數(shù)據(jù),由于灰度機制不足導(dǎo)致異常數(shù)據(jù)快速擴散到了全網(wǎng)地域,造成整體API使用異常。
騰訊云稱,發(fā)生故障后,按照標準回滾方案將服務(wù)后臺和配置數(shù)據(jù)同時回滾到舊版本,并重啟API后臺服務(wù),但此時因為承載API服務(wù)的容器平臺也依賴API服務(wù)才能提供調(diào)度能力,即發(fā)生了循環(huán)依賴,導(dǎo)致服務(wù)無法自動拉起。
通過運維手工啟動方式才使API服務(wù)重啟,完成整個故障恢復(fù)。
問題復(fù)盤
整個處理過程如下:
1.15:23,監(jiān)測到故障,立即執(zhí)行服務(wù)的恢復(fù),同時進行原因的排查;
2.15:47,發(fā)現(xiàn)通過回滾版本沒能完全恢復(fù)服務(wù),進一步定位問題;
3.15:57,定位出故障根因是配置數(shù)據(jù)出現(xiàn)錯誤,緊急設(shè)計數(shù)據(jù)修復(fù)方案;4.16:02,對全地域進行數(shù)據(jù)修復(fù)工作,API服務(wù)逐地域恢復(fù)中;
5.16:05,觀測到除上海外的地域API服務(wù)均已恢復(fù),進一步定位上海地域的恢復(fù)問題;
6.16:25,定位到上海的技術(shù)組件存在API循環(huán)依賴問題,決定通過流量調(diào)度至其他地域來恢復(fù);
7.16:45,觀測到上海地域恢復(fù)了,此時API和依賴API的PaaS服務(wù)徹底恢復(fù),但控制臺流量劇增,按九倍容量進行了擴容;
8.16:50,請求量逐漸恢復(fù)到正常水平,業(yè)務(wù)穩(wěn)定運行,控制臺服務(wù)全部恢復(fù);9.17:45,持續(xù)觀察一小時,未發(fā)現(xiàn)問題,按預(yù)案處理過程完畢。
改進措施
綜合盤點這次故障,最根本的原因是在版本變更過程中,沒有有效執(zhí)行沙箱驗證和預(yù)案演練,暴露了在變更管理上的不足,接下來將從以下幾個方面快速進行改進和完善,以減少故障的影響范圍和影響時長。
第一,提升系統(tǒng)韌性
1、定期執(zhí)行預(yù)定的變更策略模擬演練,確保在真實故障發(fā)生時,能夠迅速切換到恢復(fù)模式,最小化服務(wù)中斷時間。
2、優(yōu)化服務(wù)部署架構(gòu),通過分層架構(gòu)、代碼審查和監(jiān)控等手段, 避免API服務(wù)中潛在的循環(huán)依賴問題。
3、提供API服務(wù)逃生通道,當故障發(fā)生時,可供調(diào)用方快速切換。
第二,強化變更管理與保護措施
1、完善自動化測試用例庫,在系統(tǒng)變更前通過沙箱環(huán)境對變更內(nèi)容進行嚴格驗證。
2、實施灰度發(fā)布策略,逐步推廣新功能或配置更改,按集群、可用區(qū)、地域逐步生效,以便在發(fā)現(xiàn)問題時能夠迅速回滾。
3、引入異常自動熔斷機制,當檢測到系統(tǒng)異常時,能夠立即中斷變更過程。
第三,增強故障響應(yīng)與溝通能力
1、對故障處理流程進行全面升級,確保實時更新故障處理進度和預(yù)計恢復(fù)時間點,提升故障報告發(fā)布效率。
2、在對外發(fā)布的故障通知中,清晰闡述受影響的業(yè)務(wù)范圍、故障根因及預(yù)計修復(fù)時長,保持透明度。
3、優(yōu)化騰訊云健康狀態(tài)看板(StatusPage)的信息展示邏輯,解除對云API等云服務(wù)的依賴,通過引入緩存和容災(zāi)機制,確保即使在云服務(wù)出現(xiàn)故障時,能準確、及時地傳遞故障信息。
對于騰訊云本次故障復(fù)盤及情況說明,有網(wǎng)友表示:“能對外公布過程,對用戶透明,也是種進步”“有故障不可怕,關(guān)鍵是要能在故障中去真正總結(jié)、改進、沉淀,盡量做好下一次故障的規(guī)避和優(yōu)化,這才是寶貴的經(jīng)驗和收獲。”
本站所有文章、數(shù)據(jù)、圖片均來自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。
如果侵犯了你的權(quán)益請來信告知我們刪除。郵箱:business@qudong.com



