云數據庫GaussDB支持的事件列表
更新時間 2024-05-16 10:53:37
最近更新時間: 2024-05-16 10:53:37
分享文章
云數據庫GaussDB支持的事件列表
| 事件名稱 | 事件ID | 事件級別 | 事件說明 | 處理建議 | 事件影響 |
|---|---|---|---|---|---|
| 進程狀態告警 | ProcessStatusAlarm | 重要 | GaussDB關鍵進程退出,包括:CMS/CMA、ETCD、GTM、CN、DN。 | 等待進程自動恢復或者自動主備切換,觀察業務是否恢復。 如果業務未恢復,聯系SRE。 |
主機進程故障,在主機上進行的業務將中斷回滾。 備機進程故障不影響業務。 |
| 組件狀態告警 | ComponentStatusAlarm | 重要 | GaussDB關鍵組件無響應,包括:CMA、ETCD、GTM、CN、DN。 | 等待進程自動恢復或者自動主備切換,觀察業務是否恢復。 如果業務未恢復,聯系SRE。 |
主機進程無響應,在主機上進行的業務將無響應。 備機進程故障不影響業務。 |
| 集群狀態告警 | ClusterStatusAlarm | 重要 | 集群狀態異常,包括:集群只讀、ETCD多數派故障、集群分布不均衡。 | 聯系SRE。 | 集群只讀:業務只讀。 ETCD多數派故障:集群不可用。集群分布不均衡:集群性能/可靠性降低。 |
| 硬件資源告警 | HardwareResourceAlarm | 重要 | 集群中出現嚴重的硬件故障,包括:磁盤損壞、GTM網絡通信故障。 | 聯系SRE。 | 業務部分/全部受損。 |
| 狀態轉換告警 | StateTransitionAlarm | 重要 | 集群出現如下重要事件: DN build/build失敗、DN強切、DN主備切換/failover、GTM主備切換/failover。 |
等待自動恢復,觀察業務是否恢復。如果業務未恢復,聯系SRE。 | 部分業務受損。 |
| 其他異常告警 | OtherAbnormalAlarm | 重要 | 磁盤使用閾值告警等。 | 關注業務變化,及時計劃擴容。 | 超過使用閾值,將無法擴容。 |
| 實例運行狀態異常 | TaurusInstanceRunningStatusAbnormal | 重要 | 由于災難或者物理機故障導致實例故障時,會上報該事件,屬于關鍵告警事件。 | 提交工單。 | 可能導致數據庫服務不可用。 |
| 實例運行狀態異常已恢復 | TaurusInstanceRunningStatusRecovered | 重要 | 針對災難性的故障,GaussDB有高可用工具會自動進行恢復或者手動恢復,執行完成后會上報該事件。 | 不需要處理。 | 無 |
| 節點運行狀態異常 | TaurusNodeRunningStatusAbnormal | 重要 | 由于災難或者物理機故障導致數據庫節點故障時,會上報該事件,屬于關鍵告警事件。 | 檢查數據庫服務是否可以正常使用,并提交工單。 | 可能導致數據庫服務不可用。 |
| 節點運行狀態異常已恢復 | TaurusNodeRunningStatusRecovered | 重要 | 針對災難性的故障,GaussDB有高可用工具會自動進行恢復或者手動恢復,執行完成后會上報該事件。 | 不需要處理。 | 無 |
| 創建實例業務失敗 | GaussDBV5CreateInstanceFailed | 重要 | 創建實例失敗產生的事件,一般是配額大小不足,底層資源耗盡導致。 | 先釋放不再使用的實例再嘗試重新發放,或者提交工單調整配額上限。 | 無法創建數據庫實例。 |
| 添加節點失敗 | GaussDBV5ExpandClusterFailed | 重要 | 一般是由于底層資源不足等原因導致。 | 提交工單讓運維在后臺協調資源,刪除添加失敗的節點,重新嘗試添加新節點。 | 無 |
| 存儲擴容失敗 | GaussDBV5EnlargeVolumeFailed | 重要 | 一般是由于底層資源不足等原因導致。 | 提交工單讓運維在后臺協調資源再重試擴容操作。 | 如果磁盤滿,會導致業務中斷。 |
| 重啟失敗 | GaussDBV5RestartInstanceFailed | 重要 | 一般是由于網絡問題等原因導致 | 重試重啟操作或提交工單讓運維處理。 | 可能導致數據庫服務不可用。 |
| 全量備份失敗 | GaussDBV5FullBackupFailed | 重要 | 一般是備份文件導出失敗或上傳失敗等原因導致。 | 提交工單讓運維處理。 | 無法備份數據。 |
| 差量備份失敗 | GaussDBV5DifferentialBackupFailed | 重要 | 一般是備份文件導出失敗或上傳失敗等原因導致。 | 提交工單讓運維處理。 | 無法備份數據。 |
| 刪除備份失敗 | GaussDBV5DeleteBackupFailed | 重要 | 無需實現。 | - | - |
| 綁定EIP失敗 | GaussDBV5BindEIPFailed | 重要 | 彈性公網IP已被占用或IP資源等原因導致。 | 提交工單讓運維處理。 | 導致實例無法使用公網鏈接或訪問 |
| 解綁EIP失敗 | GaussDBV5UnbindEIPFailed | 重要 | 網絡故障或公網EIP服務故障等原因導致。 | 重新解綁Ip或提交工單讓運維處理。 | 可能導致IP資源殘留 |
| 參數組應用失敗 | GaussDBV5ApplyParamFailed | 重要 | 一般是由于修改參數組命令超時導致。 | 重新嘗試修改參數組操作。 | 無 |
| 參數修改失敗 | GaussDBV5UpdateInstanceParamGroupFailed | 重要 | 一般是由于修改參數組命令超時導致。 | 重新嘗試修改參數組操作。 | 無 |
| 備份恢復失敗 | GaussDBV5RestoreFromBcakupFailed | 重要 | 一般是由底層資源不足或備份文件下載失敗等原因導致 | 提交工單。 | 可能導致在恢復失敗期間數據庫服務不可用 |