事件監控支持的事件說明
更新時間 2025-09-23 16:18:12
最近更新時間: 2025-09-23 16:18:12
分享文章
本節是關于事件監控支持的事件說明相關內容。
表 資源異常事件
| 事件來源 | 事件名稱 | 事件ID | 事件級別 | 事件說明 | 處理建議 | 事件影響 |
|---|---|---|---|---|---|---|
| RDS | 創建實例業務失敗 | createInstanceFailed | 重要 | 創建實例失敗產生的事件,一般是磁盤個數,配額大小不足,底層資源耗盡導致。 | 檢查磁盤個數、配額大小,釋放資源后重新創建。 | 無法創建數據庫實例。 |
| 跨區域備份同步異常 | crossRegionBackupSyncFailed | 次要 | 一般是由于底層網絡和復制資源出現瓶頸等原因導致。 | 如果事件一直不停上報,提交工單調整底層資源分配。 | 跨區域備份同步異常,目標區域不能使用備份文件進行恢復。 | |
| 實例全量備份失敗 | fullBackupFailed | 重要 | 單次全量備份失敗產生的事件,不影響以前成功備份的文件,但會對“恢復到指定時間點”的功能有一些影響,導致“恢復到指定時間點”時增量備份的恢復時間延長。 | 重新執行一次手工備份。 | 備份失敗。 | |
| 主備切換異常 | activeStandBySwitchFailed | 重要 | 主備切換異常是由于網絡、物理機有某種故障導致備機沒有接管主機的業務,短時間內會恢復到原主機繼續提供服務。 | 檢查應用和數據庫之間的連接是否重新建立了連接。 | 無 | |
| 復制狀態異常 | abnormalReplicationStatus | 重要 | 出現”復制狀態異常“事件通常有兩種情況: 1、主備之間復制時延太大(一般在寫入大量數據或執行大事務的時候出現),在業務高峰期容易出現阻塞。 2、主備間的網絡中斷,導致主備復制異常。 | 提交工單。 | 但不會導致原來單實例的讀寫中斷,客戶的應用是無感知的。 | |
| 復制狀態異常已恢復 | replicationStatusRecovered | 重要 | 即復制時延已回到正常范圍內,或者主備之間的網絡通信恢復。 | 不需要處理。 | 無 | |
| 實例運行狀態異常 | faultyDBInstance | 重要 | 由于災難或者物理機故障導致單機或者主實例故障時會上報本事件,屬于關鍵告警事件。 | 檢查是否有設置自動備份策略,并且提交工單。 | 可能導致數據庫服務不可用。 | |
| 實例運行狀態異常已恢復 | DBInstanceRecovered | 重要 | 針對災難性的故障,RDS有高可用工具會自動進行備機重建,重建完成之后即會上報本事件。 | 不需要處理。 | 無 | |
| 單實例轉主備實例失敗 | singleToHaFailed | 重要 | 創建備機時或備機創建完成后主備機之間配置同步發生故障時會產生此事件,一般是由于備節點所在數據中心資源不足導致。 | 提交工單。 | “單實例轉主備實例失敗”不會導致原來單實例的讀寫中斷,客戶的應用是無感知的。 | |
| 數據庫進程重新啟動 | DatabaseProcessRestarted | 重要 | 一般是內存不足、負載過高導致數據庫進程停止 | 通過云監控的數據,查看是否有內存飆升、cpu長期過高、磁盤滿使用率不足等的情況,可以選擇提升CPU內存規格或者優化業務邏輯 | 進程掛掉的時候,業務中斷。RDS服務會自動拉起進程,嘗試恢復業務。 | |
| 實例磁盤滿 | instanceDiskFull | 重要 | 一般是由于數據空間占用過大導致。 | 對實例進行擴容操作。 | 實例由于磁盤空間滿將會變成只讀實例,數據庫不可進行寫入操作。 | |
| 實例磁盤滿恢復 | instanceDiskFullRecovered | 重要 | 實例磁盤狀態恢復正常。 | 不需要處理。 | 實例解除只讀狀態,恢復寫操作。 | |
| MySQL實例連接數滿 | mysqlConnectionsFull | 重要 | 由于實例業務量沖高,導致連接數滿,無法建立新連接。 | 調整連接數到合理值。 通過限流等方式降低負載。 變更到更高規格,擴大連接數上限。 | 實例無法建立新連接。 | |
| MySQL實例連接數滿已恢復 | mysqlConnectionsFullRecovered | 重要 | 實例連接數已恢復正常 | 實例連接數已恢復正常,請確認業務是否正常運行。 | 實例連接數已恢復正常。 | |
| MySQL負載高導致新建連接異常 | highLoadInstanceConnectionsAbnormal | 重要 | 由于CPU、內存、磁盤、網絡帶寬等資源不足,導致無法建立新連接或者建立的新連接異常 | 增加系統資源,例如增加CPU、內存、磁盤等。 調整MySQL配置,例如增加連接池大小、調整緩存大小等。 根據實際運行狀態和業務需求,選擇異常進程執行kill會話,結束會話,使數據庫恢復正常。 | 實例新建連接異常。 | |
| MySQL負載高導致新建連接異常已恢復 | highLoadInstanceConnectionsAbnormalRevocered | 重要 | 負載高導致實例新建連接異常已恢復 | 負載高導致實例新建連接異常已恢復,請確認業務是否正常運行。 | 負載高導致實例新建連接異常已恢復。 | |
| kafka連接失敗 | kafkaConnectionFailed | 重要 | 一般是由于網絡波動或kafka服務端出現異常等原因導致。 | 檢查網絡狀況和kafka服務端狀態。 | 審計日志無法發送到kafka服務端。 | |
| 數據庫代理 | 數據庫安全組未放通數據庫代理地址 | proxy_connection_failure_cause_security_group | 重要 | 一般是由于數據庫安全組未放通代理地址導致。 | 修改數據庫所使用安全組規則放通代理地址。 | 通過代理訪問的業務流量中斷。 |
| 數據庫代理與數據庫連通性異常 | proxy_connection_failure_to_db | 重要 | 數據庫代理與主庫建立新連接失敗,與只讀庫可能存在建立新連接失敗。一般是由于數據庫/數據庫代理壓力過大,或代理與數據庫間網絡異常。 | 觀察數據庫與數據庫代理壓力指標后(連接數、活躍連接數、CPU使用率)調整相應參數,壓力指標正常情況下提工單處理。 | 通過代理訪問的業務流量中斷。 | |
| 數據庫代理與數據庫只讀庫連通性異常 | proxy_connection_failure_to_replica | 一般 | 數據庫代理與只讀庫建立新連接失敗。一般是由于只讀庫壓力過大,或代理與只讀庫間網絡異常。 | 觀察只讀庫壓力指標后(連接數、活躍連接數、CPU使用率)調整相應參數,壓力指標正常情況下提工單處理。 | 通過代理訪問的業務讀流量部分中斷。 |
表 操作類事件
| 事件來源 | 事件名稱 | 事件ID | 事件級別 | 事件說明 |
|---|---|---|---|---|
| RDS | 重置數據庫管理員密碼 | resetPassword | 重要 | 重置數據庫管理員密碼 |
| 集群擴容等操作 | instanceAction | 重要 | 磁盤擴容、規格變更 | |
| 刪除集群下的實例 | deleteInstance | 次要 | 刪除集群下的實例 | |
| 修改備份策略 | setBackupPolicy | 次要 | 修改備份策略 | |
| 修改參數組 | updateParameterGroup | 次要 | 修改參數組 | |
| 刪除參數組 | deleteParameterGroup | 次要 | 刪除參數組 | |
| 重置參數組 | resetParameterGroup | 次要 | 重置參數組 | |
| 修改數據庫端口號 | changeInstancePort | 重要 | 修改數據庫端口號 | |
| 實例主備切換 | PrimaryStandbySwitched | 重要 | 僅故障自動主備切換支持事件監控,手動主備切換不支持。 |