云數據庫GaussDB NoSQL支持的事件列表
更新時間 2024-05-16 10:53:37
最近更新時間: 2024-05-16 10:53:37
分享文章
云數據庫GaussDB NoSQL支持的事件列表
| 事件名稱 | 事件ID | 事件級別 | 事件說明 | 處理建議 | 事件影響 |
|---|---|---|---|---|---|
| 創建實例業務失敗 | NoSQLCreateInstanceFailed | 重要 | 一般是由于實例配額不足或底層資源不足等原因導致。 | 先釋放不再使用的實例再嘗試重新發放,或者提交工單調整配額上限。 | 無法創建數據庫實例。 |
| 變更規格失敗 | NoSQLResizeInstanceFailed | 重要 | 一般是由于底層資源不足等原因導致。 | 提交工單讓運維在后臺協調資源再重試規格變更操作。 | 業務中斷。 |
| 添加節點失敗 | NoSQLAddNodesFailed | 重要 | 一般是由于底層資源不足等原因導致。 | 提交工單讓運維在后臺協調資源,刪除添加失敗的節點,重新嘗試添加新節點。 | 無 |
| 刪除節點失敗 | NoSQLDeleteNodesFailed | 重要 | 一般是由于底層釋放資源失敗導致。 | 重新嘗試刪除節點。 | 無 |
| 擴卷失敗 | NoSQLScaleUpStorageFailed | 重要 | 一般是由于底層資源不足等原因導致。 | 提交工單讓運維在后臺協調資源再重試擴卷操作。 | 如果磁盤滿,會導致業務中斷。 |
| 重置密碼失敗 | NoSQLResetPasswordFailed | 重要 | 一般是由于重置密碼命令超時導致。 | 重新嘗試重置密碼操作。 | 無 |
| 修改參數組失敗 | NoSQLUpdateInstance ParamGroupFailed |
重要 | 一般是由于修改參數組命令超時導致。 | 重新嘗試修改參數組操作。 | 無 |
| 設置備份策略失敗 | NoSQLSetBackupPolicyFailed | 重要 | 一般是由于數據庫連接異常導致。 | 重新重試設置備份策略操作。 | 無 |
| 創建手動備份失敗 | NoSQLCreateManualBackupFailed | 重要 | 一般是備份文件導出失敗或上傳失敗等原因導致。 | 提交工單讓運維處理。 | 無法備份數據。 |
| 創建自動備份失敗 | NoSQLCreateAutomatedBackupFailed | 重要 | 一般是備份文件導出失敗或上傳失敗等原因導致。 | 提交工單讓運維處理。 | 無法備份數據。 |
| 實例運行狀態異常 | NoSQLFaultyDBInstance | 重要 | 由于災難或者物理機故障導致實例故障時,會上報該事件,屬于關鍵告警事件。 | 提交工單。 | 可能導致數據庫服務不可用。 |
| 實例運行狀態異常已恢復 | NoSQLDBInstanceRecovered | 重要 | 針對災難性的故障,NoSQL有高可用工具會自動進行恢復或者手動恢復,執行完成后會上報該事件。 | 不需要處理。 | 無 |
| 節點運行狀態異常 | NoSQLFaultyDBNode | 重要 | 由于災難或者物理機故障導致數據庫節點故障時,會上報該事件,屬于關鍵告警事件。 | 檢查數據庫服務是否可以正常使用,并提交工單。 | 可能導致數據庫服務不可用。 |
| 節點運行狀態異常已恢復 | NoSQLDBNodeRecovered | 重要 | 針對災難性的故障,NoSQL有高可用工具會自動進行恢復或者手動恢復,執行完成后會上報該事件。 | 不需要處理。 | 無 |
| 實例主備切換 | NoSQLPrimaryStandbySwitched | 重要 | 在手動觸發的主備倒換或節點故障自動觸發的故障倒換場景下,會上報該事件。 | 不需要處理。 | 無 |
| 出現熱點分區鍵 | HotKeyOccurs | 重要 | 客觀上是因為主鍵設置不合理,使得熱點數據集中分布在一個分區。 客戶端不合理的應用程序設計,造成對某一key的頻繁讀寫。 |
1. 選擇合理的分區鍵。 2. 業務增加緩存,業務應用先從緩存中讀取熱點數據。 |
影響業務請求成功率,存在影響集群性能及穩定性的風險。 |
| 出現超大分區鍵 | BigKeyOccurs | 重要 | 主鍵設計不合理,單個分區的記錄數或數據量過大,引起了節點負載不均。 | 1. 選擇合理的分區鍵 2. 基于現有分區鍵,增加分區鍵散列。 |
隨著數據量增長,集群穩定性會下降。 |
| 數據盤空間不足 | NoSQLRiskyDataDiskUsage | 重要 | 數據盤空間不足,產生此告警。 | 請參見對應服務用戶指南中“擴容磁盤”的內容,進行磁盤擴容。 | 實例被設為只讀模式,數據無法寫入。 |
| 數據盤空間已擴容并恢復可寫 | NoSQLDataDiskUsageRecovered | 重要 | 數據盤空間已擴容并恢復可寫,產生此事件。 | 無需處理。 | 無 |
| 創建索引失敗 | NoSQLCreateIndexFailed | 重要 | 業務負載超過實例規格瓶頸,此時再創建索引會耗費更多實例資源,導致響應變慢甚至卡頓,最終超時,引起索引創建失敗。 | 1、根據業務負載,選擇匹配的實例規格 2、在業務低峰期創建索引 3、使用后臺方式創建索引 4、索引字段,結合業務進行合理選擇。 |
索引創建失敗或不完整,導致索引無效,需要刪掉索引重新創建。 |
| 發生寫入降速 | NoSQLStallingOccurs | 重要 | 寫入速度快,接近集群規模和實例規格范圍允許最大寫能力,從而觸發數據庫自身的限流機制,會發生請求失敗情況 | 1. 根據業務的最大寫請求速率,調整集群規模或者節點規格 2. 衡量業務的最大寫請求速率,分散業務寫峰值速率 |
影響業務的請求的成功率 |
| 發生寫入停止 | NoSQLStoppingOccurs | 重要 | 寫入速度過快,達到集群規模和實例規格范圍允許最大寫能力,從而觸發數據庫自身的限流機制,會發生請求失敗情況 | 1. 根據業務的最大寫請求速率,調整集群規模或者節點規格 2. 衡量業務的最大寫請求速率,分散業務寫峰值速率 |
影響業務的請求的成功率 |
| 重啟數據庫失敗 | NoSQLRestartDBFailed | 重要 | 一般是由于實例狀態異常等原因導致。 | 提交工單讓運維處理。 | 數據庫實例狀態可能存在異常。 |
| 恢復到新實例失敗 | NoSQLRestoreToNewInstanceFailed | 重要 | 一般是由于底層資源不足等原因導致。 | 提交工單讓運維在后臺協調資源,重新嘗試添加新節點。 | 無法恢復到新的數據庫實例。 |
| 恢復到已有實例失敗 | NoSQLRestoreToExistInstanceFailed | 重要 | 一般是由于備份文件下載或恢復失敗等原因導致。 | 提交工單讓運維處理。 | 當前數據庫實例可能處于不可用狀態。 |
| 刪除備份文件失敗 | NoSQLDeleteBackupFailed | 重要 | 一般是由于備份文件從obs刪除失敗導致。 | 重新嘗試刪除備份文件。 | 無 |
| 切換慢日志明文開關失敗 | NoSQLSwitchSlowlogPlainTextFailed | 重要 | 一般是由于引擎不支持切換等原因導致。 | 請查閱NoSQL用戶指南,確認引擎支持打開慢日志明文開關。提交工單讓運維處理。 | 無 |
| 綁定EIP失敗 | NoSQLBindEipFailed | 重要 | 一般是由于節點狀態不正常,節點已經綁定EIP或EIP非法等原因導致。 | 檢查節點是否正常,EIP是否合法。 | 無法通過公網訪問數據庫實例。 |
| 解綁EIP失敗 | NoSQLUnbindEipFailed | 重要 | 一般是由于節點狀態不正常,節點已經未綁定EIP等原因導致。 | 檢查節點和EIP狀態是否正常。 | 無 |
| 修改參數失敗 | NoSQLModifyParameterFailed | 重要 | 一般是由于參數取值非法等原因導致。 | 排查參數值是否符合在合法范圍內,提交工單讓運維處理。 | 無 |
| 參數組應用失敗 | NoSQLApplyParameterGroupFailed | 重要 | 一般是由于實例狀態異常導致參數組無法應用等原因導致。 | 提交工單讓運維處理。 | 無 |
| 開啟或關閉SSL失敗 | NoSQLSwitchSSLFailed | 重要 | 一般是由于修改SSL命令超時導致。 | 重新提交一次或者提交工單處理,并先保持切換之前使用SSL的連接方式。 | 是否使用SSL連接。 |
| 單行數據量太大 | LargeRowOccurs | 重要 | 用戶單行數據量過大,可能會導致查詢超時,進而節點OOM異常退出等各種故障發生。 | 1. 對每列和每行的寫入長度做限制,遵從規范,使得單行的的key和value長度和不超過閾值。 2. 排查業務是否出現異常寫入和異常編碼,導致寫入大row。 |
過大的單行記錄,隨著數據量增長,集群穩定性會下降。 |
| 用戶計劃刪除KMS密鑰 | NoSQLplanDeleteKmsKey | 重要 | 一般是由于用戶計劃刪除kms的key導致。 | 計劃刪除kms的key后,及時恢復kms的key或者及時解密數據。 | kms的key被刪除后用戶無法進行磁盤加密。 |
| 查詢墓碑數過多 | TooManyQueryTombstones | 重要 | 查詢墓碑數過多,可能會導致查詢超時,影響查詢性能。 | 使用合理的查詢刪除方式,避免大批次的范圍查詢 | 可能會導致查詢超時,影響查詢性能。 |
| 超大集合列 | TooLargeCollectionColumn | 重要 | 當集合列元素個數太多時,會出現集合列查詢失敗。 | 對集合列的元素個數做限制,遵從規范不超過閾值。 排查業務是否出現異常寫入和異常編碼,導致寫入大集合列。 |
會出現集合列查詢失敗。 |