事件監控簡介
事件監控提供了事件類型數據上報、查詢和告警的功能。方便您將業務中的各類重要事件或對云資源的操作事件收集到云監控服務,并在事件發生時進行告警。
事件即云監控服務保存并監控的GeminiDB Influx資源的關鍵操作,您可以通過“事件”了解到誰在什么時間對系統哪些資源做了什么操作,如修改實例名稱、規格變更等。
事件監控為您提供上報自定義事件的接口,方便您將業務產生的異常事件或重要變更事件采集上報到云監控服務。
事件監控默認開通,您可以在事件監控中查看系統事件和自定義事件的監控詳情,目前支持的系統事件請參見本章節 事件監控支持的事件說明。
查看事件監控數據
操作場景
事件監控提供了事件類型數據上報、查詢和告警的功能。方便您將業務中的各類重要事件或對云資源的操作事件收集到云監控服務,并在事件發生時進行告警。
事件監控默認開通,您可以在事件監控中查看系統事件和自定義事件的監控詳情。
操作步驟
- 登錄管理控制臺。
- 在服務列表中選擇“數據庫 > 云數據庫 GeminiDB”。
- 在“實例管理”頁面,選擇目標實例,在“基本信息”頁面的“節點信息”區域,單擊操作列的“查看監控指標”,跳轉到云監控頁面,查看事件監控數據。
- 單擊上方的
返回云監控服務主界面。 - 單擊業務左側導航欄的“事件監控”。
進入“事件監控”頁面。在“事件監控”頁面,默認展示近24小時的所有系統事件。
您也可以根據需要選擇“近1小時”“近3小時”“近12小時”“近24小時”“近7天”“近30天”,分別查看不同時段的事件。
- 展開對應的事件類型,單擊具體事件右側的操作列的“查看事件”,可查看具體事件的內容。
創建事件監控的告警通知
操作場景
介紹指導用戶創建事件監控的告警通知。
操作步驟
- 登錄管理控制臺。
- 在頁面左上角單擊
,選擇“管理與部署 > 云監控服務”,進入“云監控服務”頁面。 - 在左側導航欄選擇“事件監控”,進入“事件監控”頁面。
- 在事件列表頁面,單擊頁面右上角的“創建告警規則”。
- 在“創建告警規則”界面,配置參數。
表1 告警內容參數說明
| 參數 | 參數說明 |
|---|---|
| 名稱 | 系統會隨機產生一個名稱,用戶也可以進行修改。 |
| 描述 | 告警規則描述(此參數非必填項)。 |
| 歸屬企業項目 | 可選擇已有的企業項目,或單擊“創建企業項目”進行創建。 |
| 告警類型 | 用于指定告警規則對應的告警類型。 |
| 事件類型 | 用于指定告警規則對應指標的事件類型。 |
| 事件來源 | 事件來源的云服務名稱。選擇云數據庫GeminiDB。 |
| 監控范圍 | 創建事件監控針對的資源范圍。 |
| 選擇類型 | 選擇自定義創建。 |
| 告警策略 | 事件名稱:用戶操作系統資源的動作,如用戶登錄,用戶登出,為一個瞬間的操作動作。事件監控支持的操作事件請參見本章節?事件監控支持的事件說明。用戶根據需要選擇觸發方式、告警級別。 |
單擊
開啟“發送通知”,生效時間默認為全天,若沒有您想要選擇的主題,可以單擊下一行的“創建主題”進行添加。
表2 發送通知
| 參數 | 參數說明 |
|---|---|
| 發送通知 | 配置是否發送郵件、短信、HTTP和HTTPS通知用戶。 |
| 通知對象 | 需要發送告警通知的對象,可選擇“云賬號聯系人”或主題。 云賬號聯系人:注冊賬號時的手機和郵箱。 主題:消息發布或客戶端訂閱通知的特定事件類型,若此處沒有需要的主題,需先創建主題并訂閱該主題。 |
| 生效時間 | 該告警規則僅在生效時間內發送通知消息。如生效時間為08:00-20:00,則該告警規則僅在08:00-20:00發送通知消息。 |
| 觸發條件 | 出現告警 |
- 配置完成后,單擊“立即創建”,完成告警規則的創建。
事件監控支持的事件說明
表3 云數據庫GeminiDB事件監控支持的事件說明
事件來源 事件名稱 事件ID 事件級別 事件說明 處理建議 事件影響 NoSQL 創建實例業務失敗 NoSQLCreateInstanceFailed 重要 一般是由于實例配額不足或底層資源不足等原因導致。 先釋放不再使用的實例再嘗試重新發放,或者提交工單調整配額上限。 無法創建數據庫實例。 變更規格失敗 NoSQLResizeInstanceFailed 重要 一般是由于底層資源不足等原因導致。 提交工單讓運維在后臺協調資源再重試規格變更操作。 業務中斷。 添加節點失敗 NoSQLAddNodesFailed 重要 一般是由于底層資源不足等原因導致。 提交工單讓運維在后臺協調資源,刪除添加失敗的節點,重新嘗試添加新節點。 無 刪除節點失敗 NoSQLDeleteNodesFailed 重要 一般是由于底層釋放資源失敗導致。 重新嘗試刪除節點。 無 擴卷失敗 NoSQLScaleUpStorageFailed 重要 一般是由于底層資源不足等原因導致。 提交工單讓運維在后臺協調資源再重試擴卷操作。 如果磁盤滿,會導致業務中斷。 重置密碼失敗 NoSQLResetPasswordFailed 重要 一般是由于重置密碼命令超時導致。 重新嘗試重置密碼操作。 無 修改參數模板失敗 NoSQLUpdateInstanceParamGroupFailed 重要 一般是由于修改參數模板命令超時導致。 重新嘗試修改參數模板操作。 無 設置備份策略失敗 NoSQLSetBackupPolicyFailed 重要 一般是由于數據庫連接異常導致。 重新重試設置備份策略操作。 無 創建手動備份失敗 NoSQLCreateManualBackupFailed 重要 一般是備份文件導出失敗或上傳失敗等原因導致。 提交工單讓運維處理。 無法備份數據。 創建自動備份失敗 NoSQLCreateAutomatedBackupFailed 重要 一般是備份文件導出失敗或上傳失敗等原因導致。 提交工單讓運維處理。 無法備份數據。 實例運行狀態異常 NoSQLFaultyDBInstance 重要 由于災難或者物理機故障導致實例故障時,會上報該事件,屬于關鍵告警事件。 提交工單。 可能導致數據庫服務不可用。 實例運行狀態異常已恢復 NoSQLDBInstanceRecovered 重要 針對災難性的故障,NoSQL有高可用工具會自動進行恢復或者手動恢復,執行完成后會上報該事件。 不需要處理。 無 節點運行狀態異常 NoSQLFaultyDBNode 重要 由于災難或者物理機故障導致數據庫節點故障時,會上報該事件,屬于關鍵告警事件。 檢查數據庫服務是否可以正常使用,并提交工單。 可能導致數據庫服務不可用。 節點運行狀態異常已恢復 NoSQLDBNodeRecovered 重要 針對災難性的故障,NoSQL有高可用工具會自動進行恢復或者手動恢復,執行完成后會上報該事件。 不需要處理。 無 實例主備切換 NoSQLPrimaryStandbySwitched 重要 在手動觸發的主備倒換或節點故障自動觸發的故障倒換場景下,會上報該事件。 不需要處理。 無 出現熱點分區鍵 HotKeyOccurs 重要 客觀上是因為主鍵設置不合理,使得熱點數據集中分布在一個分區。客戶端不合理的應用程序設計,造成對某一key的頻繁讀寫。 1. 選擇合理的分區鍵。 2. 業務增加緩存,業務應用先從緩存中讀取熱點數據。
影響業務請求成功率,存在影響集群性能及穩定性的風險。 出現超大分區鍵 BigKeyOccurs 重要 主鍵設計不合理,單個分區的記錄數或數據量過大,引起了節點負載不均。 1. 選擇合理的分區鍵 2. 基于現有分區鍵,增加分區鍵散列。
隨著數據量增長,集群穩定性會下降。 數據盤空間不足 NoSQLRiskyDataDiskUsage 重要 數據盤空間不足,產生此告警。 請參見對應服務用戶指南中“擴容磁盤”的內容,進行磁盤擴容。 實例被設為只讀模式,數據無法寫入。 數據盤空間已擴容并恢復可寫 NoSQLDataDiskUsageRecovered 重要 數據盤空間已擴容并恢復可寫,產生此事件。 無需處理。 無 創建索引失敗 NoSQLCreateIndexFailed 重要 業務負載超過實例規格瓶頸,此時再創建索引會耗費更多實例資源,導致響應變慢甚至卡頓,最終超時,引起索引創建失敗。 1、根據業務負載,選擇匹配的實例規格 2、在業務低峰期創建索引
3、使用后臺方式創建索引
4、索引字段,結合業務進行合理選擇。
索引創建失敗或不完整,導致索引無效,需要刪掉索引重新創建。 發生寫入降速 NoSQLStallingOccurs 重要 寫入速度快,接近集群規模和實例規格范圍允許最大寫能力,從而觸發數據庫自身的限流機制,會發生請求失敗情況 1. 根據業務的最大寫請求速率,調整集群規模或者節點規格 2. 衡量業務的最大寫請求速率,分散業務寫峰值速率
影響業務的請求的成功率 發生寫入停止 NoSQLStoppingOccurs 重要 寫入速度過快,達到集群規模和實例規格范圍允許最大寫能力,從而觸發數據庫自身的限流機制,會發生請求失敗情況 1. 根據業務的最大寫請求速率,調整集群規模或者節點規格 2. 衡量業務的最大寫請求速率,分散業務寫峰值速率
影響業務的請求的成功率 重啟數據庫失敗 NoSQLRestartDBFailed 重要 一般是由于實例狀態異常等原因導致。 提交工單讓運維處理。 數據庫實例狀態可能存在異常。 恢復到新實例失敗 NoSQLRestoreToNewInstanceFailed 重要 一般是由于底層資源不足等原因導致。 提交工單讓運維在后臺協調資源,重新嘗試添加新節點。 無法恢復到新的數據庫實例。 恢復到已有實例失敗 NoSQLRestoreToExistInstanceFailed 重要 一般是由于備份文件下載或恢復失敗等原因導致。 提交工單讓運維處理。 當前數據庫實例可能處于不可用狀態。 刪除備份文件失敗 NoSQLDeleteBackupFailed 重要 一般是由于備份文件從obs刪除失敗導致。 重新嘗試刪除備份文件。 無 切換慢日志明文開關失敗 NoSQLSwitchSlowlogPlainTextFailed 重要 一般是由于接口不支持切換等原因導致。 請查閱NoSQL用戶指南,確認接口支持打開慢日志明文開關。提交工單讓運維處理。 無 綁定EIP失敗 NoSQLBindEipFailed 重要 一般是由于節點狀態不正常,節點已經綁定EIP或EIP非法等原因導致。 檢查節點是否正常,EIP是否合法。 無法通過公網訪問數據庫實例。 解綁EIP失敗 NoSQLUnbindEipFailed 重要 一般是由于節點狀態不正常,節點已經未綁定EIP等原因導致。 檢查節點和EIP狀態是否正常。 無 修改參數失敗 NoSQLModifyParameterFailed 重要 一般是由于參數取值非法等原因導致。 排查參數值是否符合在合法范圍內,提交工單讓運維處理。 無 參數模板應用失敗 NoSQLApplyParameterGroupFailed 重要 一般是由于實例狀態異常導致參數模板無法應用等原因導致。 提交工單讓運維處理。 無 開啟或關閉SSL失敗 NoSQLSwitchSSLFailed 重要 一般是由于修改SSL命令超時導致。 重新提交一次或者提交工單處理,并先保持切換之前使用SSL的連接方式。 是否使用SSL連接。 單行數據量太大 LargeRowOccurs 重要 用戶單行數據量過大,可能會導致查詢超時,進而節點OOM掛掉等各種故障發生。 1. 對每列和每行的寫入長度做限制,遵從規范,使得單行的的key和value長度和不超過閾值。 2. 排查業務是否出現異常寫入和異常編碼,導致寫入大row。
過大的單行記錄,隨著數據量增長,集群穩定性會下降。