步驟五:配置必須的監控告警
更新(xin)時間 2023-12-22 15:07:06
最近更新時(shi)間: 2023-12-22 15:07:06
分享文章
本文(wen)主要介紹(shao) 步驟五(wu):配置必須(xu)的監控告警。
本(ben)章節主要介紹部分監控指(zhi)標的(de)告(gao)警(jing)策(ce)略(lve),以及配置操作。在實際(ji)業務中(zhong),建議按(an)照以下告(gao)警(jing)策(ce)略(lve),配置監控指(zhi)標的(de)告(gao)警(jing)規則。
是否接近性能上限 ,表示當(dang)前資源支(zhi)撐的性能為告警策略中(zhong)設置的告警閾值,如果繼續上(shang)升,業務(wu)可能出現問(wen)題。
表 Kafka實例配置告(gao)警的(de)指(zhi)標
| 指標ID | 指標名稱 | 告警策略 | 指標說明 | 告警處理建議 |
|---|---|---|---|---|
| broker_disk_usage | 磁盤容量使用率 | 告警閾值:原始值>80%連續觸發次數:1 告警級別:緊急 |
該指標為從Kafka節點虛擬機層面采集的磁盤容量使用率。 | 出現該告警時,需要修改實例存儲空間 。具體操作,請參考變更實例規格。 |
| broker_cpu_core_load | CPU核均負載 | 告警閾值:原始值>2連續觸發次數:3 告警級別:重要 |
該指標為從Kafka節點虛擬機層面采集的CPU每個核的平均負載。 | 出現該告警時,先檢查該監控是否長期處于接近或超過告警閾值狀態,如果是,需要修改實例基準帶寬/代理個數 ,即擴節點。具體操作,請參考。 |
| broker_memory_usage | 內存使用率 | 告警閾值:原始值>90%連續觸發次數:3 告警級別:緊急 |
該指標為Kafka節點虛擬機層面采集的內存使用率。 | 出現該告警時,需要修改實例基準帶寬/代理個數 ,即擴節點。具體操作,請參考。 |
| current_partitions | 分區數 | 告警閾值:原始值>分區數上限的90%,不同實例規格分區數上限不同,具體參考產品規格。 連續觸發次數:1 告警級別:重要 |
該指標用于統計Kafka實例中已經使用的分區數量。 | 出現該告警時,如果業務后續還需要新增Topic,則需要修改實例基準帶寬/代理個數或將業務拆分至多個實例。修改實例基準帶寬/代理個數的具體操作,請參考。 |
| broker_cpu_usage | CPU使用率 | 告警閾值:原始值>90%連續觸發次數:3 告警級別:重要 |
統計Kafka節點虛擬機的CPU使用率。 | 出現該告警時,先檢查該監控是否長期處于接近或超過告警閾值狀態,如果是,需要修改實例基準帶寬/代理個數 ,即擴節點。具體操作,請參考。 |
| group_msgs | 堆積消息數 | 告警閾值:原始值>積壓上限的90%,積壓上限由您根據業務實際情況設定連續觸發次數:1 告警級別:重要 |
該指標用于統計Kafka實例中所有消費組中總堆積消息數。 | 出現該告警時,首先排查是否有閑置消費組,如果有,則刪除。其次,可以考慮加快消費速度,例如增加組內消費者數量等。 |
| topic_messages_remained | 隊列可消費消息數 | 告警閾值:原始值>積壓上限的90%,積壓上限由您根據業務實際情況設定連續觸發次數:1 告警級別:重要 |
該指標用于統計消費組指定隊列可以消費的消息個數。 | 出現該告警時,首先排查消費者代碼邏輯是否有誤,例如消費者出現了異常不再消費等。其次,可以考慮加快消息的消費,例如增加隊列消費者,并確保分區數大于或等于消費者數。 |
操作步驟
步驟 1 登錄分布式消息服務Kafka控制(zhi)臺,選擇Kafka實例所在的(de)區域。
步驟 2 在Kafka實例名稱后,單擊
,進入云(yun)監控(kong)該(gai)實例的監控(kong)指標頁面。
步驟 3 在實例監控指標頁面中,找到需要創建告警的指標項,鼠標移動到指標區域,然后單擊指標右上角的
,創建(jian)告警(jing)規則,跳轉到創建(jian)告警(jing)規則頁(ye)面(mian)。
步驟(zou) 4 在(zai)告警規(gui)則(ze)頁面(mian),設置告警信息。
創建告警規則操作,請查看《云監控服務用戶指南》的“創建告警規則和告警通知”章節。
- 設置告警名稱和告警的描述。
- 設置告警策略和告警級別。
如(ru)下圖所(suo)示,在進行指標監控時,如(ru)果連續3個周期,磁盤(pan)容量使用(yong)率(lv)原始值超過85%,則產生告警,如(ru)果未(wei)及(ji)時處理,則產生告警通知。
圖設置(zhi)告警(jing)策(ce)略和(he)告警(jing)級(ji)別


- 設置“發送通知”開關。當開啟時,設置告警生效時間、產生告警時通知的對象以及觸發的條件。
- 單擊“立即創建”,等待創建告警規則成功。