ALM-44004 Presto Coordinator資源組排隊任務超過閾值
更新時間 2023-07-17 15:31:27
最近更新時間: 2023-07-17 15:31:27
分享文章
本章節主要介紹ALM-44004 Presto Coordinator資源組排隊任務超過閾值的告警。
告警解釋
系統通過jmx接口查詢資源組的排隊任務數即QueuedQueries指標,當檢測到資源組排隊數大于閾值時產生該告警。用戶可通過"組件管理 > Presto > 服務配置(將“基礎配置”切換為“全部配置”) >Presto > resource-groups " 配置資源組。用戶可通過"組件管理 > Presto > 服務配置(將“基礎配置”切換為“全部配置”) > Coordinator > 自定義 > resourceGroupAlarm " 配置每個資源組的閾值。
告警屬性
| 告警ID | 告警級別 | 可自動清除 |
|---|---|---|
| 44004 | 嚴重 | 是 |
告警參數
| 參數名稱 | 參數含義 |
|---|---|
| ServiceName | 產生告警的服務名稱。 |
| RoleName | 產生告警的角色名稱。 |
| HostName | 產生告警的主機名。 |
對系統的影響
資源組排隊超過閾值可能導致大量任務處于排隊狀態,Presto任務時間超過預期,當資源組排隊數超過該組最大排隊數(maxQueued)時,會導致新的任務無法執行。
可能原因
資源組配置不合理或該資源組下提交的任務過多。
處理步驟
用戶可通過“組件管理Presto > 服務配置(將“基礎配置”切換為“全部配置”) >Presto > resource-groups”調整資源組的配置。
- 用戶可通過“組件管理 > Presto > 服務配置(將“基礎配置”切換為“全部配置”) > Coordinator > 自定義 > resourceGroupAlarm”修改每個資源組的閾值。
- 收集故障信息。
- 根據故障信息中的HostName登錄到集群節點,在presto客戶端根據附加信息中的Reource Group查詢排隊數。
- 根據故障信息中的HostName登錄到集群節點,查看/var/log/Bigdata/nodeagent/monitorlog/monitor.log日志,搜索Resource group info可看到資源組監控采集信息。
- 請聯系運維人員,并發送已收集的故障日志信息。
參考信息
無。