告警解釋
系統每60秒周期性檢測Hive服務狀態。當Hive服務不可用時產生該告警。
當Hive服務恢復時,告警恢復。
說明
MRS 3.X支持Hive多實例,若集群啟用了多實例功能且安裝了多個Hive服務,請根據“定位信息”的“服務名”值來確定具體產生告警的Hive服務。例如Hive1服務不可用,則“定位信息”中顯示服務名=Hive1,處理步驟中的操作對象也應由Hive調整為Hive1。
告警屬性
| 告警ID | 告警級別 | 是否自動清除 |
|---|---|---|
| 16004 | 緊急 | 是 |
告警參數
| 參數名稱 | 參數含義 |
|---|---|
| 來源 | 產生告警的集群名稱。 |
| 服務名 | 產生告警的服務名稱。 |
| 角色名 | 產生告警的角色名稱。 |
| 主機名 | 產生告警的主機名。 |
對系統的影響
系統無法提供數據加載,查詢,提取服務。
可能原因
- Hive服務不可用可能與ZooKeeper、HDFS、Yarn和DBService等基礎服務有關,也可能由Hive自身的進程故障引起。
? ZooKeeper服務異常。
? HDFS服務異常。
? Yarn服務異常。
? DBService服務異常。
? Hive服務進程故障,如果告警由Hive進程故障引發,告警上報時間可能會延遲5分鐘左右。
- Hive服務和基礎服務間的網絡通信中斷。
處理步驟
檢查HiveServer/MetaStore進程狀態
1.在FusionInsight Manager首頁,選擇“集群 > 待操作集群的名稱 > 服務 > Hive > 實例”,在Hive實例列表中,查看所有HiveServer或MetaStore實例狀態是否都呈現未知狀態。
- 是,執行步驟2。
- 否,執行步驟4。
2.在Hive實例列表上方,選擇“更多 > 重啟實例”,重啟HiveServer/MetaStore進程。
3.在告警列表中,查看“Hive服務不可用”告警是否清除。
- 是,處理完畢。
- 否,執行步驟4。
檢查ZooKeeper服務狀態
4.在FusionInsight Manager的告警列表中,查看是否有“進程故障”產生。
- 是,執行步驟5。
- 否,執行步驟8。
5.在“進程故障”,查看“服務名”是否為“ZooKeeper”。
- 是,執行步驟6。
- 否,執行步驟8。
6.參考“ALM-12007 進程故障”的處理步驟處理該故障。
7.在告警列表中,查看“Hive服務不可用”告警是否清除。
- 是,處理完畢。
- 否,執行步驟8。
檢查HDFS服務狀態
8.在FusionInsight Manager的告警列表中,查看是否有“HDFS服務不可用”產生。
- 是,執行步驟9。
- 否,執行步驟11。
9.參考“ALM-14000 HDFS服務不可用”的處理步驟處理該故障。
10.在告警列表中,查看“Hive服務不可用”告警是否清除。
- 是,處理完畢。
- 否,執行步驟11。
檢查Yarn服務狀態
11.在FusionInsight Manager的告警列表中,查看是否有“Yarn服務不可用”產生。
- 是,執行步驟12。
- 否,執行步驟14。
12.參考“ALM-18000 Yarn服務不可用”的處理步驟處理該故障。
13.在告警列表中,查看“Hive服務不可用”告警是否清除。
- 是,處理完畢。
- 否,執行步驟14。
檢查DBService服務狀態
14.在FusionInsight Manager的告警列表中,查看是否有“DBService服務不可用”產生。
- 是,執行步驟15。
- 否,執行步驟17。
15.參考“ALM-27001 DBService服務不可用”的處理步驟處理該故障。
16.在告警列表中,查看“Hive服務不可用”告警是否清除。
- 是,處理完畢。
- 否,執行步驟17。
檢查Hive與ZooKeeper、HDFS、Yarn和DBService之間的網絡連接
17.在FusionInsight Manager首頁,選擇“集群 > 待操作集群的名稱 > 服務 > Hive”。
18.單擊“實例”。
顯示HiveServer實例列表。
19.單擊“HiveServer”行的“主機名稱”。
彈出HiveServer主機狀態頁面。
20.記錄“基本信息”下的IP地址。
21.以omm用戶通過步驟20獲取的IP地址登錄HiveServer所在的主機。
22.執行ping命令,查看HiveServer所在主機與ZooKeeper、HDFS、Yarn和DBService服務所在主機的網絡連接是否正常。(獲取ZooKeeper、HDFS、Yarn和DBService服務所在主機的IP地址的方式和獲取HiveServer IP地址的方式相同。)
- 是,執行步驟25。
- 否,執行步驟23。
23.聯系網絡管理員恢復網絡。
24.在告警列表中,查看“Hive服務不可用”告警是否清除。
- 是,處理完畢。
- 否,執行步驟25。
收集故障信息
25.在FusionInsight Manager首頁,選擇“運維 > 日志 > 下載”。
26.在“服務”中勾選待操作集群的如下節點信息。
- ZooKeeper
- HDFS
- Yarn
- DBService
- Hive
27.單擊右上角的
設置日志收集的“開始時間”和“結束時間”,分別為告警產生時間的前后10分鐘,單擊“下載”。
28.請聯系運維人員,并發送已收集的故障日志信息。
告警清除
此告警修復后,系統會自動清除此告警,無需手工清除。
參考信息
無。