注: 每一步請截圖保存結果備查
插件版本
云監控插件版本分為:ctcm-agent 與 telegraf-agent。最新版本為 telegraf-agent,因新版 telegraf-agent 具有cpu、內存消耗低等優點,如果資源池具備條件,建議您安裝最新版 telegraf-agent。
注意
本文主要介紹 Ctcm-Agent 插件問題排查,telegraf-agent 相關排查信息參見telegraf-agent排查指引。
當前 telegraf-agent 僅支持部分地區,除 telegraf-agent 支持地區外即默認為 Ctcm-Agent 支持地區。telegraf-agent 支持地區參見監控 Agent 概覽。
確認插件版本
在主機內輸入如下命令,對應命令有顯示,則表明安裝了對應 agent 版本。
systemctl status ctcm-agent
systemctl status telegraf
Ctcm-Agent:

telegraf-agent:
如果是 telegraf-agent,則參見telegraf-agent 排查指引。
一、Linux系統監控無數據問題
1. 重啟查看服務狀態
systemctl status ctcm-agent
若為: Unit ctcm-agent.service could not be found ,則為系統未安裝監控服務,跳過后邊步驟即可
下面示例為運行中:

2. 查看網絡連通問題
ping 169.254.169.254
若ping不通,說明網絡連通故障或目標IP禁ping

執行
curl 169.254.169.254:10051
或 telnet 169.254.169.254 10051
若報錯,則目標主機的10051不通,網絡存在問題
正常應該為

3. Python 環境檢查
ctcm-agent 運行需要 python 環境,python2 或 python3 均可。公有鏡像中默認有 python2 環境。如您自行安裝了 python 的其他版本,請確認 python 命令可正常使用。
一般安裝 python 后需要添加軟鏈接,否則 python 命令可能會提示“command not found”。參考命令如下:
# 請根據機器實際具備的 Python 版本設置,替換 3.x
ln -s /usr/bin/python3.x /usr/bin/python
具體的 Python 文件名,可以通過如下命令查看:
ll /usr/bin/ | grep python
4. 配置文件檢查
配置文件 /etc/ctcm/ctcm_agentd.conf ,查看 Hostname 配置項是否與控制臺保持一致。
5. 查看服務日志
tail -50 /var/log/ctcm/ctcm_agentd.log
查看日志的報錯信息
若以上檢查點未發現問題,您可以嘗試重啟Agent,等待5分鐘左右查看控制臺監控是否恢復。
systemctl restart ctcm-agent
二、Linux系統 ctcm-agent 3.4.X 版本內存占用過高問題
注意早期公有鏡像版本(已全面下線),ctcm-agent 3.4.X版本可能會有內存溢出的問題,建議使用以下命令進行限制,不影響監控采集。
1、確認 ctcm-agent 版本
使用如下命令,確認 ctcm-agent 版本,如果是 3.4.X 版本,可以繼續后續步驟。
ctcm_agentd -V
2、確認是否已經執行過限制
systemctl status ctcm-agent
如果顯示已經限制過,則無需后續步驟。
3、內存占用確認
步驟 2 圖中 Memory 同樣顯示了當前 ctcm-agent 的內存占用,
如果發現內存值超過 64M,可以在云主機執行如下命令進行限制。參考命令如下(可重復執行):
systemctl set-property ctcm-agent MemoryLimit=64M CPUQuota=10%
systemctl daemon-reload
systemctl restart ctcm-agent
三 、Window系統監控無數據問題
1. 查看服務狀態
快捷鍵“win+r”打開【運行】,然后在文本框輸入“services.msc”后回車,打開服務窗口
-
查找是否有名為
ctcm-agent的服務,如無,則為系統未安裝監控服務,跳過后邊步驟即可
-
如有,截圖查看運行狀態
*

2. 查看網絡連通問題
快捷鍵“win+r”打開【運行】,然后在文本框輸入“cmd”后回車,打開服務窗口
ping 169.254.169.254
若ping不通,說明網絡連通故障或IP禁ping

執行
curl 169.254.169.254:10051
或
telnet 169.254.169.254 10051
若報錯,則目標主機的10051不通,網絡存在問題
3. 查看服務日志
打開文件
C:\Windows\ctcm\ctcm_agentd.log
到最后一頁截圖,查看日志信息

4. 檢查配置文件
配置文件路徑 C:\Windows\ctcm\conf\ctcm_agentd.conf
查看 Hostname 配置項是否與控制臺保持一致。