GPU監控
更新時間 2024-08-23 10:42:56
最近更新時間: 2024-08-23 10:42:56
分享文章
GPU類云主機支持數據監控,以及告警規則配置,便于您及時了解資源運行狀態。
操作場景
使用GPU監控可以幫助您及時快速了解GPU類云主機的監控指標。
前提條件
- 注冊天翼云賬號,并完成實名認證。具體操作,請參見天翼云賬號注冊流程。
- 您已經完成GPU類云主機的創建。
查看GPU監控數據
- 登錄控制中心。
- 在控制中心頁面左上角點擊
,選擇區域,本文我們選擇華東1。 - 依次選擇“管理與部署”,單擊“云監控”,進入監控概覽頁面。
- 單擊“主機監控”下拉菜單,選擇“云主機監控”選項,進入對應云產品的監控頁面。


- 單擊待查看的GPU類云服務資源所在行的“查看監控圖表”,切換至“GPU監控”頁簽,可查看GPU相關監控指標。
GPU監控項說明
| 監控項 | 單位 | 含義 | 指標名稱 | 采集周期 |
|---|---|---|---|---|
| GPU使用率 | % | 評估負載所消耗的計算能力,非空閑狀態百分比 | gpuutil_on_gpu | 1分鐘 |
| GPU顯存使用量 | 可選KB、MB、GB,默認展示MB。 | 評估負載對顯存的占用 | memusage_on_gpu | 1分鐘 |
| GPU顯存使用率 | % | 評估負載對顯存的占用的百分比 | memusage_on_gpu | 1分鐘 |
| GPU溫度 | ℃ | 評估GPU散熱情況 | npu_chip_info_temperature | 1分鐘 |
| GPU功耗 | W | 評估GPU耗電情況 | npu_chip_info_power | 1分鐘 |