T4 GPU設備顯示異常
更新時間 2023-09-03 10:04:41
最近更新時間: 2023-09-03 10:04:41
分享文章
本文向您介紹如何解決T4 GPU設備顯示異常的問題。
問題描述
G6型或PI2型規格的GPU彈性云主機中,執行nvidia-smi命令查看GPU設備狀態或使用情況時,有如下問題:
- 單卡GPU彈性云主機上,報錯“No devices were found”。
- 多卡GPU彈性云主機上顯示卡數目不全,執行“lspci|grep -i nvidia“顯示GPU卡數目正常。
可能原因
NVIDIA Tesla T4 GPU默認使用并開啟GSP Firmware,導致GPU無法識別。
處理方法
-
執行以下命令,移除NVIDIA內核模塊。
rmmod nvidia_drm rmmod nvidi_modeset rmmod nvidia -
執行以下命令,關閉GSP Firmware開關,并載入NVIDIA內核模塊。
modprobe nvidia NVreg_EnableGpuFirmware=0 modprobe nvidia_drm modprobe nvidia_modeset
以上操作只對當前運行的系統生效。如需持久化設置,需要在配置文件/etc/modprobe.d/nvidia.conf中增加一行“options nvidia NVreg_EnableGpuFirmware=0“。
- 如果問題依然存在,請聯系客服,由技術支持人員處理。