在利用 GPU 进行训练时,过热问题可能导致服务器宕机。为了预防这一情况,我们可以在训练过程中使用 nvtop 工具来监控 GPU 的各项指标,如时钟频率、显存频率和温度等。在这里记录本人在 Ubuntu 系统上安装 nvtop 的过程。

1 sudo apt 安装报错

sudo apt install nvtop

报错:nvtop : Depends: libnvidia-compute-418 but it is not going to be installed

2 从源代码安装

参考:https://juejin.cn/post/7174615031617683493【作者 AIArt_jn】

git clone https://github.com/Syllo/nvtop.git
mkdir -p nvtop/build && cd nvtop/build
cmake .. -DNVIDIA_SUPPORT=ON -DAMDGPU_SUPPORT=ON -DINTEL_SUPPORT=ON # 本人在这一步报错
make# Install globally on the system
sudo make install

3 cmake 报错

cmake .. -DNVIDIA_SUPPORT=ON -DAMDGPU_SUPPORT=ON -DINTEL_SUPPORT=ON

报错:
– Could NOT find UDev (missing: UDEV_LIBRARY UDEV_INCLUDE_DIR) (found version “”)
– Could NOT find Systemd (missing: SYSTEMD_LIBRARY SYSTEMD_INCLUDE_DIR) (found version “”)
CMake Error at src/CMakeLists.txt:71 (message): Neither libsystemd nor libudev were found;
These are required for AMDGPU and INTEL support

4 安装缺少的包

分别安装 libudev-dev、libsystemd-dev、libdrm-dev,完成后,继续执行第 2 步中的 makesudo make install

sudo apt install libudev-dev
sudo apt install libsystemd-dev
sudo apt install libdrm-dev

5 完成

执行 nvtop ,可以看到监控视图。
在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐