使用 nvidia-smi 查看 GPU 温度

打开命令行终端(Windows 的 cmd 或 PowerShell,Linux 的终端),然后输入以下命令:

nvidia-smi

这将显示当前系统中所有 NVIDIA GPU 的状态信息,包括温度、使用率、功耗等。输出示例如下:

  • Fan:风扇速度(百分比)。
  • Temp:GPU 温度(摄氏度)。
  • Perf:性能状态。
  • Pwr/Cap:功耗及其上限。
  • Memory-Usage:显存使用情况。
  • GPU-Util:GPU 利用率。
  • Compute M.:计算模式。

持续监控

如果你想持续监控 GPU 状态,可以使用以下命令:

每秒钟刷新一次 nvidia-smi 输出。

导出到文件

你也可以将输出导出到文件进行进一步分析:

nvidia-smi -l 1 > gpu_monitoring.txt

这会每秒钟将 nvidia-smi 的输出追加到 gpu_monitoring.txt 文件中。

使用 Python 脚本

你还可以使用 Python 脚本结合 nvidia-smi 进行监控和记录。以下是一个简单示例:

import os
import time

def log_gpu_stats(interval=1, duration=60, output_file='gpu_stats.log'):
    start_time = time.time()
    with open(output_file, 'w') as f:
        while (time.time() - start_time) < duration:
            os.system('nvidia-smi >> {}'.format(output_file))
            time.sleep(interval)

log_gpu_stats(interval=5, duration=300)  # 每 5 秒记录一次,持续 300 秒(5 分钟)

# 每 5 秒记录一次,持续 300 秒(5 分钟)

这个脚本每 5 秒记录一次 GPU 状态,持续 300 秒。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐