Python监控显存：方法、工具与实战指南

作者：谁偷走了我的奶酪2025.09.25 19:30浏览量：1

简介：本文详细介绍Python中查看显存的多种方法，包括使用NVIDIA管理库(NVML)、PyTorch、TensorFlow等框架的内置接口，以及第三方工具如GPUtil。通过代码示例与场景分析，帮助开发者精准监控显存使用，优化模型训练与推理性能。

Python监控显存：方法、工具与实战指南

在深度学习与高性能计算领域，显存（GPU Memory）的合理管理直接影响模型训练效率与稳定性。Python作为主流开发语言，提供了多种查看显存的方案。本文将从底层硬件接口到高级框架工具，系统梳理Python中查看显存的核心方法，并结合实际场景提供优化建议。

一、底层硬件接口：NVIDIA管理库(NVML)

NVIDIA Management Library (NVML)是官方提供的底层API，可直接获取GPU的硬件状态信息，包括显存使用量、温度、功耗等。其优势在于数据精确、无需依赖深度学习框架，适合需要精细化监控的场景。

1.1 安装与基础使用

通过pynvml库封装NVML功能，安装命令如下：

pip install nvidia-ml-py3

示例代码：

from pynvml import *
nvmlInit()
handle = nvmlDeviceGetHandleByIndex(0)  # 获取第一个GPU的句柄
info = nvmlDeviceGetMemoryInfo(handle)
print(f"总显存: {info.total / 1024**2:.2f} MB")
print(f"已用显存: {info.used / 1024**2:.2f} MB")
print(f"空闲显存: {info.free / 1024**2:.2f} MB")
nvmlShutdown()

此代码输出当前GPU的总显存、已用显存和空闲显存，单位为MB。nvmlInit()与nvmlShutdown()需成对调用以初始化/释放资源。

1.2 高级功能：显存分配追踪

NVML可监控显存的动态分配过程，例如：

def monitor_memory(interval=1):
    nvmlInit()
    handle = nvmlDeviceGetHandleByIndex(0)
    try:
        while True:
            info = nvmlDeviceGetMemoryInfo(handle)
            print(f"\r已用显存: {info.used / 1024**2:.2f} MB", end="")
            time.sleep(interval)
    except KeyboardInterrupt:
        nvmlShutdown()

该函数每秒刷新一次显存使用量，按Ctrl+C终止。适用于调试显存泄漏问题。

二、深度学习框架内置接口

主流框架（PyTorch、TensorFlow）均提供了显存监控API，与模型训练流程无缝集成。

2.1 PyTorch显存监控

PyTorch通过torch.cuda模块暴露显存信息：

import torch
def print_gpu_memory():
    allocated = torch.cuda.memory_allocated() / 1024**2
    reserved = torch.cuda.memory_reserved() / 1024**2
    print(f"已分配显存: {allocated:.2f} MB")
    print(f"缓存显存: {reserved:.2f} MB")
# 示例：监控训练过程中的显存
model = torch.nn.Linear(1000, 1000).cuda()
input_tensor = torch.randn(100, 1000).cuda()
print_gpu_memory()  # 调用模型前
output = model(input_tensor)
print_gpu_memory()  # 调用模型后

memory_allocated()返回当前PyTorch进程实际使用的显存，memory_reserved()返回缓存池大小（PyTorch会预分配显存以加速后续分配）。

2.2 TensorFlow显存监控

TensorFlow 2.x通过tf.config.experimental提供显存信息：

import tensorflow as tf
gpus = tf.config.list_physical_devices('GPU')
if gpus:
    try:
        for gpu in gpus:
            details = tf.config.experimental.get_device_details(gpu)
            print(f"设备: {details['device_name']}")
            print(f"显存总量: {details['memory_limit'] / 1024**2:.2f} MB")
    except RuntimeError as e:
        print(e)
# 监控会话中的显存
with tf.device('/GPU:0'):
    a = tf.constant([1.0] * 1024**2, dtype=tf.float32)  # 4MB数据
    b = tf.constant([2.0] * 1024**2, dtype=tf.float32)
    c = a + b
    print(f"操作后显存使用: {tf.config.experimental.get_memory_usage('GPU:0') / 1024**2:.2f} MB")

TensorFlow的get_memory_usage()返回当前操作占用的显存，需在会话（Session）或Eager Execution模式下调用。

三、第三方工具：GPUtil与PSUTIL

对于需要跨框架或简化操作的需求，第三方库提供了更友好的接口。

3.1 GPUtil：轻量级GPU监控

GPUtil封装了NVML功能，支持多GPU监控：

import GPUtil
def print_gpu_utilization():
    gpus = GPUtil.getGPUs()
    for gpu in gpus:
        print(f"GPU {gpu.id}:")
        print(f"  显存使用: {gpu.memoryUsed} MB / {gpu.memoryTotal} MB")
        print(f"  使用率: {gpu.load * 100:.1f}%")
print_gpu_utilization()

输出包含显存使用量、使用率等信息，适合快速检查系统状态。

3.2 PSUTIL：系统级资源监控

PSUTIL可结合GPU信息提供更全面的资源视图：

import psutil
import GPUtil
def system_memory_info():
    # CPU内存
    mem = psutil.virtual_memory()
    print(f"系统内存总量: {mem.total / 1024**3:.2f} GB")
    print(f"系统内存使用: {mem.used / 1024**3:.2f} GB")
    # GPU内存
    gpus = GPUtil.getGPUs()
    for gpu in gpus:
        print(f"GPU {gpu.id} 显存使用: {gpu.memoryUsed} MB")
system_memory_info()

此方案适用于需要同时监控CPU与GPU资源的场景。

四、实战建议：显存优化策略

显存泄漏排查：使用NVML或框架API监控显存的持续增长，结合代码审查定位未释放的张量或模型参数。
批量大小调整：通过torch.cuda.memory_allocated()监控不同批量大小下的显存占用，找到最大可行批量。
混合精度训练：PyTorch的AMP（Automatic Mixed Precision）或TensorFlow的tf.keras.mixed_precision可减少显存占用。
梯度检查点：对长序列模型（如Transformer），启用梯度检查点（torch.utils.checkpoint）可大幅降低显存需求。

五、常见问题与解决方案

问题：pynvml报错NVML Shared Library Not Found
解决：确保已安装NVIDIA驱动，且libnvidia-ml.so在系统路径中（通常位于/usr/lib/x86_64-linux-gnu/）。
问题：TensorFlow显示Could not create cuDNN handle
解决：检查CUDA/cuDNN版本与TensorFlow版本是否匹配，或通过tf.config.experimental.set_memory_growth启用显存动态分配。
问题：多进程训练时显存监控不准确
解决：确保每个进程独立调用显存监控API，避免共享状态。

六、总结

Python查看显存的方法涵盖底层硬件接口（NVML）、框架内置API（PyTorch/TensorFlow）和第三方工具（GPUtil/PSUTIL），开发者可根据场景选择合适方案。结合显存优化策略，可显著提升模型训练效率与稳定性。实际应用中，建议将显存监控集成到日志系统或可视化面板（如TensorBoard、Weights & Biases），实现实时监控与历史分析。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

活动

咨询

开发者热搜

Python监控显存：方法、工具与实战指南

Python监控显存：方法、工具与实战指南

一、底层硬件接口：NVIDIA管理库(NVML)

1.1 安装与基础使用

1.2 高级功能：显存分配追踪

二、深度学习框架内置接口

2.1 PyTorch显存监控

2.2 TensorFlow显存监控

三、第三方工具：GPUtil与PSUTIL

3.1 GPUtil：轻量级GPU监控

3.2 PSUTIL：系统级资源监控

四、实战建议：显存优化策略

五、常见问题与解决方案

六、总结

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

百度千帆·大模型服务及Agent开发平台

百度千帆·数据智能平台

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者