littlebot
Published on 2025-04-09 / 0 Visits
0

【源码】基于Python的深度学习服务器GPU监控系统

项目简介

本项目运用Python开发,用于监控深度学习训练时服务器的GPU使用情况。系统能实时反馈显卡资源状态,并借助钉钉机器人推送消息,方便用户管理与监控训练任务。通过可视化展示显卡资源使用情况,可提高硬件资源利用率和训练任务效率,同时集成七牛云存储,便于数据存储与共享。

项目的主要特性和功能

  1. 服务器GPU监控:实时获取服务器GPU状态信息,如显存使用情况。
  2. 可视化监控:使用matplotlib绘制饼图,直观呈现每个GPU的使用状态。
  3. 七牛云存储集成:将生成的图片信息上传到七牛云存储服务器,方便数据存储与共享。
  4. 钉钉消息通知:服务器资源紧张时,通过钉钉发送通知提醒相关人员。
  5. 灵活配置:支持通过配置文件设置和配置环境变量,满足不同需求。

安装使用步骤(假设用户已下载项目的源码文件)

  1. 安装环境依赖bash pip3 uninstall nvidia-ml-py3 pynvml -y pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple nvitop nvidia-ml-py==11.450.51 pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple requests pandas numpy matplotlib qiniu pyyaml
  2. 配置环境变量
  3. project_example.yaml重命名为project.yaml
  4. 编辑project.yaml文件,配置以下内容: ```yaml HOST : x.x.x.x INTERVAL : 600 WEBHOOK_URL : DINGDING: https://oapi.dingtalk.com/robot/send?access_token= CUDA_VISIBLE_DEVICES : -1

    USE_QINIU: STATUS: True ACCESS_KEY : xxxxxxxxxxxxxxxxxxxxxx SECRET_KEY : xxxxxxxxxxxxxxxxxxxxxx EXTERNAL_DOMAIN : http://xxxxxxxxx.bkt.clouddn.com/ BUCKET_NAME : xxxxxxxxx 3. **运行主程序**:bash mkdir images python main.py ```

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】