项目简介
本项目运用Python开发,用于监控深度学习训练时服务器的GPU使用情况。系统能实时反馈显卡资源状态,并借助钉钉机器人推送消息,方便用户管理与监控训练任务。通过可视化展示显卡资源使用情况,可提高硬件资源利用率和训练任务效率,同时集成七牛云存储,便于数据存储与共享。
项目的主要特性和功能
- 服务器GPU监控:实时获取服务器GPU状态信息,如显存使用情况。
- 可视化监控:使用matplotlib绘制饼图,直观呈现每个GPU的使用状态。
- 七牛云存储集成:将生成的图片信息上传到七牛云存储服务器,方便数据存储与共享。
- 钉钉消息通知:服务器资源紧张时,通过钉钉发送通知提醒相关人员。
- 灵活配置:支持通过配置文件设置和配置环境变量,满足不同需求。
安装使用步骤(假设用户已下载项目的源码文件)
- 安装环境依赖:
bash pip3 uninstall nvidia-ml-py3 pynvml -y pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple nvitop nvidia-ml-py==11.450.51 pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple requests pandas numpy matplotlib qiniu pyyaml
- 配置环境变量:
- 将
project_example.yaml
重命名为project.yaml
。 -
编辑
project.yaml
文件,配置以下内容: ```yaml HOST : x.x.x.x INTERVAL : 600 WEBHOOK_URL : DINGDING: https://oapi.dingtalk.com/robot/send?access_token= CUDA_VISIBLE_DEVICES : -1USE_QINIU: STATUS: True ACCESS_KEY : xxxxxxxxxxxxxxxxxxxxxx SECRET_KEY : xxxxxxxxxxxxxxxxxxxxxx EXTERNAL_DOMAIN : http://xxxxxxxxx.bkt.clouddn.com/ BUCKET_NAME : xxxxxxxxx
3. **运行主程序**:
bash mkdir images python main.py ```
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】