项目简介
本项目是综合性的深度学习应用项目,覆盖图像处理和光学字符识别(OCR)两大领域。基于PyTorch框架,结合图像分类、图像分割和OCR技术,提供从数据准备、模型训练到模型评估的完整流程。
项目的主要特性和功能
- 图像分类:实现LeNet和VGG - Net等经典卷积神经网络模型,还提供创建图像分类工程的详细过程总结。
- 图像分割:实现U - Net模型用于图像分割任务,并提供创建图像分割工程的过程总结。
- 光学字符识别(OCR):使用卷积循环神经网络(CRNN)进行图像中的文本检测和识别,提供数据准备、模型训练、模型评估和可视化工具的全流程支持。
安装使用步骤
环境配置
安装MiniConda 3并创建虚拟环境,安装Python 3.10.13、CUDA 12.1.0、cuDNN 8.9.5、PyTorch 2.1.1+cu121、torchvision 0.16.1+cu121、torchsummary 1.5.1,使用VSCode作为IDE。
数据准备
运行utils.py
脚本,生成图像分类和OCR任务所需的数据集路径索引和标签文件。
模型训练
运行train.py
脚本,进行图像分类、图像分割和OCR模型的训练。
模型评估
运行evaluate.py
脚本,评估图像分类、图像分割和OCR模型的性能。
可视化工具
运行Mat.py
脚本,生成训练过程中性能指标(如IOU、ACC、Precision、Recall等)变化的图表。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】