项目简介
本项目是基于Python和Keras框架的文本分类系统,借助深度学习技术对中文文本进行分类。支持自定义数据集的训练与模型部署,可应用于产品分类、银行分类、国家分类等多种文本分类场景。
项目的主要特性和功能
- 环境搭建:能通过conda安装特定版本依赖包,保证环境的一致性与稳定性。
- 数据预处理:支持自定义CSV格式数据集的导入和预处理,包括分词、去除停用词等操作。
- 模型训练:提供训练脚本,支持自定义模型参数,如嵌入矩阵大小、学习率、批次大小等。
- 模型部署:训练完成后,模型可导出为HDF5和TensorFlow的PB格式,便于部署到生产环境。
- 模型监控:训练过程中可使用TensorBoard监控模型训练进度和性能。
安装使用步骤
环境搭建
使用conda安装项目依赖:
bash
conda install jieba=0.39 numpy=1.17.3 requests=2.22.0 keras=2.3.0 pandas=0.25.1 tqdm=4.31.0 tensorflow=1.14.0
数据准备
- 下载预训练的词向量文件
wiki.zh.vec
并放置在./data/
目录下。 - 准备自定义数据集,格式为CSV,包含
class
和data
两列。
配置修改
根据需要修改config.py
文件中的参数,如训练数据路径、嵌入矩阵大小、验证集比例等。
模型训练
运行训练脚本进行模型训练:
bash
python train.py
训练过程中,模型文件将保存在./save_model/save/
目录下,日志文件保存在./save_model/logs/
目录下。
模型监控
使用TensorBoard监控训练过程:
bash
tensorboard --logdir=save_model/logs
模型部署
- 训练完成后,模型将导出为PB格式文件,保存在
./save_model/deploy/
目录下。 - 使用
client.py
进行模型推理,根据需要修改类别映射字典class_dict
。
通过以上步骤,可快速搭建并使用本项目进行文本分类任务。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】