项目简介
这是一个基于TensorFlow的中文文本分类系统,运用卷积神经网络(CNN)和循环神经网络(RNN)对中文文本进行分类。项目旨在中文数据集上实现高效文本分类,并对比不同模型(CNN和RNN)的性能。
项目的主要特性和功能
- 卷积神经网络(CNN)模型:采用字符级CNN对中文文本分类,有较高分类准确率。
- 循环神经网络(RNN)模型:利用长短时记忆网络(LSTM)和门控循环单元(GRU)进行文本分类,并与CNN模型对比。
- 数据预处理:包含构建词汇表、数据清洗、文本到ID转换等步骤,为模型训练准备数据。
- 训练和测试:提供训练和测试模型的脚本,便于训练和评估模型性能。
- 可视化:使用TensorBoard可视化训练过程,展示损失和准确率等指标。
安装使用步骤
环境准备
确保安装了Python 2/3,TensorFlow 1.3以上,numpy,scikit - learn,scipy等依赖库。
数据准备
- 下载并准备THUCTC中文文本分类数据集。
- 按照项目中的
helper/cnews_group.py
脚本处理数据,生成训练集、验证集和测试集。
模型训练
运行run_cnn.py
或run_rnn.py
脚本,根据命令行参数选择训练CNN或RNN模型。例如,训练CNN模型:python run_cnn.py train
。
模型测试
训练完成后,运行run_cnn.py
或run_rnn.py
脚本,选择测试模式,评估模型在测试集上的性能。例如,测试CNN模型:python run_cnn.py test
。
结果分析
查看训练和测试过程中的输出,以及TensorBoard中的可视化结果,分析模型的性能。
注意:使用前,请确保已下载并解压数据集,并按项目说明处理数据。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】