项目简介
本项目是针对社交媒体文本分类的深度学习系统。利用LSTM和MLP模型,结合预训练的词向量技术,对社交媒体文本进行自动分类。核心功能涵盖数据预处理、模型训练、评估与优化,可有效识别文本是否为谣言并分类。还提供便捷的数据处理和词向量转换工具,适用于社交媒体平台的文本分类任务,实用价值和应用前景高。
项目的主要特性和功能
- 数据预处理:用jieba分词工具分词并去除停用词。
- 词向量转换:使用“chinese - word - vectors”预训练词向量模型将文本转换为词向量。
- 模型训练:支持LSTM和MLP模型训练,能自动分类社交媒体文本。
- 模型评估:训练结束后,可在
./runs
文件夹查看训练结果和日志文件。 - 便捷工具:提供数据集路径调整、是否加入prompt、选择何时加入MLP辅助分类信息等功能。
安装使用步骤
环境准备
- 确保已安装Python 3.8.16。
- 使用
pip install -r requirements.txt
安装项目依赖。
数据准备
下载预训练词向量模型“chinese - word - vectors”,并将其权重文件放在./embeddings
文件夹中。
数据集配置
- 在
utils.py
的get_df()
函数里,调整数据集路径和是否加入prompt。 - 在
lstm_train.py
中,通过改变values
的值选择何时加入MLP的辅助分类信息。
模型训练
- 运行
python lstm_train.py
进行LSTM模型训练。 - 运行
python bert.py
进行BERT模型训练。
查看结果
训练结束后,在自动创建的./runs
文件夹下查看训练结果和日志文件。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】