项目简介
本项目是一个中文短文本处理系统,基于 fasttext、One - Pass Cluster、TextRank4ZH 等算法,集成 jieba 分词、fasttext 预训练词向量等工具,可对中文短文本进行高效处理,提供文本分类、聚类、摘要提取等功能。
项目的主要特性和功能
- 文本分类:利用 fasttext 实现高效文本分类,支持预训练词向量,能计算各分类及总体的准确率、精确率、召回率和 F1 值等评估指标。
- 文本聚类:采用 One - Pass Cluster 算法,支持自定义文本向量化方法(如 TFIDF 向量化和 Fastext 向量化),可自定义聚类中心向量求取方式,能提取聚类的关键词和中心句。
- 文本摘要:基于 TextRank4ZH 算法,对文本聚类结果进行摘要提取。
- 分词与向量化:使用 jieba 进行中文分词,可自由替换停用词,支持用户自定义不同的文本向量化方式。
安装使用步骤
1. 安装依赖库
安装 fasttext、jieba 等项目所需的库。
2. 运行代码
直接运行 classification.py
、cluster.py
等文件中的代码,开展文本分类、聚类等任务。
3. 数据预处理
使用代码中的 DocTokenizer
、Vectorizer
等工具,进行文本清洗、分词、向量化等预处理工作。
4. 模型训练与评估
使用 train_model
、test_model
等函数进行模型的训练与评估。
5. 结果输出
代码会输出分类、聚类结果以及相应的评估指标。
注意事项
- 需要下载 fasttext 预训练词向量,用于文本分类和向量化。
- 文本数据采用中文新闻标题数据集,实际使用时可根据需求调整。
- 停用词文件 (
stop_words.txt
) 和模型文件 (*.bin
) 需自行准备。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】