项目简介
本项目是基于Python的中文文本情感分析系统,运用情感词典和SVM(支持向量机)两种主要方法,对中文文本的情感倾向进行分析与预测。同时结合KNN(K最近邻)算法、KMeans聚类算法以及词向量技术(如Word2Vec),提升情感分析的准确性和效率。
项目的主要特性和功能
- 情感词典方式:构建积极、消极、程度和否定词典,通过词语相似度判断对文本初步分类,利用KNN算法进行有监督学习,KMeans算法进行无监督聚类。
- SVM方式:用SVM算法训练情感分类模型,借助Word2Vec生成词向量将文本转换为数值向量,划分训练集和测试集进行模型训练与评估。
- KNN算法:对情感分析结果进行预测和分类。
- KMeans聚类:对文本数据聚类,分析不同类别情感特征。
- 词向量技术:利用Word2Vec将文本转换为数值向量,方便数值计算和机器学习算法应用。
安装使用步骤
环境准备
安装Python 3.7及以上版本,安装必要的Python库,如numpy、pandas、matplotlib、scikit - learn等。
数据准备
从指定路径加载文本数据集,如ChnSentiCorp_htl_ba_10000
。
模型训练与评估
- 运行
sentiment_dictionary.py
进行情感词典方式的情感分析。 - 运行
svm_model.py
进行SVM方式的情感分析。 - 运行
knn_prediction.py
进行KNN算法的预测。 - 运行
kmeans_clustering.py
进行KMeans聚类分析。
结果查看
根据脚本输出结果,分析情感分析的准确率、不同类别的情感分布等。
可视化
使用matplotlib库的绘图功能,绘制柱状图、散点图等,直观了解模型性能和数据分布。
注:假设用户已下载项目源码文件,并具备相应的Python环境和库支持。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】