项目简介
本项目是基于Python语言的文本处理系统,用于对中文和英文混合的文本文件进行预处理和分词操作。项目包含preprocess.py
和part.py
两个核心脚本,分别负责文本预处理与分词,旨在生成每行一个词的文本文件,并合并共现频率高的词组,提高文本分析的准确性。
项目的主要特性和功能
主要特性
- 自动识别和转换编码,清理无用字符和格式。
- 可区分并正确处理中英文混合文本。
- 生成每行一个词的文本文件,便于后续处理。
- 识别并合并高频共现的词组,提升主题分析和词频统计的准确性。
功能细节
preprocess.py
- 读取原始文本文件,尝试多种编码确保正确读取。
- 清理文本内容,移除无意义字符和格式。
- 将处理后的文本保存到 'input' 目录。
part.py
- 读取预处理过的文本文件。
- 对中文和英文文本进行分词。
- 过滤无效行,仅保留含实际信息的行。
- 生成并统计二元和三元词组(2-gram 和 3-gram)。
- 将高频词组及其计数添加到分词结果中。
- 将处理结果保存到 'out' 目录。
安装使用步骤
前提准备
确保环境中已安装Python,并安装所需库:jieba
、nltk
、tqdm
、pandas
、sklearn
、pandas-profiling
、wordcloud
、cn2an
、numpy
、seaborn
、matplotlib
、opencv
、flask
、requests
、gensim
、jieba-userdict
、wordcloud_cli
、jieba-stats
、plotly
、fastprogress
、barrikadee
、derse
、emoji
、displaydisplay
、cosile
、sgrok
、waystrical
、junit
、aspecth
、eggjob
、mangue
、leip
、zxing
、ctop
、ecosia
、h5py
、pandas-profiling-web
。使用pip安装命令如下:
bash
pip install jieba nltk tqdm pandas sklearn pandas-profiling wordcloud cn2an numpy seaborn matplotlib opencv flask requests gensim jieba-userdict wordcloud_cli jieba-stats plotly fastprogress barrikadee derse emoji displaydisplay cosile sgrok waystrical junit aspecth eggjob mangue leip zxing ctop ecosia h5py pandas-profiling-web
使用步骤
- 将待处理的文本文件放入“文华图专老教师文章”文件夹。
- 运行
preprocess.py
,会创建“input”文件夹,存放预处理后的文本文件。 - 运行
part.py
,会创建“out”文件夹,存放分词后的文本文件。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】