项目简介
本项目是基于Python的论文查重系统,能帮助用户计算中文或英文文章间的相似度。系统运用simhash算法和海明距离实现文章内容的查重功能,方便用户开展相似度检测。
项目的主要特性和功能
- 核心算法:借助simhash算法对文章进行特征提取与降维,结合海明距离计算文章相似度,保障查重的准确性与效率。
- 语言支持:支持对中文和英文字符的文章进行查重。
- 性能优化:针对调用jieba库分词时内存占用和运行时间大的问题,采用先用正则表达式匹配过滤再分词的方式优化性能。
- 单元测试:对5个抄袭文件的相似度进行测试,提供测试覆盖率数据,确保系统稳定可靠。
- 异常处理:处理路径不存在、虚拟环境使用错误等常见异常,增强系统的健壮性。
安装使用步骤
安装
- 确保已安装Python环境。
- 下载本项目的源码文件。
- 在项目根目录下,使用以下命令安装所需的依赖库:
bash pip install -r requirements.txt
使用
- 打开命令行工具,进入项目根目录。
- 运行主程序,按提示输入文章文件的路径,程序会自动计算文章相似度并输出结果。
- 测试结果将保存在
test_save.txt
文件中。
注意事项
- 文件需按要求用命令行输入完整的绝对路径,答案文件使用
'a'
模式写入,不存在会自动生成。 - 使用cmd命令行运行时,要进入正确的虚拟环境,避免出现
No module named 'jieba'
等报错。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】