littlebot
Published on 2025-04-09 / 1 Visits
0

【源码】基于Python的论文查重系统

项目简介

本项目是基于Python的论文查重系统,能帮助用户计算中文或英文文章间的相似度。系统运用simhash算法和海明距离实现文章内容的查重功能,方便用户开展相似度检测。

项目的主要特性和功能

  1. 核心算法:借助simhash算法对文章进行特征提取与降维,结合海明距离计算文章相似度,保障查重的准确性与效率。
  2. 语言支持:支持对中文和英文字符的文章进行查重。
  3. 性能优化:针对调用jieba库分词时内存占用和运行时间大的问题,采用先用正则表达式匹配过滤再分词的方式优化性能。
  4. 单元测试:对5个抄袭文件的相似度进行测试,提供测试覆盖率数据,确保系统稳定可靠。
  5. 异常处理:处理路径不存在、虚拟环境使用错误等常见异常,增强系统的健壮性。

安装使用步骤

安装

  1. 确保已安装Python环境。
  2. 下载本项目的源码文件。
  3. 在项目根目录下,使用以下命令安装所需的依赖库: bash pip install -r requirements.txt

使用

  1. 打开命令行工具,进入项目根目录。
  2. 运行主程序,按提示输入文章文件的路径,程序会自动计算文章相似度并输出结果。
  3. 测试结果将保存在 test_save.txt 文件中。

注意事项

  • 文件需按要求用命令行输入完整的绝对路径,答案文件使用 'a' 模式写入,不存在会自动生成。
  • 使用cmd命令行运行时,要进入正确的虚拟环境,避免出现 No module named 'jieba' 等报错。

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】