项目简介
本项目是基于Python语言开发的信息检索系统,用于哈工大2020春季学期的信息检索实验。项目包含网页文本预处理、问答系统设计与实现、企业检索系统的设计与实现等多个实验模块,帮助学生深入理解信息检索核心技术,掌握使用Python及相关库实现这些技术的方法。
项目的主要特性和功能
- 网页文本预处理:借助pyltp库完成中文文本的分词、词性标注和停用词去除,支持从指定网页获取文本数据并进行预处理。
- 问答系统设计与实现:运用SVM和朴素贝叶斯分类器对问题分类,基于BM25模型实现搜索排名算法以提升准确性和效率,提供可视化界面方便用户操作。
- 企业检索系统的设计与实现:复用前两个实验模块构建UI界面,使用PyQt5库实现用户界面,支持网页和桌面应用。
安装使用步骤
- 环境准备:建议用Anaconda管理虚拟环境,安装Python 3.6版本。
- 安装依赖库:进入各个实验目录(如Lab1、Lab2、Lab3),执行
pip install -r requirements.txt
命令安装所需依赖库。 - 运行项目:进入相应实验目录,运行主程序文件(如
main.py
),按提示操作完成实验任务。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】