项目简介
这是一个基于Web的新闻搜索系统,以Python和相关库为开发工具。该系统是爱丁堡大学Text technology for data science (TTDS)项目的demo和报告,主要用于展示新闻搜索与推荐功能。系统构建在数据库之上,具备搜索、推荐、分页以及文章详情查看等功能,并且运用预训练的词向量模型来提高搜索准确性。项目涉及数据库API、索引生成、搜索模块、推荐模块等多个Python文件。
项目的主要特性和功能
- 数据库连接与API:能够建立数据库连接,提供API接口用于获取数据,可获取文档关键字位置信息、关键字权重(TF - IDF和BM25值)、文档ID和日期等。
- 文本处理与索引生成:解析XML文件,对文本进行预处理,包括去除符号、大小写转换、分词、去除停用词等操作,生成倒排索引并计算文档TF - IDF和BM25权重值。
- 搜索功能:支持精确匹配、拼写纠正、同义词匹配等多种搜索方式。用户输入查询后可获得相关结果,包含文章标题、摘要、链接等,且支持分页浏览。
- 推荐功能:依据用户搜索历史和浏览行为推荐相关新闻文章,并生成推荐列表进行展示。
- 文章内容展示:用户点击搜索结果链接可查看文章详细内容,支持展示标题、正文、图片等信息,还支持跳转相关推荐文章链接。
安装使用步骤
- 确保已下载本项目的源码文件。
- 由于项目代码需在服务器上运行,需先配置好服务器环境。
- 检查各个Python文件和模块之间的协同工作情况,保证代码的可读性和可维护性。
- 注意代码中可能包含的敏感信息(如数据库连接信息),需妥善保管。
- 启动服务器,用户通过Web界面进行访问和操作。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】