项目简介
本项目是基于Python和Flask框架开发的计算机学习搜索引擎,它收集CSDN网站的技术文档和博客数据,借助NLP技术(如分词、倒排索引构建、TF - IDF和Jaccard相似度算法)对搜索结果进行优化排序,提供高效的搜索服务。
项目的主要特性和功能
- 数据收集与处理:运用爬虫技术从CSDN网站抓取技术文档和博客数据。
- 分词与索引构建:利用jieba和pkuseg分词包对文章分词,并构建倒排索引数据库。
- 搜索算法:采用TF - IDF和Jaccard相似度算法对搜索结果排序优化。
- 前后端分离:前端使用HTML、CSS和JavaScript,后端使用Flask框架提供RESTful API。
- 数据库支持:使用MySQL存储抓取的数据和倒排索引。
安装使用步骤
环境配置
- 打开PyCharm,配置Python 3.8虚拟环境。
- 在命令行中运行
pip3 install -r ./requirements.txt
安装项目所需的依赖包。
数据库设置
- 导入项目中的三个SQL数据库文件(
npl_article.sql
,npl_article1.sql
,npl_url.sql
)。 - 修改
SearchEngine.py
文件中的数据库配置项为本地数据库。
启动项目
- 运行
app.py
文件启动项目。 - 使用Chrome或其他浏览器打开
http://localhost:5000
访问搜索主页。
使用搜索引擎
在搜索主页输入关键词,点击搜索按钮即可获取相关技术文档和博客的搜索结果。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】