项目简介
本项目是用于搜索虎扑新闻的系统。借助Scrapy爬虫工具从虎扑网站抓取所需内容,将其存于Elasticsearch开源搜索引擎。通过Django框架搭建页面,向Elasticsearch发送搜索请求并展示结果。同时运用Redis进行数据去重,利用IK插件实现Elasticsearch分词,借助Elasticsearch Head展示搜索结果。
项目的主要特性和功能
- 数据爬取:用Scrapy工具从虎扑网站爬取新闻内容。
- 数据存储:将爬取的新闻内容存于Elasticsearch,方便后续搜索。
- 搜索功能:通过Django页面向Elasticsearch发送搜索请求,展示结果。
- 分词处理:使用IK插件对Elasticsearch中的数据分词,提升搜索准确性。
- 数据去重:利用Redis对爬取数据去重,避免重复。
- 可视化展示:用Elasticsearch Head可视化展示搜索结果。
安装使用步骤
前提条件
假设用户已经下载了本项目的源码文件。
操作步骤
- 启动Elasticsearch:执行
brew services start elasticsearch
或elasticsearch
命令启动Elasticsearch服务,使用127.0.0.1:9200
访问。 - 启动Elasticsearch Head:进入Elasticsearch Head安装目录,执行
npm run start
命令启动服务,使用127.0.0.1:9100
访问。 - 启动Redis服务器端:执行
redis-server /usr/local/etc/redis.conf
命令启动Redis服务器。 - 启动Redis客户端:进入
/usr/local/Cellar/redis/4.0.10/bin
目录,执行redis-cli
命令启动Redis客户端。 - 启动爬虫:进入
Hupuspider
目录,执行scrapy crawl nba_news
命令启动爬虫,开始爬取虎扑新闻数据。 - 启动网站:进入
website
目录,执行python manage.py runserver 9000
命令启动Django服务。 - 访问网站:在浏览器中访问
http://127.0.0.1:9000/home
,即可使用虎扑新闻搜索系统。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】