项目简介
本项目是基于Apache Flink框架开发的分布式爬虫系统,能实现多线程并发爬取京东网站上的商品信息。系统会对爬取的网页信息进行清洗解析,然后存储到数据库,同时还提供数据检索功能。
项目的主要特性和功能
- 分布式爬取:借助Flink的流式计算框架,多线程并发爬取京东网站商品信息。
- 数据清洗与解析:对爬取的网页内容清洗解析,提取有用商品信息。
- 数据存储:将解析后的商品信息存于MySQL和HBase数据库。
- 数据检索:提供数据检索模块,用户能通过关键词查询数据库中的商品信息。
- 代理IP支持:支持使用代理IP爬取,防止IP被封禁。
安装使用步骤
环境配置
- 操作系统:Windows10
- Java:JDK 1.8.0
- Flink:1.9.3
- Redis:5.0.14
- MySQL:8.0.X
启动步骤
- 配置文件修改:依据当前电脑的Redis和MySQL配置,修改
\resources\redis.properties
和\resources\dbcp-config.properties
配置文件。 - 数据库初始化:根据
\scripts\db.sql
文件建立相应的MySQL数据库和表。 - 启动Redis服务:进入Redis安装目录,打开命令行窗口,运行
redis-server.exe
,保持窗口开启。 - 启动爬虫程序:运行
FlinkSpider.java
,启动爬虫程序,成功后开始爬取京东网站商品信息。 - 补充种子URL:一段时间后,运行
SeedUrl.java
,向Redis数据库补充种子URL。 - 数据检索:运行
Query.java
,按提示操作查询数据库中的商品信息。
代理IP使用说明
在\resources\IPProxyRepository.txt
中添加代理IP地址,格式如下:
47.106.105.236:80
222.66.202.6:80
122.226.57.70:8888
...
通过上述步骤,可成功部署并运行本分布式爬虫系统,实现对京东网站商品信息的爬取、存储和检索。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】