项目简介
本项目基于Spring Boot和MyBatis Plus框架开发,借助AnyProxy代理工具和JavaScript脚本,可自动抓取微信公众号的历史文章、文章内容、阅读量、点赞量以及评论数据,并将其存储到数据库中。同时,系统提供了对抓取数据的查询、更新和删除功能。
项目的主要特性和功能
- 自动抓取微信公众号文章:能自动抓取公众号历史文章列表,逐篇抓取文章内容、阅读量、点赞量和评论数据。
- 数据存储与管理:将抓取的数据存储在数据库,提供增删改查功能。
- 异步处理与事务管理:确保数据操作的稳定性和一致性。
- 分页查询与批量操作:支持分页查询和批量保存,提高数据处理效率。
- 自定义异常处理:遇到错误时能正确处理并返回相应错误信息。
安装使用步骤
1. 复制项目到本地
bash
git clone https://gitee.com/poet/WechatSpider.git
2. 配置数据库连接
修改WechatSpider/src/main/resources/application.properties
文件中的数据库连接信息。
bash
vim ~/WechatSpider/src/main/resources/application.properties
3. 打包项目
bash
cd ~/WechatSpider && mvn clean install -Dmaven.test.skip=true
4. 安装AnyProxy
bash
npm install -g anyproxy
5. 安装npm插件
bash
cd ~/WechatSpider/src/main/resources && npm install
6. 运行AnyProxy
bash
anyproxy --intercept --silent true --rule ~/WechatSpider/src/main/resources/spider.js
7. 运行项目
bash
cd ~/WechatSpider
java -jar target/WechatSpider-1.0-SNAPSHOT.jar
8. 安装AnyProxy的RootCA
按照提示安装AnyProxy的RootCA,并在手机上设置代理。
9. 使用系统
- 打开微信的公众号,查看历史信息,系统会自动下拉翻滚抓取所有文章列表数据。
- 文章列表数据抓取完毕后,点击任何一篇文章,系统会抓取文章内容、阅读量、点赞量、评论等数据,并在10秒后自动跳转到下一篇文章的抓取,直到抓取完毕。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】