littlebot
Published on 2025-04-10 / 0 Visits
0

【源码】基于Spring Boot和MyBatis Plus的微信公众号文章抓取系统

项目简介

本项目基于Spring Boot和MyBatis Plus框架开发,借助AnyProxy代理工具和JavaScript脚本,可自动抓取微信公众号的历史文章、文章内容、阅读量、点赞量以及评论数据,并将其存储到数据库中。同时,系统提供了对抓取数据的查询、更新和删除功能。

项目的主要特性和功能

  1. 自动抓取微信公众号文章:能自动抓取公众号历史文章列表,逐篇抓取文章内容、阅读量、点赞量和评论数据。
  2. 数据存储与管理:将抓取的数据存储在数据库,提供增删改查功能。
  3. 异步处理与事务管理:确保数据操作的稳定性和一致性。
  4. 分页查询与批量操作:支持分页查询和批量保存,提高数据处理效率。
  5. 自定义异常处理:遇到错误时能正确处理并返回相应错误信息。

安装使用步骤

1. 复制项目到本地

bash git clone https://gitee.com/poet/WechatSpider.git

2. 配置数据库连接

修改WechatSpider/src/main/resources/application.properties文件中的数据库连接信息。 bash vim ~/WechatSpider/src/main/resources/application.properties

3. 打包项目

bash cd ~/WechatSpider && mvn clean install -Dmaven.test.skip=true

4. 安装AnyProxy

bash npm install -g anyproxy

5. 安装npm插件

bash cd ~/WechatSpider/src/main/resources && npm install

6. 运行AnyProxy

bash anyproxy --intercept --silent true --rule ~/WechatSpider/src/main/resources/spider.js

7. 运行项目

bash cd ~/WechatSpider java -jar target/WechatSpider-1.0-SNAPSHOT.jar

8. 安装AnyProxy的RootCA

按照提示安装AnyProxy的RootCA,并在手机上设置代理。

9. 使用系统

  1. 打开微信的公众号,查看历史信息,系统会自动下拉翻滚抓取所有文章列表数据。
  2. 文章列表数据抓取完毕后,点击任何一篇文章,系统会抓取文章内容、阅读量、点赞量、评论等数据,并在10秒后自动跳转到下一篇文章的抓取,直到抓取完毕。

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】