项目简介
GSpider是基于Go语言实现的爬虫框架,搭配web管理页面,具备web和脚本独立部署的特性。它以gin和colly为基础进行开发,还通过gRPC实现了RPC服务,能够简化网络爬虫的开发与部署工作。
项目的主要特性和功能
- Web管理界面:基于vue - admin - template搭建,可进行任务管理、抓取规则定义、任务调度等操作。
- 脚本服务:采用colly库,支持多线程抓取与自定义抓取规则。
- RPC服务:借助gRPC实现任务管理与控制,能远程启动、停止、查询任务。
- 抓取规则定义:提供灵活机制,支持URL过滤、HTTP头修改、页面解析等多种规则。
- 任务调度:支持基于cron的任务调度,可自定义执行频率和时间。
- 错误处理和重试:有请求失败重试机制,保障爬虫稳定性与可靠性。
- 结果存储:支持将抓取结果存入Redis或MySQL等数据库,方便后续分析处理。
安装使用步骤
- 安装依赖:确保已安装Go语言环境,下载项目源码。
- 数据库配置:把
gspider.sql
导入MySQL数据库,按需修改configs/app - ga.yaml
配置文件。 - 构建项目:进入
internal/router
目录,执行parckr2 build
命令。 - 编译服务:分别使用
go build -o cmd/web/main cmd/web/main.go
和go build -o cmd/job/main cmd/job/main.go
编译web服务和脚本服务。 - 启动服务:分别执行
./cmd/web/main -conf=configs/app - ga.yaml
和./cmd/job/main -conf=configs/app - ga.yaml
启动web服务和脚本服务。 - 访问管理后台:在浏览器输入
http://localhost:9526/admin
访问管理后台。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】