项目简介
本项目是基于Python的社交媒体爬虫系统,借助自动化技术对小红书、抖音、快手、B站和微博等平台的数据进行爬取。利用Playwright库模拟浏览器行为,支持Cookie登录、二维码登录、手机号登录等多种登录方式,可爬取视频、图片、评论、点赞、转发等信息。数据支持CSV、JSON和关系型数据库(如MySQL、PgSQL)等多种存储方式。同时具备代理IP池和滑块验证处理功能,保障爬虫的稳定性与高效性。
项目的主要特性和功能
- 多平台支持:可爬取小红书、抖音、快手、B站和微博等多个社交媒体平台的数据。
- 多种登录方式:支持Cookie登录、二维码登录和手机号登录,确保顺利获取登录状态。
- 数据爬取:能爬取视频、图片、评论、点赞、转发等多种数据类型。
- 数据存储:支持将数据保存到CSV、JSON文件或关系型数据库,便于后续分析处理。
- 代理IP池:内置代理IP池功能,有效应对IP封禁问题。
- 滑块验证处理:通过图像处理技术识别滑块位置并生成滑动轨迹,解决部分平台滑块验证问题。
- 异步爬虫:采用异步编程模型,提升爬虫效率和响应速度。
- 登录状态缓存:支持登录状态缓存,避免频繁登录导致账号封禁风险。
安装使用步骤
1. 创建并激活Python虚拟环境
```shell cd MediaCrawler
python -m venv venv
source venv/bin/activate
venv\Scripts\activate ```
2. 安装依赖库
shell
pip3 install -r requirements.txt
3. 安装Playwright浏览器驱动
shell
playwright install
4. 运行爬虫程序
```shell python main.py --platform xhs --lt qrcode --type search
python main.py --platform xhs --lt qrcode --type detail
python main.py --help ```
5. 数据保存
- CSV文件:数据将保存在
data/
目录下的CSV文件中。 - JSON文件:数据将保存在
data/
目录下的JSON文件中。 - 关系型数据库:支持MySQL、PgSQL等数据库,需在配置文件中设置数据库连接信息。
注意事项
- 请确保在使用爬虫时遵守相关法律法规和社交媒体平台的使用条款。
- 频繁或大量爬取数据可能导致IP被封禁,建议合理设置爬取频率和代理IP池。
- 滑块验证处理可能需要根据不同平台的特点进行调整。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】