项目简介
本项目是一个基于Python的社交媒体数据爬虫工具,可抓取小红书、抖音、快手、B站、微博等平台上的视频、图片、评论、点赞、转发等信息。借助Playwright框架模拟浏览器行为,获取加密参数,降低爬虫逆向工程难度。
项目的主要特性和功能
- 多平台支持:能爬取小红书、抖音、快手、B站、微博等多个社交媒体平台的数据。
- 多种登录方式:支持Cookie登录、二维码登录、手机号登录等。
- 数据保存:可将数据保存到关系型数据库(如Mysql、PgSQL)、CSV文件和JSON文件中。
- IP代理池:内置IP代理池,降低被封禁风险。
- 滑块验证码处理:部分平台支持滑块验证码自动化处理。
- 登录状态缓存:支持登录状态缓存,减少重复登录次数。
安装使用步骤
1. 创建并激活Python虚拟环境
shell
cd MediaCrawler
python -m venv venv
source venv/bin/activate # macOS & Linux
venv\Scripts\activate # Windows
2. 安装依赖库
shell
pip3 install -r requirements.txt
3. 安装Playwright浏览器驱动
shell
playwright install
4. 运行爬虫程序
shell
python main.py --platform xhs --lt qrcode --type search
python main.py --platform xhs --lt qrcode --type detail
python main.py --help
5. 数据保存
- 支持保存到关系型数据库(Mysql、PgSQL等)
- 支持保存到CSV文件(data/目录下)
- 支持保存到JSON文件(data/目录下)
注意事项
- 合法合规:使用本项目时需遵守相关法律法规,尊重目标网站服务条款和隐私政策。
- 用户隐私和数据安全:爬取和使用用户数据时,确保用户隐私和数据安全,避免未经授权的数据访问和使用。
- 更新维护:因社交媒体平台反爬策略不断更新,项目部分功能可能需持续更新维护以保证有效性。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】