项目简介
本项目是基于Python实现的多平台数据爬虫系统,可对小红书、抖音、快手、B站、微博等平台开展数据爬取工作。借助playwright搭桥来保留登录后的浏览器上下文环境,通过执行JS表达式获取加密参数,降低逆向难度。能抓取各平台的视频、图片、评论、点赞、转发等信息,并且支持将数据保存到关系型数据库、CSV、JSON中。
项目的主要特性和功能
- 多方式登录:支持Cookie登录、二维码登录和部分平台的手机号登录,具备登录状态缓存功能。
- 多样化爬取:可通过关键词搜索爬取相关帖子信息,也能依据指定视频/帖子ID进行精准爬取。
- 代理与验证处理:有IP代理池,部分平台支持滑块验证码处理,提升爬虫稳定性和成功率。
- 数据保存:支持将爬取的数据保存到关系型数据库(如Mysql、PgSQL等)、CSV和JSON文件中。
- 多平台支持:涵盖小红书、抖音、快手、B站、微博等多个热门社交平台。
安装使用步骤
1. 创建并激活Python虚拟环境
```shell cd MediaCrawler
python3 -m venv venv
source venv/bin/activate
venv\Scripts\activate ```
2. 安装依赖库
shell
pip3 install -r requirements.txt
3. 安装playwright浏览器驱动
shell
playwright install
4. 运行爬虫程序
```shell python3 main.py --platform xhs --lt qrcode --type search
python3 main.py --platform xhs --lt qrcode --type detail
python3 main.py --help
```
免责声明
本项目所有内容仅供学习和参考之用,禁止用于商业用途。不得将本项目内容用于非法用途或侵犯他人合法权益。本项目所涉及的爬虫技术仅用于学习和研究,不得用于对其他平台进行大规模爬虫或其他非法行为。对于因使用本项目内容而引起的任何法律责任,本项目不承担任何责任。使用本项目内容即表示您同意本免责声明的所有条款和条件。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】