littlebot
Published on 2025-04-02 / 19 Visits
0

【源码】基于Python和Playwright的多平台数据爬虫系统

项目简介

本项目是一个基于Python和Playwright的多平台数据爬虫系统,能够对小红书、抖音、快手、B站、微博等平台开展数据抓取工作。借助Playwright保留登录后的浏览器上下文环境,通过执行JS表达式获取加密参数,降低逆向难度,可抓取这些平台的视频、图片、评论、点赞、转发等信息。

项目的主要特性和功能

  1. 支持Cookie登录、二维码登录、手机号登录(部分平台支持)等多方式登录。
  2. 可通过关键词搜索、指定视频/帖子ID进行多样化的数据爬取。
  3. 保存登录状态,避免重复登录。
  4. 支持将数据保存到关系型数据库(如Mysql、PgSQL)、CSV文件和JSON文件中。
  5. 使用IP代理池辅助爬取,提高爬取效率和稳定性。
  6. 能处理部分平台的滑块验证码。

安装使用步骤

1. 创建并激活Python虚拟环境

```shell cd MediaCrawler

python3 -m venv venv

source venv/bin/activate

venv\Scripts\activate ```

2. 安装依赖库

shell pip3 install -r requirements.txt

3. 安装Playwright浏览器驱动

shell playwright install

4. 运行爬虫程序

```shell python3 main.py --platform xhs --lt qrcode --type search

python3 main.py --platform xhs --lt qrcode --type detail

python3 main.py --help
```

注意事项:本项目内容仅供学习和参考,禁止用于商业用途,不得将其用于非法用途或侵犯他人合法权益,涉及的爬虫技术仅用于学习和研究,不得对其他平台进行大规模爬虫等非法行为。

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】