项目简介
本项目借助Python语言,结合Selenium自动化工具与mitmproxy,实现对淘宝用户历史订单信息的抓取。通过模拟用户在淘宝页面的操作,利用mitmproxy拦截请求和响应,将订单信息保存到本地文件和MongoDB数据库。
项目的主要特性和功能
- 自动化操作:利用Selenium模拟用户登录淘宝,包括处理扫码登录,自动进行页面滚动和页码跳转。
- 请求拦截:使用mitmproxy监听特定请求,拦截淘宝订单相关的响应信息。
- 数据解析与存储:对拦截到的响应数据进行解析,提取关键订单信息,并将原始数据和关键数据分别保存到本地文件和MongoDB数据库。
- 反反爬策略:通过随机滚动页面和模拟鼠标操作等方式,一定程度上绕过淘宝的反爬虫机制。
安装使用步骤
安装依赖
在命令行中执行以下命令安装所需的Python库:
pip3 install mitmproxy selenium pymongo pprint
配置环境
- 按照 mitmproxy透明代理 文档,将本地发往Internet上的服务器的TCP连接重新路由到侦听代理服务器。
- 访问 http://mitm.it ,按提示操作安装证书,以实现监听https请求。
运行项目
- 打开一个命令窗口,启动mitmproxy并指定处理脚本:
mitmweb -s mitmdump.addon.py
- 打开另一个命令窗口,运行淘宝爬虫脚本:
python taobao_selenium.py
查看结果
运行脚本后,抓取到的原始订单数据和关键订单数据将分别保存到 origin.jsons.d
和 core.jsons.d
目录下的文件中,同时也会存储到MongoDB的相应集合里。
注意事项
- 由于淘宝的反爬虫机制,此脚本可能会被封禁,使用时请确保遵守相关法律法规并尊重他人的隐私和权益。
- 脚本执行过程中可能需要处理验证码,需确保用户能够正确输入验证码。
- 脚本中的数据库连接和文件路径可能需要根据实际情况进行调整。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】