项目简介
本项目基于Python和Scrapy框架开发,主要用于从新闻博客网站抓取文章的相关信息,如标题、链接、创建日期、收藏数等。利用Scrapy的强大功能以及多种数据处理手段,能够高效且稳定地完成网页数据的抓取与存储工作。
项目的主要特性和功能
- 支持使用XPath和CSS选择器从网页中精准提取所需数据。
- 具备图片下载、MySQL数据存储等多个处理管道,保证数据的有效处理与持久化。
- 提供在PyCharm中调试Scrapy的方法,同时支持通过Scrapyd和Scrapyweb进行项目部署与管理。
- 能够获取网站的AJAX请求数据。
- 可通过Selenium模拟浏览器行为,处理动态网页内容。
安装使用步骤
安装依赖
- 创建虚拟环境:执行
mkvirtualenv --python D:\Software\Python\3.7.3\python.exe article_spider
(需根据实际Python路径修改)。 - 安装Scrapy:运行
pip install -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com scrapy
。若在Windows安装报错,可参考https://www.lfd.uci.edu/~gohlke/pythonlibs/
下载对应文件并安装。 - 根据需求安装
requests
、pillow
、mysqlclient
、selenium
、scrapyd
、scrapydweb
等库。
项目配置
- 图片下载配置:在
settings.py
中设置图片管道、存储路径等信息,安装pillow
模块,必要时重写管道方法。 - MySQL保存配置:安装
mysqlclient
驱动,编写并配置MySQL管道。 - Scrapyd部署配置:修改
default_scrapyd.conf
和scrapy.cfg
文件,解决scrapyd-deploy
在Windows下的运行问题。 - Scrapyweb配置:安装
scrapydweb
,修改scrapydweb_settings_v10.py
文件。
运行项目
- 启动爬虫:进入项目目录,执行
scrapy crawl cnblogs
启动爬虫。 - 调试项目:在项目目录创建
main.py
,添加环境变量和执行命令,即可在PyCharm中进行调试。 - Scrapyd部署与管理:启动
scrapyd
服务,使用scrapyd-deploy
命令部署项目,通过curl
命令启动或停止爬虫。 - Scrapyweb使用:运行
scrapyweb
,通过网页界面管理爬虫。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】