项目简介
本项目是基于Python的爬虫程序,主要用于爬取链家网(lianjia.com)和贝壳网(ke.com)的房价数据。能爬取小区数据、挂牌二手房、出租房以及新房数据,覆盖北京、上海、广州、深圳等21个主要城市。代码兼容Python2和Python3,且有丰富注释,便于理解和功能扩展。
项目的主要特性和功能
- 多城市支持:可爬取北京、上海、广州、深圳等21个主要城市的房价数据。
- 多种数据类型:支持爬取小区数据、挂牌二手房、出租房和新房数据。
- 数据存储:爬取的数据以CSV文件形式存储,方便后续处理与分析。
- 图表展示:支持将爬取的数据通过图表展示,便于直观分析。
- 数据库支持:能将数据导入MySQL、MongoDB、Excel或JSON数据库。
- 高性能:爬虫性能出色,可在短时间内爬取大量数据。
安装使用步骤
- 环境准备:确保已安装Python2或Python3环境。
- 安装依赖:运行以下命令安装项目所需的依赖包:
bash pip install -r requirements.txt
- 配置爬虫:在运行爬虫前,指定要爬取的网站,修改
lib/spider/base_spider.py
中的SPIDER_NAME
变量。 - 清理数据:运行以下命令清理数据:
bash python tool/clean.py
- 运行爬虫:根据需要运行以下爬虫程序:
- 爬取小区数据:
bash python xiaoqu.py
- 爬取挂牌二手房数据:
bash python ershou.py
- 爬取出租房数据:
bash python zufang.py
- 爬取新房数据:
bash python loupan.py
- 数据存储:爬虫程序将爬取的数据保存到指定路径的CSV文件中。可以使用
xiaoqu_to_db.py
将数据导入到MySQL、MongoDB、Excel或JSON数据库中。
注意事项
- 遵守爬虫规则:实际使用时,要遵守网站的爬虫使用规则,防止因频繁请求被服务器封禁。
- 数据用途:本项目仅用于学习与交流,请勿用于商业用途。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】