项目简介
本项目是基于Scrapy框架的Python爬虫系统,从BOSS直聘网站爬取Python相关职位招聘信息,对数据进行清洗、存储和分析,最终生成可视化图表和词云,帮助用户了解招聘市场趋势和需求。
项目的主要特性和功能
- 数据爬取:运用Scrapy框架从BOSS直聘网站抓取Python职位招聘信息,涵盖全国101个城市的3112条数据。
- 数据清洗与存储:通过
mongo_connect.py
脚本清洗爬取数据,并存储到MongoDB数据库。 - 数据过滤:在
pipelines.py
里定义数据过滤管道,保证每个职位的唯一性。 - 数据分析与可视化:借助Jupyter Notebook和echarts生成分析图表,展示招聘市场分布、薪资情况等。
- 词云生成:使用
wordcloud
模块生成词云,直观呈现招聘信息关键词。
安装使用步骤
- 环境准备:
- 确保安装Python 3.x。
- 安装Scrapy框架:
pip install scrapy
。 - 安装项目依赖:
pip install -r requirements.txt
。
- 配置数据库:
- 按需配置MongoDB数据库连接信息,修改
mongo_connect.py
中的连接参数。
- 按需配置MongoDB数据库连接信息,修改
- 运行爬虫:
- 在项目根目录下运行命令启动爬虫:
bash scrapy crawl zhipin -o jobs_python.json
- 在项目根目录下运行命令启动爬虫:
- 数据分析与可视化:
- 用Jupyter Notebook打开
boss招聘.ipynb
文件,运行代码生成分析图表。 - 运行
wordcloud
模块中的代码生成词云。
- 用Jupyter Notebook打开
- 查看结果:
- 生成的图表和词云会保存在指定目录,可直接查看或导出。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】