项目简介
本项目运用Python编程语言和DBSCAN聚类算法,打造了一个自动化的航班最低票价查找系统。该系统通过爬取航班价格数据并开展聚类分析,可识别出异常低价票,助力用户找到最优惠的机票。
项目的主要特性和功能
数据获取与存储
- 具备爬虫功能,借助Selenium自动化工具,定时从途牛网爬取北京到上海的机票价格信息,并将其存入MySQL数据库。
- 采用代理池管理,每次请求随机选取一个代理IP,保障爬取过程的稳定性与安全性。
数据处理与分析
- 利用Pandas库对爬取的数据进行预处理,提取每日最低票价并进行标准化处理,方便后续聚类分析。
- 运用DBSCAN算法对票价数据进行聚类分析,能有效处理噪声数据,识别不同密度的数据簇以找出低价票。
可视化展示
使用Matplotlib库绘制散点图,直观展示聚类结果,使用户清晰了解票价分布情况。
安装使用步骤
环境准备
- 安装Python 3.x。
- 执行命令
pip install -r requirements.txt
安装项目依赖库。
使用步骤
- 在
config.py
文件中配置MySQL数据库连接信息。 - 执行
python getPage.py
脚本,开始爬取航班信息并存储到数据库。 - 执行
python handleData.py
脚本,对数据进行预处理和聚类分析。 - 运行脚本后,系统会自动生成散点图展示聚类结果。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】