项目简介
本项目利用Python和LightGBM技术,针对Kaggle M5销售预测竞赛的销售数据进行预测。通过时间序列分析与特征工程构建高精度销售预测模型,助力商家或研究人员提升商品销售预测的准确度。
项目的主要特性和功能
- 数据预处理和特征工程:删除无效销售数据,提取价格、时间和销售相关特征,转换类别特征,将处理后的数据以pickle格式存储方便后续使用。
- 模型训练:运用LightGBM算法训练模型,为每个商品类别和每个店铺独立建立模型,分批读取数据减少内存占用,训练完成后直接对验证和评估数据进行预测。
- 预测结果输出:合并各模型预测结果,按竞赛要求格式输出,提供线下评估模型的预测效度。
安装使用步骤
假设用户已经下载了本项目的源码文件:
1. 安装依赖库:使用pip安装所需的Python库,如pandas、numpy、lightgbm等。
bash
pip install pandas numpy lightgbm
2. 准备数据:将原始销售数据、价格数据和日历数据放置在指定路径下。
3. 运行数据预处理和特征提取:运行feature_engineering
文件夹下的脚本,进行数据预处理和特征提取。
bash
python feature_engineering/validation_data_process.py
python feature_engineering/evaluation_data_process.py
4. 模型训练和预测:运行model_train.py
脚本,进行模型训练和预测。
bash
python model_train.py
5. 查看和提交结果:查看输出文件,评估模型效果并提交结果。
注意事项
- 运行脚本前,确保已正确配置文件路径和相关参数。
- 由于项目涉及大量数据处理和模型训练,建议使用具有足够内存和计算能力的设备。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】