项目简介
本项目是针对CCF大数据与计算智能大赛 - 个贷违约预测赛题所开发。赛题要求借助与目标客群稍有差异的另一批信贷数据来辅助创建目标业务风控模型。项目运用迁移学习来捕捉不同业务中用户基本信息和违约行为的关联,使用个人贷款违约记录数据和某网络信用贷产品违约记录数据,经数据预处理后,分别采用神经网络模型和CatBoost模型进行拟合,最后集成两个模型的预测结果,实现对新业务用户违约情况的预测。
项目的主要特性和功能
数据处理
- 多源数据合并与划分:将不同来源的信贷数据进行合并并合理划分。
- 特征工程:对数据开展缺失值填充、离散特征连续化等处理。
- 平衡正负样本:采用下采样和上采样方法解决样本不平衡问题,为不同模型选择合适的采样方法。
模型训练与集成
- CatBoost模型:利用CatBoost库训练模型,可有效处理类别型特征,减少过拟合,提升算法准确性和泛化能力。
- 神经网络模型:设计简单的多层神经网络模型,利用其自动提取特征和高并行化的特点进行预测。
- 结果集成:集成CatBoost模型和神经网络模型的预测结果,发挥两种模型的优势。
实验分析
- 取得高AUC值:在大赛评估标准下,A榜AUC为0.86468736,B榜AUC为0.87051387,明显高于大赛基线水平。
- 模型对比:通过实验对比多种基于树的集成学习模型,确定CatBoost模型效果最佳;调节神经网络层数,选择单隐层模型。
- 结果可视化:提供损失衰减、AUC收敛、ROC曲线等详细的实验结果可视化。
安装使用步骤
安装
- 复制项目代码到本地:
shell
- 安装所需依赖库:
shell pip install -r requirements.txt
- 从大赛官网获取数据部分。
运行
- 运行默认程序:
shell python main.py
- 若需修改参数,可查看可选超参数列表并更改取值:
shell python main.py -h
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】