项目简介
本项目借助机器学习技术,以化学分子的结构信息(用SMILES表示)及其对应的性质数据(如哈金斯参数)为基础,构建并验证QSAR(定量结构 - 活性关系)模型。项目以Python为主要编程语言,运用了支持向量回归(SVR)、随机森林回归(RF)、深度神经网络(DNN)等多种机器学习算法和深度学习技术。
项目的主要特性和功能
- 数据预处理:对数据进行清洗、标准化和特征工程,为模型训练做好数据准备。
- 模型训练与验证:采用多种机器学习算法(如SVR、RF)和深度学习模型(如DNN)进行模型训练,并在测试集上验证模型性能。
- 特征贡献分析:利用SHAP值和随机森林的特征重要性,分析模型预测中各特征的重要性。
- 模型性能评估:使用R²、MAE和RMSE等指标评估模型性能,绘制模型训练与验证的误差曲线图。
- 多模型比较:对比不同模型的预测性能,选择最优模型。
安装使用步骤
- 环境准备:安装Python环境及相关依赖库,如pandas、numpy、sklearn、keras等。
- 数据准备:准备包含化学分子结构和性质的数据,如'计算结果.xlsx'和'Huggins.xlsx'。
- 运行代码:运行各个Python脚本,涵盖数据预处理、模型训练和验证、特征贡献分析等。
- 结果查看:查看输出文件和图表,了解模型性能和特征贡献。
- 模型优化:依据结果调整模型参数和特征工程,优化模型性能。
注意事项
- 脚本中的路径和文件名需根据实际情况调整。
- 脚本使用了多线程处理,需确保有足够计算资源。
- 某些代码片段依赖特定库和工具,如RDKit用于处理化学分子。
- 某些网络请求可能涉及API调用,需确保API密钥或访问权限。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】