项目简介
本项目是北京理工大学机器学习选修课的大作业,实现了一个基于决策树的分类模型。项目通过命令行接收参数,能从TSV格式文件加载数据,构建决策树模型,进行数据训练与预测,最后将预测结果和误差指标输出到指定文件。
项目的主要特性和功能
- 数据加载与处理:支持从TSV格式文件加载训练和测试数据,对数据进行向量化和二进制转换预处理,方便决策树构建。
- 决策树构建:实现决策树的构建、训练和预测功能,可设置决策树最大深度控制模型复杂度。
- 模型评估:计算并输出训练集和测试集的分类误差指标,支持将预测结果和误差指标写入指定文件。
- 命令行交互:通过命令行接受训练数据路径、测试数据路径、最大深度、输出文件路径等参数。
安装使用步骤
安装依赖
确保Python环境已安装必要依赖库,如numpy
和csv
,使用以下命令安装:
bash
pip install numpy
运行程序
- 打开命令行终端,导航到项目目录。
- 使用以下命令格式运行决策树程序:
bash python decisionTree.py <train_input> <test_input> <max_depth> <train_out> <test_out> <metrics_out>
例如:bash python decisionTree.py politicians_train.tsv politicians_test.tsv 2 pol_2_train.labels pol_2_test.labels pol_2_metrics.txt
查看结果
程序运行后,会在指定输出文件中生成训练和测试数据的预测结果以及误差指标,打开这些文件可查看模型性能和预测结果。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】