项目简介
本项目使用Hadoop MapReduce计算模型,对两个Excel文件(student.xlsx
和student_course.xlsx
)进行自然连接操作。自然连接属于特殊的等值连接,要求参与比较的分量为相同属性组,且结果中去掉重复属性列。最终结果集涵盖学生学号、姓名、选修课程编号、考试成绩。
项目的主要特性和功能
- 数据预处理:运用Python脚本把Excel文件转换为CSV格式,利于后续MapReduce处理。
- MapReduce计算模型:借助Hadoop MapReduce框架处理数据。Map阶段将数据转为
<Key, Value>
形式,Key为学生学号(SID),Value为其他属性并标记来源表;Reduce阶段依据Key分组,对相同SID的数据进行自然连接操作并输出结果。 - Hadoop环境配置:在Windows系统上配置Hadoop环境,包含下载解压Hadoop、配置环境变量、修改配置文件等;利用Eclipse集成Hadoop插件,便于开发和调试MapReduce程序。
安装使用步骤
- 环境准备:
- 下载并安装Hadoop 2.7.3版本。
- 配置Hadoop环境变量,保证路径无空格。
- 下载并解压
hadooponwindows-master
,替换Hadoop的bin文件夹。 - 配置Hadoop的四个XML文件和一个环境配置脚本。
- 数据预处理:运行Python脚本
change.py
,把student.xlsx
和student_course.xlsx
转换为student.csv
和student_course.csv
。 - 编写和运行MapReduce程序:
- 在Eclipse中编写MapReduce程序,包括
JoinMapper.java
和JoinReducer.java
。 - 用
JoinRunner.java
配置和运行MapReduce作业。 - 设置输入路径为CSV文件所在目录,输出路径为结果输出目录。
- 在Eclipse中编写MapReduce程序,包括
- 结果查看:运行MapReduce作业后,查看输出目录中的结果文件,确认自然连接操作的正确性。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】