项目简介
本项目构建了一个基于Hadoop和Spark的大数据分析平台,通过搭建Hadoop和Spark集群,对气象数据、电影评分数据、电商评价数据以及B站数据进行全面分析。项目覆盖了从数据采集、清洗、分析到可视化的完整流程,同时利用ELK(ElasticSearch, Logstash, Kibana)进行日志管理和数据展示。
项目的主要特性和功能
- Hadoop和Spark集群搭建:完成Hadoop集群主节点与从节点的配置、网络设置,以及Hadoop和Spark分布式模式的配置;可通过Web界面监控集群状态。
- 气象数据分析:运用Hadoop MapReduce对气象数据集分析,计算每日最高和最低气温。
- 电影评分数据分析:借助Spark分析电影评分数据集,找出平均评分最高的100部电影并计算其平均评分。
- 电商评价数据分析:使用爬虫采集电商商品评价数据;利用Hive进行数据清洗和离线分析,统计每天评论数和各评分段人数;通过Sqoop将分析结果迁移到MySQL数据库;用可视化工具展示折线图和柱状图;运用Spark和分词算法进行词频统计并生成词云图。
- ELK环境搭建与B站数据分析:搭建ELK环境,配置ElasticSearch、Logstash和Kibana;使用Python采集B站数据,通过Logstash导入ElasticSearch;用Kibana进行数据可视化展示。
安装使用步骤
- 环境准备:确保所有节点安装Java环境,安装SSH server并配置无密码SSH登录。
- Hadoop集群搭建:在主节点安装Hadoop,配置
core-site.xml
、hdfs-site.xml
、mapred-site.xml
、yarn-site.xml
文件;将Hadoop目录分发到从节点并启动集群。 - Spark集群搭建:在主节点安装Spark,配置
slaves
和spark-env.sh
文件;将Spark目录分发到从节点并启动集群。 - 数据分析任务:根据需求配置并运行MapReduce或Spark任务;针对电商评价数据分析,配置Hive和Sqoop,运行数据清洗和迁移脚本。
- ELK环境搭建:下载安装ElasticSearch、Logstash和Kibana;配置
elasticsearch.yml
、logstash1.conf
和kibana.yml
文件;使用Python脚本采集数据,通过Logstash导入ElasticSearch;使用Kibana进行数据可视化展示。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】