项目简介
此项目基于PySpark和Flask构建,主要用于从Twitter获取实时数据流,对这些数据进行处理和分析,并将处理结果实时展示在Web仪表板上。
项目的主要特性和功能
- 实时数据获取:可从Twitter获取实时数据流。
- 数据处理与分析:利用PySpark完成实时数据处理和分析工作。
- Web展示:通过Flask构建的Web仪表板实时展示处理结果。
- 动态更新:支持数据的动态更新和实时刷新。
安装使用步骤
假设用户已下载本项目的源码文件,以下是安装和使用步骤:
1. 环境准备
确保已安装以下工具和库: - Python 3.8.10 - Anaconda 23.3.1 - PySpark 3.3 - Flask - Java 1.8+
2. 安装依赖
在命令行中执行以下命令:
shell
pip install -r requirements.txt
3. 启动Spark集群
- 下载并安装Spark,参考Spark官方文档。
- 启动Spark Master:
shell ./sbin/start-master.sh
- 添加Worker节点:
shell ./sbin/start-worker.sh <master-spark-URL>
- 验证Spark部署:
shell ./bin/spark-submit --master spark://xxxx:7077 examples/src/main/python/pi.py 100
4. 启动Flask Web服务器
- 安装Flask:
shell conda install flask
- 启动Flask应用:
shell python dashboard/app.py
5. 运行数据处理脚本
- 启动PySpark流处理应用:
shell python live/stream.py
- (可选)测试Twitter数据获取:
shell python live/tweet.py
6. 访问Web仪表板
打开浏览器,访问 http://localhost:5000
查看实时数据展示。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】