项目简介
本项目是基于AWS的Clickstream数据处理与分析系统,目标是助力用户收集、存储和分析用户行为数据。借助AWS CDK自动化部署和管理AWS资源,结合Kinesis、Redshift和API Gateway等服务,达成高效的数据处理与分析。
项目的主要特性和功能
- 数据收集与模拟:借助模拟器生成用户行为数据,并发送至AWS Kinesis数据流。
- AWS资源管理:运用AWS CDK自动化部署和管理VPC、Kinesis、Redshift等AWS资源。
- 数据存储与处理:利用Redshift进行数据存储和处理,支持实时数据分析和查询。
- API接口:通过API Gateway提供数据访问接口,支持客户端和服务器端的数据交互。
- 数据可视化:通过Redshift Query Editor V2进行数据查询和可视化,满足复杂的数据分析需求。
安装使用步骤
1. 环境准备
确保本地环境已安装以下工具: - AWS CDK - Poetry - Docker
2. 复制代码库
bash
cd clickstream-on-aws
3. 安装依赖
bash
poetry install
source .venv/bin/activate
4. 部署AWS资源
部署所有堆栈
bash
cdk deploy --all \
--parameters CoreStack:WriteKey='<define-your-write-key>' \
--parameters CoreStack:RedshiftServerlessSubnetIds='<assign-subnets-to-redshift>' \
--parameters CoreStack:RedshiftServerlessSecurityGroupIds='assign-security-groups-for-redshift'
仅部署CoreStack
bash
cdk deploy CoreStack \
--parameters CoreStack:WriteKey='<define-your-write-key>' \
--parameters CoreStack:RedshiftServerlessSubnetIds='<assign-subnets-to-redshift>' \
--parameters CoreStack:RedshiftServerlessSecurityGroupIds='assign-security-groups-for-redshift'
5. 连接到Redshift
部署完成后,使用Redshift Query Editor V2连接到Redshift Serverless Namespace,进行数据查询和分析。
6. 模拟Clickstream数据
运行模拟器生成用户行为数据:
bash
python3 simulator.py --host <API Gateway URL> --writeKey <Your Write Key>
7. 数据分析
使用Redshift Query Editor V2查询和分析数据:
sql
SELECT * FROM clickstream.mv_kinesisSource LIMIT 10;
通过以上步骤,即可成功部署和使用基于AWS的Clickstream数据处理与分析系统。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】