项目简介
本项目是基于C++的Top100 URL频率统计系统,主要用于处理大规模URL数据文件,统计并输出出现频率最高的前100个URL。项目运用MapReduce思想,结合多线程处理和哈希映射技术,高效完成数据处理任务。
项目的主要特性和功能
- 多线程处理:把大文件分割成固定大小的块,利用多线程分别统计URL频率,提升处理效率。
- 哈希映射:在Map阶段,借助STL中的哈希映射统计每一块的URL频率,结果写入不同的哈希文件。
- 最大堆排序:Reduce阶段采用容量为100的最大堆维护频率最高的前100个URL,保证结果准确。
- 自动化测试:提供一键测试脚本
run.sh
,包含编译和运行命令,方便测试。 - 数据生成:提供
genURL.py
脚本,可生成随机的URL数据文件,用于测试和实验。
安装使用步骤
生成测试数据
若需生成新的测试数据文件test.txt
,运行以下命令:
shell
python3 ./genURL.py
编译和运行程序
使用提供的脚本run.sh
进行编译和运行:
shell
bash run.sh
查看结果
程序运行结束后,在控制台查看出现频率最高的前100个URL。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】