项目简介
本项目是基于Open MPI的并行文本词频统计系统,借助分布式计算高效统计大量文本文件中单词的出现频率。系统把文本文件分配给多个处理器并行处理,最终汇总结果并生成CSV文件。此外,项目还实现了基本词频统计功能,且提供性能测试模块,支持强扩展性和弱扩展性测试。
项目的主要特性和功能
- 并行处理:借助Open MPI对文本文件进行并行处理,大幅提高词频统计效率。
- 词频统计:可对文本文件中的单词进行频率统计,忽略标点等非单词字符。
- 结果输出:将统计结果保存为CSV文件,方便后续分析处理。
- 性能测试:提供强扩展性和弱扩展性测试模块,评估系统在不同处理器数量下的性能。
- 灵活配置:支持通过命令行参数配置处理器数量、输入目录和输出文件路径。
安装使用步骤
编译项目
使用以下命令编译项目:
bash
mpicc wordcount.c -o wordcount
若需运行性能测试版本,使用以下命令:
bash
mpicc wordcount_test.c -o wordcount_test
运行项目
运行基本版本:
bash
mpirun -np <NP> wordcount <DIR> <RES>
运行性能测试版本:
bash
mpirun -np <NP> wordcount_test <DIR> <RES> <STRONG/WEAK>
参数说明:
- <NP>
:处理器数量。
- <DIR>
:包含文本文件的目录路径。
- <RES>
:输出结果CSV文件路径。
- <STRONG/WEAK>
:性能测试结果CSV文件路径。
生成性能测试文件
首次运行性能测试版本前,需生成性能测试文件:
bash
gcc create.c -o create
./create
使用Makefile(可选)
项目提供了Makefile,可通过以下命令编译和运行项目:
bash
make
请确保在Makefile中正确配置路径参数。通过上述步骤,可快速部署并运行本项目的词频统计系统,还能按需进行性能测试。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】