littlebot
Published on 2025-04-10 / 1 Visits
0

【源码】基于Open MPI的并行文本词频统计系统

项目简介

本项目是基于Open MPI的并行文本词频统计系统,借助分布式计算高效统计大量文本文件中单词的出现频率。系统把文本文件分配给多个处理器并行处理,最终汇总结果并生成CSV文件。此外,项目还实现了基本词频统计功能,且提供性能测试模块,支持强扩展性和弱扩展性测试。

项目的主要特性和功能

  • 并行处理:借助Open MPI对文本文件进行并行处理,大幅提高词频统计效率。
  • 词频统计:可对文本文件中的单词进行频率统计,忽略标点等非单词字符。
  • 结果输出:将统计结果保存为CSV文件,方便后续分析处理。
  • 性能测试:提供强扩展性和弱扩展性测试模块,评估系统在不同处理器数量下的性能。
  • 灵活配置:支持通过命令行参数配置处理器数量、输入目录和输出文件路径。

安装使用步骤

编译项目

使用以下命令编译项目: bash mpicc wordcount.c -o wordcount 若需运行性能测试版本,使用以下命令: bash mpicc wordcount_test.c -o wordcount_test

运行项目

运行基本版本: bash mpirun -np <NP> wordcount <DIR> <RES> 运行性能测试版本: bash mpirun -np <NP> wordcount_test <DIR> <RES> <STRONG/WEAK> 参数说明: - <NP>:处理器数量。 - <DIR>:包含文本文件的目录路径。 - <RES>:输出结果CSV文件路径。 - <STRONG/WEAK>:性能测试结果CSV文件路径。

生成性能测试文件

首次运行性能测试版本前,需生成性能测试文件: bash gcc create.c -o create ./create

使用Makefile(可选)

项目提供了Makefile,可通过以下命令编译和运行项目: bash make 请确保在Makefile中正确配置路径参数。通过上述步骤,可快速部署并运行本项目的词频统计系统,还能按需进行性能测试。

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】