littlebot
Published on 2025-04-09 / 0 Visits
0

【源码】基于Python和Transformers的BITNLP2022机器翻译项目

项目简介

本项目是一个机器翻译项目,目标是参与机器翻译领域的比赛。它提供中文到英文的翻译模型,依据给定的训练样本开展模型构建与训练工作。项目涵盖数据预处理、模型训练、评估以及预测等阶段,运用Python语言和Hugging Face的Transformers库实现。

项目的主要特性和功能

  1. 数据预处理:包含数据读取、清洗、转换和分割等步骤,生成用于模型训练的数据集。
  2. 模型训练:采用预训练的转换器模型,通过微调实现文本翻译。模型基于PyTorch,利用Transformers库进行训练和评估。
  3. 评估与预测:以BLEU分数作为评估指标,生成预测结果并可提交到比赛平台。

安装使用步骤

环境准备

  • 安装Python 3.7及以上版本。
  • 创建并激活conda虚拟环境: shell conda create -n NLP python=3.7 conda activate NLP
  • 安装PyTorch和Hugging Face的Transformers库: shell pip install torch transformers

数据预处理

运行数据整合脚本,将数据样本转换为CSV文件: shell python data/integrate_all_data.py

模型训练

运行训练脚本,进行中文到英文的翻译模型训练: shell python run_translation_no_trainer_myown_zh2en.py

模型评估与预测

  • 运行预测脚本,生成英文到中文的翻译结果: shell python run_translation_no_trainer_myown_en2zh.py
  • 使用submit/submit_example.txt文件进行结果提交。

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】