项目简介
本项目是一个机器翻译项目,目标是参与机器翻译领域的比赛。它提供中文到英文的翻译模型,依据给定的训练样本开展模型构建与训练工作。项目涵盖数据预处理、模型训练、评估以及预测等阶段,运用Python语言和Hugging Face的Transformers库实现。
项目的主要特性和功能
- 数据预处理:包含数据读取、清洗、转换和分割等步骤,生成用于模型训练的数据集。
- 模型训练:采用预训练的转换器模型,通过微调实现文本翻译。模型基于PyTorch,利用Transformers库进行训练和评估。
- 评估与预测:以BLEU分数作为评估指标,生成预测结果并可提交到比赛平台。
安装使用步骤
环境准备
- 安装Python 3.7及以上版本。
- 创建并激活conda虚拟环境:
shell conda create -n NLP python=3.7 conda activate NLP
- 安装PyTorch和Hugging Face的Transformers库:
shell pip install torch transformers
数据预处理
运行数据整合脚本,将数据样本转换为CSV文件:
shell
python data/integrate_all_data.py
模型训练
运行训练脚本,进行中文到英文的翻译模型训练:
shell
python run_translation_no_trainer_myown_zh2en.py
模型评估与预测
- 运行预测脚本,生成英文到中文的翻译结果:
shell python run_translation_no_trainer_myown_en2zh.py
- 使用
submit/submit_example.txt
文件进行结果提交。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】