项目简介
本项目是基于Python和BERT的文本转语音(TTS)系统。借助BERT模型提取文本特征,通过深度学习模型生成高质量语音波形。支持中文和日文的文本转语音功能,可用于语音助手、有声书生成等多种场景。
项目的主要特性和功能
- BERT特征提取:运用预训练的BERT模型提取输入文本特征,保证文本信息完整准确。
- 多语言支持:支持中文和日文的文本转语音,能处理不同语言声调和发音特点。
- 模型训练:提供完整的模型训练流程,涵盖数据预处理、模型训练和评估,用户可依自身数据集定制训练。
- 本地部署:支持在本地机器运行和测试模型,无需依赖外部服务。
- Web界面:提供简单的Web界面,用户可通过网页输入文本实时生成语音。
安装使用步骤
1. 环境准备
- 安装Python 3.x。
- 若使用GPU,安装CUDA和cuDNN。
- 安装PyTorch(建议使用GPU版本)。
- 安装项目依赖:
bash pip install -r requirements.txt
2. 下载BERT模型
从Hugging Face下载对应的中文和日文BERT模型,放置在bert
文件夹中。
3. 数据准备
- 收集并准备训练数据,包含文本和对应的音频文件。
- 进行数据预处理,如去除噪声、分段、打标等。
4. 模型训练
- 修改
configs/config.json
中的训练参数,如epochs
和batch_size
。 - 在终端运行训练脚本:
bash python train_ms.py -m YourModelName -c configs/config.json
5. 推理与部署
- 修改
webui.py
中的模型路径,指向训练好的模型文件。 - 运行Web界面:
bash python webui.py
- 打开浏览器访问
http://localhost:5000
,输入文本并生成语音。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】