项目简介
本项目致力于自行构建语音识别模型,以深入了解语音识别模型的构建流程与关键技术。它参考了deepspeech.pytorch
的实现,并在此基础上进行了拓展与优化。
项目的主要特性和功能
- 数据加载与预处理:借助
torchaudio
库进行音频特征提取,如梅尔频谱转换;实现数据加载模块,支持Librispeech数据集。 - 模型构建:仿照DeepSpeech2模型,构建CNN + LSTM的语音识别模型;实现贪婪搜索解码,可将数字序列转换为字符序列。
- 训练与评估:提供模型训练脚本,支持参数配置和模型加载;在训练过程中进行性能评估,涵盖WER(词错误率)和CER(字符错误率)。
- Docker支持:提供Docker启动命令,便于在不同环境中运行项目。
安装使用步骤
环境准备
- 安装依赖:
bash pip install torch torchaudio visdom
- 下载数据集:下载并解压Librispeech数据集,放置在项目目录下。
运行项目
- 启动Visdom服务:
bash python -m visdom.server
- 训练模型:
bash python train.py --data_dir /path/to/data --checkpoint_dir /path/to/checkpoints
- 使用Docker运行:
bash docker run -it --rm -v /home/chenc/workspace/myasr:/home/chenc/workspace/myasr --gpus all pytorch/pytorch:1.4-cuda10.1-cudnn7-runtime
监控训练过程
打开浏览器,访问http://localhost:8097
,查看Visdom中的训练过程可视化。
评估模型性能
使用提供的评估脚本计算模型在验证集上的WER和CER。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】