littlebot

Published on 2025-04-03 / 1 Visits

0

【源码】基于PyTorch框架的语音识别模型构建

项目简介

本项目致力于自行构建语音识别模型，以深入了解语音识别模型的构建流程与关键技术。它参考了deepspeech.pytorch的实现，并在此基础上进行了拓展与优化。

项目的主要特性和功能

数据加载与预处理：借助torchaudio库进行音频特征提取，如梅尔频谱转换；实现数据加载模块，支持Librispeech数据集。
模型构建：仿照DeepSpeech2模型，构建CNN + LSTM的语音识别模型；实现贪婪搜索解码，可将数字序列转换为字符序列。
训练与评估：提供模型训练脚本，支持参数配置和模型加载；在训练过程中进行性能评估，涵盖WER（词错误率）和CER（字符错误率）。
Docker支持：提供Docker启动命令，便于在不同环境中运行项目。

安装使用步骤

环境准备

安装依赖： bash pip install torch torchaudio visdom
下载数据集：下载并解压Librispeech数据集，放置在项目目录下。

运行项目

启动Visdom服务： bash python -m visdom.server
训练模型： bash python train.py --data_dir /path/to/data --checkpoint_dir /path/to/checkpoints
使用Docker运行： bash docker run -it --rm -v /home/chenc/workspace/myasr:/home/chenc/workspace/myasr --gpus all pytorch/pytorch:1.4-cuda10.1-cudnn7-runtime

监控训练过程

打开浏览器，访问http://localhost:8097，查看Visdom中的训练过程可视化。

评估模型性能

使用提供的评估脚本计算模型在验证集上的WER和CER。

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】