项目简介
本项目是基于PyTorch深度学习框架和Flask前端框架构建的孤立词语音识别系统,主要目标是实现对特定中文孤立词的语音识别,借助VGG - 11 - BN模型进行音频分类。
项目的主要特性和功能
- 语音识别模型:运用VGG - 11 - BN模型开展语音分类,可识别12个中文孤立词。
- 前端录音与处理:前端利用HTML完成录音、采样率调整、音频格式转码和可视化操作,将录音数据以base64格式回传给服务器。
- 服务器端处理:服务器接收音频数据,解码后保存为wav文件,通过模型识别并将结果返回客户端。
- 模型训练与可视化:支持在DSPSpeech - 20数据集上训练模型,使用TensorBoardX对训练过程可视化。
安装使用步骤
环境配置
- 安装Python环境。
- 安装项目依赖:
bash pip install -r piplist.txt
若使用CPU版本,需删除GPU版本的torch并自行安装CPU版本。
直接使用
- 下载预训练模型文件并解压到
save
目录。 - 运行
server.py
启动Flask服务器:bash python server.py
- 访问
http://127.0.0.1:8800/
进行语音识别,建议使用Chrome浏览器。
模型训练(可选)
- 下载DSPSpeech - 20数据集并解压到
data
目录。 - 运行
cnn_melspec.py
开始模型训练:bash python cnn_melspec.py
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】