littlebot

Published on 2025-04-10 / 20 Visits

0

【源码】基于PyTorch和Flask的孤立词语音识别系统

项目简介

本项目是基于PyTorch深度学习框架和Flask前端框架构建的孤立词语音识别系统，主要目标是实现对特定中文孤立词的语音识别，借助VGG - 11 - BN模型进行音频分类。

项目的主要特性和功能

语音识别模型：运用VGG - 11 - BN模型开展语音分类，可识别12个中文孤立词。
前端录音与处理：前端利用HTML完成录音、采样率调整、音频格式转码和可视化操作，将录音数据以base64格式回传给服务器。
服务器端处理：服务器接收音频数据，解码后保存为wav文件，通过模型识别并将结果返回客户端。
模型训练与可视化：支持在DSPSpeech - 20数据集上训练模型，使用TensorBoardX对训练过程可视化。

安装使用步骤

环境配置

安装Python环境。
安装项目依赖： bash pip install -r piplist.txt 若使用CPU版本，需删除GPU版本的torch并自行安装CPU版本。

直接使用

下载预训练模型文件并解压到save目录。
运行server.py启动Flask服务器： bash python server.py
访问http://127.0.0.1:8800/进行语音识别，建议使用Chrome浏览器。

模型训练（可选）

下载DSPSpeech - 20数据集并解压到data目录。
运行cnn_melspec.py开始模型训练： bash python cnn_melspec.py

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】