项目简介
本项目是一个动画人物语音情感四分类器,借助深度学习技术识别动画人物语音中的情感。通过自主训练的神经网络模型,结合音频处理技术与Web应用,构建了简单有效的语音情感分类系统。
项目的主要特性和功能
- 神经网络模型:运用基于Parallel is all you want网络架构的模型,结合CNN与Transformer结构,实现高效特征提取与分类。
- 数据集:使用自建数据集,包含辛普森一家动画的337条语音,因版权问题暂不分享。
- 两种可视化工具:提供命令行交互的
predict_emo_in_file.py
文件,以及可通过浏览器上传音频文件的Web应用。 - 支持多种文件格式:支持
wav
和mp3
两种音频文件格式,predict_emo_in_file.py
还支持输入文件夹批量预测并保存结果。 - 模型性能:在自建数据集上,模型准确率约为49%,可通过数据增强和模型优化提升性能。
安装使用步骤
假设用户已下载本项目的源码文件。
1. 环境准备:安装Python环境,配置PyTorch、librosa等库,可通过conda或pip安装。
2. 运行模型文件:解压项目文件后,运行predict_emo_in_file.py
文件,按提示上传或指定音频文件进行情感预测。
3. 使用Web应用:运行test_web.py
文件,程序会输出网址,通过浏览器访问该网址,上传音频文件即可进行情感预测。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】