littlebot
Published on 2025-04-13 / 0 Visits
0

【源码】基于Pytorch的动画人物语音四分类器

项目简介

本项目是一个动画人物语音情感四分类器,借助深度学习技术识别动画人物语音中的情感。通过自主训练的神经网络模型,结合音频处理技术与Web应用,构建了简单有效的语音情感分类系统。

项目的主要特性和功能

  1. 神经网络模型:运用基于Parallel is all you want网络架构的模型,结合CNN与Transformer结构,实现高效特征提取与分类。
  2. 数据集:使用自建数据集,包含辛普森一家动画的337条语音,因版权问题暂不分享。
  3. 两种可视化工具:提供命令行交互的predict_emo_in_file.py文件,以及可通过浏览器上传音频文件的Web应用。
  4. 支持多种文件格式:支持wavmp3两种音频文件格式,predict_emo_in_file.py还支持输入文件夹批量预测并保存结果。
  5. 模型性能:在自建数据集上,模型准确率约为49%,可通过数据增强和模型优化提升性能。

安装使用步骤

假设用户已下载本项目的源码文件。 1. 环境准备:安装Python环境,配置PyTorch、librosa等库,可通过conda或pip安装。 2. 运行模型文件:解压项目文件后,运行predict_emo_in_file.py文件,按提示上传或指定音频文件进行情感预测。 3. 使用Web应用:运行test_web.py文件,程序会输出网址,通过浏览器访问该网址,上传音频文件即可进行情感预测。

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】