项目简介
本项目是OpenMOSS项目的一部分,专为ARM架构的边缘计算设备设计,提供端到端的语音合成功能。它支持与下位机和中控服务通信,集成语音交互能力,具备语音合成、语音识别和实时图像识别等主要功能。
项目的主要特性和功能
- 语音合成:基于VITS模型,可实现高质量语音合成。
- 语音识别:集成VAD语音活动检测和Wenet语音识别,能进行流式语音监听。
- 实时图像识别:基于Yolov5模型,开展实时图像识别和分类(评估中)。
- 多平台支持:适用于ARM架构边缘计算设备,如RK3588平台。
- 模块化设计:包含moss - speaker、moss - listener和moss - monitor等独立组件。
安装使用步骤
1. 准备环境
- 确保已部署可用的Node.js环境,版本需为16+。
- 通过
aplay -l
查看已识别的声卡设备,编辑~/.asoundrc
文件进行配置。
2. 安装依赖
sh
sh install-deps.sh
npm install
3. 启动服务
sh
npm start
4. 模型获取
- speaker模型:从moss - vits - onnx - model下载,放置在
models/speaker/
目录。 - listener模型:从moss - listener - models下载,放置在
models/listener/
目录。 - monitor模型:此组件评估中,暂无模型。
5. 开发计划
- 增加monitor组件通过摄像头捕获图像使用Yolov5识别分类。
- 与下位机固件进行协议对接。
- 与中控服务进行协议对接。
- 支持服务发现。
- 优化模型推理性能,加速在边缘计算设备的推理速度。
- 支持使用GPU或NPU加速推理。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】