littlebot

Published on 2025-04-11 / 0 Visits

0

【源码】基于Node.js的MOSS Core Service语音合成系统

项目简介

本项目是OpenMOSS项目的一部分，专为ARM架构的边缘计算设备设计，提供端到端的语音合成功能。它支持与下位机和中控服务通信，集成语音交互能力，具备语音合成、语音识别和实时图像识别等主要功能。

项目的主要特性和功能

语音合成：基于VITS模型，可实现高质量语音合成。
语音识别：集成VAD语音活动检测和Wenet语音识别，能进行流式语音监听。
实时图像识别：基于Yolov5模型，开展实时图像识别和分类（评估中）。
多平台支持：适用于ARM架构边缘计算设备，如RK3588平台。
模块化设计：包含moss - speaker、moss - listener和moss - monitor等独立组件。

安装使用步骤

1. 准备环境

确保已部署可用的Node.js环境，版本需为16+。
通过aplay -l查看已识别的声卡设备，编辑~/.asoundrc文件进行配置。

2. 安装依赖

sh sh install-deps.sh npm install

3. 启动服务

sh npm start

4. 模型获取

speaker模型：从moss - vits - onnx - model下载，放置在models/speaker/目录。
listener模型：从moss - listener - models下载，放置在models/listener/目录。
monitor模型：此组件评估中，暂无模型。

5. 开发计划

增加monitor组件通过摄像头捕获图像使用Yolov5识别分类。
与下位机固件进行协议对接。
与中控服务进行协议对接。
支持服务发现。
优化模型推理性能，加速在边缘计算设备的推理速度。
支持使用GPU或NPU加速推理。

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】