littlebot

Published on 2025-04-16 / 20 Visits

0

【源码】基于音频处理的实时字幕生成系统——Capoom

项目简介

本项目是一个基于Python的实时音频字幕生成系统，主要为用户在观看视频或收听播客时提供便利，同时也能辅助语言学习。系统结合语音识别、翻译和图形界面技术，实现高质量语音转文字以及多语言翻译功能。

项目的主要特性和功能

借助OpenAI的Whisper模型进行实时语音识别，可将音频中的语言转换为文字。
利用Helsinki - NLP的英译中模型实现多语言翻译，把识别出的文字从其他语言翻译为中文。
通过Python的Tkinter库创建图形用户界面，展示英文字幕和中文翻译字幕，方便用户查看与理解。
支持灵活的参数设置，可调整识别间隔、缓冲区大小以及是否启用翻译等，以适应不同使用场景。
能通过soundcard库访问麦克风，录制音频并进行预处理，如静音检测，将音频数据送入后续处理队列。

安装使用步骤

系统要求

确保安装Windows 10/11系统，具备至少4GB显存的Nvidia独立显卡。

安装必要的软件和库

安装Anaconda和FFmpeg，并确保CUDA Toolkit和相应的Nvidia显卡驱动已安装。
（可选）安装GoNotoKurrent字体用于字幕显示，未安装则使用微软雅黑字体。

复制项目仓库并创建conda环境

shell cd Capoom conda create -n capoom python=3.10 conda activate capoom

安装依赖库

访问PyTorch官网获取适合系统和CUDA版本的PyTorch安装命令。
安装Whisper和其他依赖： shell pip install numba tqdm more-itertools tiktoken pip install -r requirements.txt

运行程序

shell python main.py --model medium - 默认使用medium模型，若显存不足，可尝试使用small模型。 - 第一次运行可能需要下载模型，请耐心等待。

实时字幕显示

图形界面将显示英文字幕和中文翻译字幕，用户可按需调整字体、透明度等设置。
在浏览器中打开http://127.0.0.1:7860/，可看到简单的控制面板，用于调整部分参数和控制翻译开关。

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】