littlebot
Published on 2025-04-16 / 3 Visits
0

【源码】基于音频处理的实时字幕生成系统——Capoom

项目简介

本项目是一个基于Python的实时音频字幕生成系统,主要为用户在观看视频或收听播客时提供便利,同时也能辅助语言学习。系统结合语音识别、翻译和图形界面技术,实现高质量语音转文字以及多语言翻译功能。

项目的主要特性和功能

  1. 借助OpenAI的Whisper模型进行实时语音识别,可将音频中的语言转换为文字。
  2. 利用Helsinki - NLP的英译中模型实现多语言翻译,把识别出的文字从其他语言翻译为中文。
  3. 通过Python的Tkinter库创建图形用户界面,展示英文字幕和中文翻译字幕,方便用户查看与理解。
  4. 支持灵活的参数设置,可调整识别间隔、缓冲区大小以及是否启用翻译等,以适应不同使用场景。
  5. 能通过soundcard库访问麦克风,录制音频并进行预处理,如静音检测,将音频数据送入后续处理队列。

安装使用步骤

系统要求

确保安装Windows 10/11系统,具备至少4GB显存的Nvidia独立显卡。

安装必要的软件和库

  1. 安装Anaconda和FFmpeg,并确保CUDA Toolkit和相应的Nvidia显卡驱动已安装。
  2. (可选)安装GoNotoKurrent字体用于字幕显示,未安装则使用微软雅黑字体。

复制项目仓库并创建conda环境

shell cd Capoom conda create -n capoom python=3.10 conda activate capoom

安装依赖库

  1. 访问PyTorch官网获取适合系统和CUDA版本的PyTorch安装命令。
  2. 安装Whisper和其他依赖: shell pip install numba tqdm more-itertools tiktoken pip install -r requirements.txt

运行程序

shell python main.py --model medium - 默认使用medium模型,若显存不足,可尝试使用small模型。 - 第一次运行可能需要下载模型,请耐心等待。

实时字幕显示

  1. 图形界面将显示英文字幕和中文翻译字幕,用户可按需调整字体、透明度等设置。
  2. 在浏览器中打开http://127.0.0.1:7860/,可看到简单的控制面板,用于调整部分参数和控制翻译开关。

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】