项目简介
本项目是一个基于Python的实时音频字幕生成系统,主要为用户在观看视频或收听播客时提供便利,同时也能辅助语言学习。系统结合语音识别、翻译和图形界面技术,实现高质量语音转文字以及多语言翻译功能。
项目的主要特性和功能
- 借助OpenAI的Whisper模型进行实时语音识别,可将音频中的语言转换为文字。
- 利用Helsinki - NLP的英译中模型实现多语言翻译,把识别出的文字从其他语言翻译为中文。
- 通过Python的Tkinter库创建图形用户界面,展示英文字幕和中文翻译字幕,方便用户查看与理解。
- 支持灵活的参数设置,可调整识别间隔、缓冲区大小以及是否启用翻译等,以适应不同使用场景。
- 能通过soundcard库访问麦克风,录制音频并进行预处理,如静音检测,将音频数据送入后续处理队列。
安装使用步骤
系统要求
确保安装Windows 10/11系统,具备至少4GB显存的Nvidia独立显卡。
安装必要的软件和库
- 安装Anaconda和FFmpeg,并确保CUDA Toolkit和相应的Nvidia显卡驱动已安装。
- (可选)安装GoNotoKurrent字体用于字幕显示,未安装则使用微软雅黑字体。
复制项目仓库并创建conda环境
shell
cd Capoom
conda create -n capoom python=3.10
conda activate capoom
安装依赖库
- 访问PyTorch官网获取适合系统和CUDA版本的PyTorch安装命令。
- 安装Whisper和其他依赖:
shell pip install numba tqdm more-itertools tiktoken pip install -r requirements.txt
运行程序
shell
python main.py --model medium
- 默认使用medium
模型,若显存不足,可尝试使用small
模型。
- 第一次运行可能需要下载模型,请耐心等待。
实时字幕显示
- 图形界面将显示英文字幕和中文翻译字幕,用户可按需调整字体、透明度等设置。
- 在浏览器中打开
http://127.0.0.1:7860/
,可看到简单的控制面板,用于调整部分参数和控制翻译开关。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】