项目简介
本项目基于C语言开发,借助语音识别和合成技术以及窗口管理API,实现语音控制计算机的基础功能,涵盖打开/关闭窗口、控制窗口移动、放大/缩小窗口等操作。同时具备窗口管理功能,可列出当前打开的窗口信息,并依据用户语音指令完成窗口切换、激活等操作。
项目的主要特性和功能
- 语音识别与合成:调用外部语音识别和合成库(如科大讯飞的API),接收语音指令并输出语音结果。
- 窗口管理:利用Xlib库与窗口管理API,实现窗口的打开、关闭、移动、缩放等基本操作。
- 窗口信息展示:程序可列出当前打开窗口的信息,包括窗口ID、标题、类名等。
- 语音指令执行:根据用户语音指令执行相应的窗口操作,如激活指定窗口、切换窗口等。
安装使用步骤
- 确保系统已安装必要的库和工具,如Xlib库、FFTW库、PulseAudio库等,以及依赖的gksu、xsel、espeak等。
- 下载项目的源代码。
- 编译源代码,生成可执行文件。
- 运行可执行文件前,设置
LD_LIBRARY_PATH
,示例如下:bash ARCH=`arch` MSCLIBS_PATH=./bin/$ARCH export LD_LIBRARY_PATH=${MSCLIBS_PATH}:${LD_LIBRARY_PATH}
其中MSCLIBS_PATH
为科大讯飞库的位置,请根据系统架构具体选择。 - 运行可执行文件,程序将开始监听语音指令。
- 开启软件,按下
CTRL
键(不低于2s)输入语音;语音朗读时,先用鼠标选中文字,然后按下ALT
键。 - 通过语音指令控制程序,如说出“打开浏览器”来打开浏览器窗口。
- 使用语音指令进行窗口管理,如说出“切换窗口”来切换到下一个窗口。
注意:项目依赖于外部库和工具,如科大讯飞的API、Xlib库等,具体的使用和安装方法请参考相应的文档或教程。此外,由于项目涉及语音识别和合成技术,网络连接是必要的,且可能需要特定的API密钥或授权。程序设计思想请见 speech_struct.pdf
。相关命令配置存于 index.json
、appname.json
、open.json
和 command.conf
文件中。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】