项目简介
本项目是一个学习心得生成系统,具备对 PDF、Word、Markdown 和纯文本等多种文件格式的解析能力。它可调用百度 Ernie 系列 API 以及 OpenAI 格式 API 生成学习心得,为用户提供了便捷的学习总结方式。
项目的主要特性和功能
- 多格式文件解析:支持解析 PDF、Word、Markdown 和纯文本文件。
- 多模型支持:支持百度 Ernie 系列 API 和 OpenAI 格式 API。
- 待完成功能丰富:后续计划支持智谱格式 API、直接写入 Word 文档、根据要求完成文档以及文档扩充化等功能。
安装使用步骤
步骤 1:确定模型
百度 Ernie(文心一言)
先前往百度千帆大模型平台:百度智能云控制台 (baidu.com),在侧边栏的【模型服务 - 应用接入】中,选择创建应用,完成填写。获取 API Key 和 Secret Key,填入 config/config.json
的 ernie
字段,并确保 chosen_model
为 ernie
。
OpenAI 格式
- OpenAI 原生:按照官网教程,在
config/config.json
的openai
字段填入api_key
,注意chosen_model
为openai
,且需要网络畅通。 - 中转代理站 / 兼容 OpenAI 的网站:代理站一般都有教程,将 api_key 和原生一样填入,主要需在
config/config.json
的openai
字段修改base_url
,即改为代理站提供的base_url
。兼容 OpenAI 的网站如通义千问、Together.ai 等,同样修改base_url
和api_key
。 - Ollama / 本地 OpenAI 格式部署:类似于 Ollama 本地部署模型,只要兼容 OpenAI 格式,均可以通过修改
base_url
和api_key
的方式调用,例如 Ollama:OpenAI compatibility · Ollama Blog。
步骤 2:安装依赖
推荐使用虚拟环境。检查依赖是否满足 requirements.txt
,若不满足,执行 pip install -r requirements.txt
。
步骤 3:准备待学习的文本
在 data
目录下,放入需要学习的文本。无需在意文件组织格式,代码会递归获取 data
下所有目标文件。目前支持:.pdf
、.doc/.docx
、.md/.markdown
、.txt
。
步骤 4:运行
在主目录下,确保环境依赖无误,执行 python main.py
即可等待生成。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】