项目简介
本项目运用Python实现多模态指令微调数据的自动化生成。借助调用OpenAI的GPT - 3.5模型,依据给定的图片描述生成相关问答对并构造指令数据。项目基于原始Python环境,只需额外安装openai
和tqdm
两个库即可运行。
项目的主要特性和功能
- 采用多进程处理技术,提升数据处理速度,各进程处理划分的数据,完成后以追加方式保存构造的数据。
- 集成OpenAI API,调用GPT - 3.5模型生成与图片描述相关的问答对。
- 输入包含图片描述的JSON文件,生成相应的指令微调数据,输出为JSON格式文件。
- 设计基于mimic概念图的冷启动策略,收集高质量的初始指令样例用于模型初始训练。
- 具备异常处理机制,通过捕获异常监测OpenAI API网络调用情况,遇网络问题等待后继续查询,保障程序稳定运行。
安装使用步骤
安装所需库
shell
pip install openai tqdm
准备数据
准备好mscoco的caption文件,或者使用项目自带的mscoco2017文件。
运行主程序
shell
python generate.py --captiondata "captions_val2017.json" --output 'instructions.json'
可选参数
--num_processings
:指定进程数,默认为10。--num_per_slice
:指定每个进程每次处理的数据量,默认为128。--num_icls
:指定in - context阶段采样的上下文数量。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】