littlebot
Published on 2025-04-08 / 1 Visits
0

【源码】基于Python的自动生成多模态指令微调数据系统

项目简介

本项目运用Python实现多模态指令微调数据的自动化生成。借助调用OpenAI的GPT - 3.5模型,依据给定的图片描述生成相关问答对并构造指令数据。项目基于原始Python环境,只需额外安装openaitqdm两个库即可运行。

项目的主要特性和功能

  1. 采用多进程处理技术,提升数据处理速度,各进程处理划分的数据,完成后以追加方式保存构造的数据。
  2. 集成OpenAI API,调用GPT - 3.5模型生成与图片描述相关的问答对。
  3. 输入包含图片描述的JSON文件,生成相应的指令微调数据,输出为JSON格式文件。
  4. 设计基于mimic概念图的冷启动策略,收集高质量的初始指令样例用于模型初始训练。
  5. 具备异常处理机制,通过捕获异常监测OpenAI API网络调用情况,遇网络问题等待后继续查询,保障程序稳定运行。

安装使用步骤

安装所需库

shell pip install openai tqdm

准备数据

准备好mscoco的caption文件,或者使用项目自带的mscoco2017文件。

运行主程序

shell python generate.py --captiondata "captions_val2017.json" --output 'instructions.json'

可选参数

  • --num_processings:指定进程数,默认为10。
  • --num_per_slice:指定每个进程每次处理的数据量,默认为128。
  • --num_icls:指定in - context阶段采样的上下文数量。

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】