littlebot
Published on 2025-04-11 / 1 Visits
0

【源码】基于Python和GPT4的中文大模型评估基准

项目简介

ChineseAlpacaEval是一个基于AlpacaEval的中文大模型评估基准。其核心目标是评估大语言模型(LLMs)依据中文指令生成贴合中文用户偏好回答的能力。该项目把AlpacaEval的测试指令集进行翻译、背景替换以及人工校正,转化为具有中文知识背景的指令集,同时借助GPT-4等大模型开展自动化评测。

项目的主要特性和功能

  1. 中文指令集转换:将AlpacaEval的指令集翻译并调整成符合中文背景的指令。
  2. 自动化评估:以GPT-4作为评估器,自动对比模型生成的回复和基准模型(如text-davinci-003)的回复,计算胜率。
  3. 排行榜:提供基于胜率的排行榜,展示各模型在中文对话能力方面的表现。
  4. 模型贡献:支持用户提交自定义模型的评估结果,以此更新排行榜。

安装使用步骤

1. 环境设置

确保使用Python 3.11,通过以下命令安装所需的Python包: shell pip install -r requirements.txt

2. 生成模型回复

使用模型生成Chinese AlpacaEval数据集中每个指令的回复,并将结果保存为JSON Lines文件,格式如下: json { "instruction": "中文指令", "response": "模型生成的回复" }

3. 进行评估

将生成的模型回复文件命名为<model_name>.jsonl,放置在./model_outputs/目录下。然后运行评估脚本: ```shell export OPENAI_API_KEY= export OPENAI_ORGANIZATION_IDS= # 可选

python evaluate.py --model_name='' \ --reference='text-davinci-003' \ --evaluator='gpt-4-0613' `` 评估结果将保存在./results/vs.jsonl`中。

4. 提交模型结果

通过Fork仓库并提交Pull Request的方式,将模型的评估结果文件提交到ChineseAlpacaEval项目中,更新排行榜。

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】