项目简介
ChineseAlpacaEval是一个基于AlpacaEval的中文大模型评估基准。其核心目标是评估大语言模型(LLMs)依据中文指令生成贴合中文用户偏好回答的能力。该项目把AlpacaEval的测试指令集进行翻译、背景替换以及人工校正,转化为具有中文知识背景的指令集,同时借助GPT-4等大模型开展自动化评测。
项目的主要特性和功能
- 中文指令集转换:将AlpacaEval的指令集翻译并调整成符合中文背景的指令。
- 自动化评估:以GPT-4作为评估器,自动对比模型生成的回复和基准模型(如text-davinci-003)的回复,计算胜率。
- 排行榜:提供基于胜率的排行榜,展示各模型在中文对话能力方面的表现。
- 模型贡献:支持用户提交自定义模型的评估结果,以此更新排行榜。
安装使用步骤
1. 环境设置
确保使用Python 3.11,通过以下命令安装所需的Python包:
shell
pip install -r requirements.txt
2. 生成模型回复
使用模型生成Chinese AlpacaEval数据集中每个指令的回复,并将结果保存为JSON Lines文件,格式如下:
json
{
"instruction": "中文指令",
"response": "模型生成的回复"
}
3. 进行评估
将生成的模型回复文件命名为<model_name>.jsonl
,放置在./model_outputs/
目录下。然后运行评估脚本:
```shell
export OPENAI_API_KEY=
python evaluate.py --model_name='``
评估结果将保存在
./results/
4. 提交模型结果
通过Fork仓库并提交Pull Request的方式,将模型的评估结果文件提交到ChineseAlpacaEval项目中,更新排行榜。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】