【源码】基于Python和GPT4的中文大模型评估基准

项目简介

ChineseAlpacaEval是一个基于AlpacaEval的中文大模型评估基准。其核心目标是评估大语言模型（LLMs）依据中文指令生成贴合中文用户偏好回答的能力。该项目把AlpacaEval的测试指令集进行翻译、背景替换以及人工校正，转化为具有中文知识背景的指令集，同时借助GPT-4等大模型开展自动化评测。

项目的主要特性和功能

中文指令集转换：将AlpacaEval的指令集翻译并调整成符合中文背景的指令。
自动化评估：以GPT-4作为评估器，自动对比模型生成的回复和基准模型（如text-davinci-003）的回复，计算胜率。
排行榜：提供基于胜率的排行榜，展示各模型在中文对话能力方面的表现。
模型贡献：支持用户提交自定义模型的评估结果，以此更新排行榜。

安装使用步骤

1. 环境设置

确保使用Python 3.11，通过以下命令安装所需的Python包： shell pip install -r requirements.txt

2. 生成模型回复

使用模型生成Chinese AlpacaEval数据集中每个指令的回复，并将结果保存为JSON Lines文件，格式如下： json { "instruction": "中文指令", "response": "模型生成的回复" }

3. 进行评估

将生成的模型回复文件命名为<model_name>.jsonl，放置在./model_outputs/目录下。然后运行评估脚本： ```shell export OPENAI_API_KEY= export OPENAI_ORGANIZATION_IDS= # 可选

python evaluate.py --model_name='' \ --reference='text-davinci-003' \ --evaluator='gpt-4-0613' `` 评估结果将保存在./results/vs.jsonl`中。

4. 提交模型结果

通过Fork仓库并提交Pull Request的方式，将模型的评估结果文件提交到ChineseAlpacaEval项目中，更新排行榜。

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】

Menu

Share

【源码】基于Python和GPT4的中文大模型评估基准

项目简介

项目的主要特性和功能

安装使用步骤

1. 环境设置

2. 生成模型回复

3. 进行评估

4. 提交模型结果

下载地址

【源码】基于Python的猫眼电影票房数据分析系统

【源码】基于Arduino的易经随机卦象生成器

【源码】基于Java的超星学习通PDF下载工具

【源码】基于 Python 的智慧职教作业考试自动化系统

【源码】基于思源笔记的插件开发示例

【源码】基于Arduino的智能花盆控制系统

【源码】基于Arduino平台的ELRS到USB游戏手柄桥接项目

【源码】基于Python的西瓜视频百万英雄答题助手

【源码】基于ROS和MoveIt的双臂机器人控制系统

【源码】基于Arduino的植物健康监测和灌溉系统