littlebot
Published on 2025-04-09 / 4 Visits
0

【源码】基于中文语言理解测评基准 (CLUE) 的预训练模型与数据集

项目简介

本项目基于中文语言理解测评基准 (CLUE),提供一系列代表性的数据集、基准(预训练)模型、语料库和排行榜。CLUE 旨在通过选择具有代表性的任务和数据集,覆盖不同任务类型、数据量和难度,以此评估和促进中文自然语言理解的发展。

项目的主要特性和功能

数据集

涵盖 AFQMC、TNEWS、IFLYTEK 等多种类型数据集,涉及语义相似度、新闻分类、长文本分类等不同任务。

预训练模型

包含 BERT-base、BERT-wwm-ext、ERNIE-base 等多种预训练模型,可用于不同的自然语言处理任务。

语料库

有新闻语料、社区互动语料、维基百科语料和评论数据语料,为模型训练提供丰富的数据支持。

排行榜

提供分类任务和阅读理解任务中多个模型的评分,方便评估模型性能。

安装使用步骤

假设用户已下载本项目的源码文件。

1. 复制项目

bash

2. 进入相应的目录

分类任务

bash cd CLUE/baselines/models/bert cd CLUE/baselines/models_pytorch/classifier_pytorch

阅读理解任务

bash cd CLUE/baselines/models_pytorch/mrc_pytorch

3. 运行对应任务的脚本

使用 GPU 方式运行脚本,会自动下载模型和任务数据并开始运行。 bash bash run_classifier_xxx.sh 例如,运行以下命令会开始 iflytek 任务的训练: bash bash run_classifier_iflytek.sh

4. TPU 使用方式(可选)

bash cd CLUE/baselines/models/bert/tpu bash run_classifier_tnews.sh 注意:需要更换脚本中的 gs 路径和 TPU IP。

5. 运行环境

  • TensorFlow 1.12
  • CUDA 9.0
  • cuDNN 7.0

6. 工具包

安装 PyCLUE 工具包: bash pip install PyCLUE cd PyCLUE/examples/classifications python3 run_clue_task.py

7. 生成提交文件

分类任务

bash cd CLUE/baselines/models/bert bash run_classifier_xxx.sh predict

阅读理解任务

bash cd CLUE/baselines/models_pytorch/mrc_pytorch python3 test_mrc.py

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】