项目简介
本项目基于中文语言理解测评基准 (CLUE),提供一系列代表性的数据集、基准(预训练)模型、语料库和排行榜。CLUE 旨在通过选择具有代表性的任务和数据集,覆盖不同任务类型、数据量和难度,以此评估和促进中文自然语言理解的发展。
项目的主要特性和功能
数据集
涵盖 AFQMC、TNEWS、IFLYTEK 等多种类型数据集,涉及语义相似度、新闻分类、长文本分类等不同任务。
预训练模型
包含 BERT-base、BERT-wwm-ext、ERNIE-base 等多种预训练模型,可用于不同的自然语言处理任务。
语料库
有新闻语料、社区互动语料、维基百科语料和评论数据语料,为模型训练提供丰富的数据支持。
排行榜
提供分类任务和阅读理解任务中多个模型的评分,方便评估模型性能。
安装使用步骤
假设用户已下载本项目的源码文件。
1. 复制项目
bash
2. 进入相应的目录
分类任务
bash
cd CLUE/baselines/models/bert
cd CLUE/baselines/models_pytorch/classifier_pytorch
阅读理解任务
bash
cd CLUE/baselines/models_pytorch/mrc_pytorch
3. 运行对应任务的脚本
使用 GPU 方式运行脚本,会自动下载模型和任务数据并开始运行。
bash
bash run_classifier_xxx.sh
例如,运行以下命令会开始 iflytek 任务的训练:
bash
bash run_classifier_iflytek.sh
4. TPU 使用方式(可选)
bash
cd CLUE/baselines/models/bert/tpu
bash run_classifier_tnews.sh
注意:需要更换脚本中的 gs 路径和 TPU IP。
5. 运行环境
- TensorFlow 1.12
- CUDA 9.0
- cuDNN 7.0
6. 工具包
安装 PyCLUE 工具包:
bash
pip install PyCLUE
cd PyCLUE/examples/classifications
python3 run_clue_task.py
7. 生成提交文件
分类任务
bash
cd CLUE/baselines/models/bert
bash run_classifier_xxx.sh predict
阅读理解任务
bash
cd CLUE/baselines/models_pytorch/mrc_pytorch
python3 test_mrc.py
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】