项目简介
本项目是一个基于Python和PyTorch的语义理解标注系统,借助深度学习技术对数据进行处理和分析,从而实现语义理解相关任务。
项目的主要特性和功能
- 支持参数自定义,可通过命令行修改运行参数。
- 拥有完善的数据处理流程,涵盖词表构建、数据读取、批处理等。
- 提供baseline模型,便于进行语义理解任务的训练和测试。
- 支持预训练语言模型,可结合多种预训练模型提升性能。
安装使用步骤
环境创建
bash
conda create -n slu python=3.6
source activate slu
pip install torch==1.7.1
若需要加载预训练模型,还需执行以下操作:
bash
git lfs install
git clone https://huggingface.co/bert-base-chinese(可替换为其他模型)
然后修改arg_parser.add_argument('--pre_path', default='bert-base-chinese')
里的default
,以及utils/example
中.pycls.tokenizer = AutoTokenizer.from_pretrained('bert-base-chinese')
括号里的模型名称。
运行项目
- 训练:在根目录下运行
bash python scripts/slu_baseline.py
- 测试:加载完预训练模型之后,在根目录下运行
bash python scripts/test.py
推荐工具库
transformers
:使用预训练语言模型的工具库,官网为https://huggingface.co/ 。nltk
:强力的NLP工具库,官网为https://www.nltk.org/ 。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】