项目简介
本项目是一个个人的NLP实验算法库和笔记库,专注于自然语言处理任务。目前统一使用BERT模型对词语和句子进行编码,主要开发工具为HuggingFace Transformers和PyTorch - Lightning,暂时仅考虑中文场景,未来会进行扩展。
项目的主要特性和功能
- 多种NLP算法实现:实现了SimCSE、ESimCSE、RocketQA系列、CasRel、TPLinker、OneRel、PRGC、GPLinker等多种算法论文中的模型,可用于句子嵌入、关系抽取、事件提取等任务。
- 模块化设计:通过Python的模块和包结构组织代码,包含
core
核心模块、datasets
数据集说明、docs
相关笔记、examples
训练示例、test
测试样例和outputs
模型输出结果等文件夹,代码易于阅读、理解和维护。 - 功能工具丰富:
core
模块提供了基础模型类、条件层归一化、数据预处理、文件读写、性能度量、动量编码器结构、向量对计算等多种实用工具。
安装使用步骤
环境搭建
本项目的Python版本是3.8,后续只会测试更高的Python版本。在项目根目录下,执行以下命令安装依赖:
shell
pip install -r requirements.txt
建议将HuggingFace Transformers的缓存路径写进bashrc
或者zshrc
中(Windows电脑加入环境变量中,并开启开发者模式),可参考 cache setup 和 cache management :
shell
export HUGGINGFACE_HUB_CACHE=""
export TRANSFORMERS_CACHE=""
export HF_DATASETS_CACHE=""
使用方法
- 项目的示例脚本存放在
examples
文件夹中,可根据需要运行不同任务的脚本,如句子嵌入、关系抽取、事件提取等。 - 测试脚本存放在
test
文件夹中,可用于验证项目各个模块和函数的功能和正确性。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】