项目简介
本项目是基于Keras和BERT的中文命名实体识别(NER)系统。借助预训练的BERT模型开展特征提取工作,并结合Keras框架实现对中文文本里命名实体的识别与分类。该系统支持BERT、RoBERTa、MacBERT和BERT - wwm等多种预训练模型,可适用于医疗领域的肺结节数据集。
项目的主要特性和功能
- 多模型支持:支持BERT、RoBERTa、MacBERT和BERT - wwm等多种预训练模型。
- 数据处理:提供数据预处理脚本,涵盖数据加载、转换和统计功能。
- 模型训练:提供训练脚本,支持模型的训练和调优。
- 模型评估:提供评估脚本,输出实体识别的准确率、召回率和F1分数。
- 预测功能:提供预测脚本,支持对新文本的命名实体识别。
安装使用步骤
假设用户已经下载了本项目的源码文件,按以下步骤操作:
安装依赖
- 安装Python 3.6或更高版本。
- 使用pip安装项目依赖:
bash pip install -r requirements.txt
数据准备
- 准备训练和测试数据集,格式为BIO格式。
- 使用
DataProcess/load_data.py
生成label2id.txt
文件。
训练模型
- 修改
config/config.py
中的参数,如MAX_SEQ_LEN
。 - 下载预训练模型权重,并放置在相应目录。
- 运行
train.py
进行模型训练:bash python train.py
评估模型
- 运行
evaluate.py
进行模型评估:bash python evaluate.py
- 查看评估报告,了解模型性能。
预测
- 运行
predict.py
进行预测:bash python predict.py
- 输入待预测的文本,输出预测的命名实体。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】