项目简介
本项目聚焦基于BERT等预训练模型的中文句子嵌入技术,构建了一套完整工具链,覆盖数据准备、模型训练、评估、导出及推理全流程。借助多种基线模型与实验设置,支持无监督学习、有监督学习、知识蒸馏和模型导出等功能,助力研究者开展句子嵌入相关实验与研究。
项目的主要特性和功能
- 基线模型实现:提供基于BERT的基线模型,如BERT - base和BERT - whitening,可生成中文句子嵌入向量。
- 多种损失函数:支持SoftmaxLoss、LogisticLoss、MoCoMultipleNegativesRankingLoss和CosineCircleLoss等不同损失函数,满足不同任务需求。
- 模型蒸馏:具备模型蒸馏工具和流程,能压缩预训练大模型,得到轻量级模型。
- 模型导出:支持将训练好的模型导出为ONNX格式,便于在不同框架和平台使用。
- 推理和基准测试:提供基于Flask的推理服务器处理文本编码和相似性计算请求,还有基准测试脚本评估模型性能。
- 可视化工具:提供数据相关性分析和模型信息查看工具,助用户直观了解数据分布和模型特性。
安装使用步骤
1. 环境准备
- 安装Python 3.7或更高版本。
- 安装依赖库:
sentence_transformers
、transformers
、pandas
、seaborn
、matplotlib
、Flask
。
2. 数据准备
- 准备训练用的文本数据和相应标签(可选)。
- 准备评估用的文本数据。
3. 模型训练
- 选择合适的基线模型。
- 选择适当的损失函数。
- 设定训练参数,如学习率、批次大小等。
- 执行训练脚本,开始模型训练。
4. 模型评估
- 加载训练好的模型。
- 准备评估数据集。
- 执行评估脚本,计算模型的性能指标。
5. 模型导出
- 导出模型为ONNX格式。
- 配置模型导出参数。
- 执行导出脚本,将模型保存到指定路径。
6. 推理和基准测试
- 启动推理服务器。
- 发送文本编码或相似性计算请求。
- 使用基准测试脚本评估模型性能。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】