项目简介
本项目的目标是自动化判断数据仓库接入的数据表中各字段的敏感情况。鉴于当前基于关键词匹配的方案准确率和覆盖率较低,本项目运用基于Wide & Deep网络构建的识别模型,F1 - Score超过95%,有效提高了敏感字段识别的准确性和覆盖率。
项目的主要特性和功能
- 数据预处理:运用中文和英文分词器对数据库字段名称及其注释进行分词,生成用于模型训练的文本特征。
- 模型训练:采用Wide & Deep网络结构,提取传统特征构建Wide网络,针对文本特征使用Char Embedding + CNN构建Deep网络,实现敏感字段识别。
- 模型应用:通过Flask - RESTful框架构建API接口,接收客户端请求以开展敏感字段预测。
- 性能监控:借助UMP工具模块,对应用程序中敏感字段处理的性能进行监控,记录执行状态和执行时间等信息。
安装使用步骤
- 环境准备:确保已安装Python环境,并安装pandas、sklearn、tensorflow、Flask等项目所需依赖库。
- 数据准备:准备训练数据集,包含数据库表名、字段名、字段注释等元信息及字段值示例数据。
- 模型训练:运行
train.py
脚本,训练WideDeepCharCNN模型。 - 服务部署:运行
server.py
脚本,启动Flask服务器,提供用于敏感字段预测的API接口。 - 测试验证:运行
test.py
脚本,验证模型性能。 - 监控与日志:通过UMP工具模块监控应用程序中敏感字段处理的性能,并生成日志记录。
注意:此项目依赖于外部服务,如CoreNLP服务器(用于中文分词)和UMP监控平台,需相应配置才能正常工作。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】