【源码】基于Python的敏感字段自动识别系统

项目简介

本项目的目标是自动化判断数据仓库接入的数据表中各字段的敏感情况。鉴于当前基于关键词匹配的方案准确率和覆盖率较低，本项目运用基于Wide & Deep网络构建的识别模型，F1 - Score超过95%，有效提高了敏感字段识别的准确性和覆盖率。

数据预处理：运用中文和英文分词器对数据库字段名称及其注释进行分词，生成用于模型训练的文本特征。
模型训练：采用Wide & Deep网络结构，提取传统特征构建Wide网络，针对文本特征使用Char Embedding + CNN构建Deep网络，实现敏感字段识别。
模型应用：通过Flask - RESTful框架构建API接口，接收客户端请求以开展敏感字段预测。
性能监控：借助UMP工具模块，对应用程序中敏感字段处理的性能进行监控，记录执行状态和执行时间等信息。

注意：此项目依赖于外部服务，如CoreNLP服务器（用于中文分词）和UMP监控平台，需相应配置才能正常工作。

点击下载 【提取码: 4003】【解压密码: www.makuang.net】