littlebot

Published on 2025-04-12 / 5 Visits

0

【源码】基于Python的司法大数据自动化标注与分析系统

项目简介

本项目作为南京大学软件学院“数据科学基础2021秋”大作业，致力于构建一个自动化裁判文书爬取与标注分析系统。其具备从文书网自动化爬取裁判文书的能力，能运用自然语言处理技术对文书进行自动化标注，还通过可视化界面实现用户交互。

项目的主要特性和功能

爬虫模块：借助Selenium自动化浏览案件目录获取案件超链接，用requests库模拟浏览器请求头获取案件文本，再通过BeautifulSoup解析HTML提取案件文本并保存到本地。
自动化标注模块：采用jieba分词和词性标注处理文本、去除噪声，利用正则表达式提取涉案人员、案件相关法院、地区、民族等案件文本信息。
可视化分析模块：运用PyQt5构建用户界面，提供案件类型选择、自动爬取、手动标注和查看筛选自动标注信息的功能，且能自动保存标注结果。

安装使用步骤

环境配置

安装必要的Python库：pip install requests beautifulsoup4 selenium jieba paddlepaddle-tiny==1.6.1 PyQt5。
下载并安装与Chrome浏览器版本对应的ChromeDriver，将其放置在Python安装目录下。

运行爬虫模块

执行pkulaw_spider.py，选择爬取案件类型，爬虫会自动爬取数据并保存到指定文件夹。

运行自动化标注模块

执行light_nlp.py，对爬取到的裁判文书进行自动化标注，提取案件信息。

运行可视化分析模块

执行MyQtGUI.py，启动图形用户界面，进行案件类型选择、爬取、手动标注和查看筛选自动标注信息。

注意：需登录南京大学IP，以获得文书网的使用权。

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】