littlebot
Published on 2025-04-12 / 0 Visits
0

【源码】基于Python的司法大数据自动化标注与分析系统

项目简介

本项目作为南京大学软件学院“数据科学基础2021秋”大作业,致力于构建一个自动化裁判文书爬取与标注分析系统。其具备从文书网自动化爬取裁判文书的能力,能运用自然语言处理技术对文书进行自动化标注,还通过可视化界面实现用户交互。

项目的主要特性和功能

  1. 爬虫模块:借助Selenium自动化浏览案件目录获取案件超链接,用requests库模拟浏览器请求头获取案件文本,再通过BeautifulSoup解析HTML提取案件文本并保存到本地。
  2. 自动化标注模块:采用jieba分词和词性标注处理文本、去除噪声,利用正则表达式提取涉案人员、案件相关法院、地区、民族等案件文本信息。
  3. 可视化分析模块:运用PyQt5构建用户界面,提供案件类型选择、自动爬取、手动标注和查看筛选自动标注信息的功能,且能自动保存标注结果。

安装使用步骤

环境配置

  • 安装必要的Python库:pip install requests beautifulsoup4 selenium jieba paddlepaddle-tiny==1.6.1 PyQt5
  • 下载并安装与Chrome浏览器版本对应的ChromeDriver,将其放置在Python安装目录下。

运行爬虫模块

执行pkulaw_spider.py,选择爬取案件类型,爬虫会自动爬取数据并保存到指定文件夹。

运行自动化标注模块

执行light_nlp.py,对爬取到的裁判文书进行自动化标注,提取案件信息。

运行可视化分析模块

执行MyQtGUI.py,启动图形用户界面,进行案件类型选择、爬取、手动标注和查看筛选自动标注信息。

注意:需登录南京大学IP,以获得文书网的使用权。

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】