项目简介
本项目作为南京大学软件学院“数据科学基础2021秋”大作业,致力于构建一个自动化裁判文书爬取与标注分析系统。其具备从文书网自动化爬取裁判文书的能力,能运用自然语言处理技术对文书进行自动化标注,还通过可视化界面实现用户交互。
项目的主要特性和功能
- 爬虫模块:借助Selenium自动化浏览案件目录获取案件超链接,用requests库模拟浏览器请求头获取案件文本,再通过BeautifulSoup解析HTML提取案件文本并保存到本地。
- 自动化标注模块:采用jieba分词和词性标注处理文本、去除噪声,利用正则表达式提取涉案人员、案件相关法院、地区、民族等案件文本信息。
- 可视化分析模块:运用PyQt5构建用户界面,提供案件类型选择、自动爬取、手动标注和查看筛选自动标注信息的功能,且能自动保存标注结果。
安装使用步骤
环境配置
- 安装必要的Python库:
pip install requests beautifulsoup4 selenium jieba paddlepaddle-tiny==1.6.1 PyQt5
。 - 下载并安装与Chrome浏览器版本对应的ChromeDriver,将其放置在Python安装目录下。
运行爬虫模块
执行pkulaw_spider.py
,选择爬取案件类型,爬虫会自动爬取数据并保存到指定文件夹。
运行自动化标注模块
执行light_nlp.py
,对爬取到的裁判文书进行自动化标注,提取案件信息。
运行可视化分析模块
执行MyQtGUI.py
,启动图形用户界面,进行案件类型选择、爬取、手动标注和查看筛选自动标注信息。
注意:需登录南京大学IP,以获得文书网的使用权。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】