项目简介
本项目致力于从指定的PDF文件里提取并解析学科能力测验的题目内容。它能够精准解析“Wisdome”团队要求的英语学科能力测验试题,同时具备解析不同学年度试题的兼容性。项目由三个Python文件构成,分别为main.py
、process.py
和output.py
。
项目的主要特性和功能
- PDF文本提取:从PDF文件中提取文本内容。
- 文本清洗与解析:对提取的文本进行清洗,并依据不同题型(如词汇题、综合测验题、文意选填题等)进行解析。
- 结构化数据输出:将解析后的题目和选项以结构化方式输出或保存。
安装使用步骤
- 环境准备:确保已经安装Python环境以及必要的库,例如
pdfplumber
。 - 文件放置:把需要解析的学科能力测验PDF文件存放到
pdf
文件夹中。 - 运行程序:在终端或命令提示符中执行
python main.py
。 - 获取结果:程序运行结束后,可在
json
文件夹中获取结构化的数据。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】