项目简介
本项目借助深度学习模型与传统算法,达成从网页提取结构化数据、处理文本段落以及进行OCR识别等功能。项目运用GPT - 2模型提取网页内容,同时提供多种文本处理工具,助力用户高效处理和分析网页及文本数据。
项目的主要特性和功能
- 网页内容提取:以GPT - 2模型为基础,输入网页的HTML源码,输出JSON格式的结构化数据,可用于正文提取、数据抓取等场景。
- 文本段落处理:自动合并被打乱的段落结构,适用于从PDF等文档提取的文本。
- OCR识别:把图像中的文本识别为HTML格式,支持图片去水印功能。
- 时间线可视化:提供历史事件的时间线可视化工具,便于用户直观对比不同时间节点的事件。
- 文本格式化工具:将文本文件内容按指定格式合并,支持自定义分隔符。
安装使用步骤
环境准备
- 确保安装Python 3.7及以上版本。
- 安装所需依赖库:
bash pip install -r requirements.txt
运行网页内容提取工具
- 将待提取的网页HTML源码保存为
input.html
。 - 运行命令:
bash python web_extractor.py --input input.html --output output.json
- 提取的结构化数据会保存到
output.json
中。
运行文本段落处理工具
- 将待处理的文本保存为
input.txt
。 - 运行命令:
bash python paragraph_merger.py --input input.txt --output output.txt
- 处理后的文本将保存到
output.txt
中。
运行OCR识别工具
- 将待识别的图像保存为
input.png
。 - 运行命令:
bash python ocr_processor.py --input input.png --output output.html
- 识别后的HTML内容会保存到
output.html
中。
运行文本格式化工具
- 将待格式化的文本保存为
yi.txt
。 - 运行命令:
bash python text_formatter.py --input yi.txt --output formatted.txt
- 格式化后的文本将保存到
formatted.txt
中。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】