项目简介
本项目基于上市公司年报信息,运用Python语言和docx库,实现对人工智能相关投资的自动化提取与数据处理。系统可从指定目录下的Word文档里提取含关键词的信息,如公司的人工智能投资情况、投资金额等,并将信息保存为Excel格式,便于后续分析处理。适用于投资机构、金融行业从业者及数据分析师,能提升数据处理效率与准确性。
项目的主要特性和功能
- 关键词提取:从Excel文件读取关键词列表用于文档搜索和信息提取。
- 文档处理:处理指定目录下的Word文档(.docx格式),自动提取含关键词的信息。
- 表格识别与处理:识别并处理Word文档中的表格,提取关键信息。
- 信息过滤:通过检查特定词汇(如“公司”“补助”“纳税”)过滤不相关内容。
- 单位识别:检查文本中的货币单位(万元或元),以便准确处理数据。
- 结果输出:将提取信息保存为Excel文件,方便查看和分析。
- 目录复制功能:复制特定目录下的所有子文件夹到另一目录,创建相同的空文件夹结构,便于处理大量文档并维护文件结构。
安装使用步骤
- 环境准备:确保安装Python环境及所需库,如pandas、xlwt、docx等,可通过pip命令安装。
- 下载源码:下载并解压项目源码文件。
- 关键词配置:将关键词列表存为Excel文件,放置在指定路径。
- 文档准备:将待处理的Word文档放在指定目录。
- 运行程序:运行
main_v1.py
或main_v2.py
文件,按提示输入参数(如源目录、目标目录等)。 - 查看结果:程序运行结束后,处理后的信息会保存在指定的Excel文件中。
- 目录复制:运行
move_dirs.py
文件,输入源目录和目标目录路径完成操作。
使用前请熟悉Python编程环境及相关库的使用。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】