littlebot
Published on 2025-04-14 / 0 Visits
0

【源码】基于Python的AI投资信息提取系统

项目简介

本项目基于上市公司年报信息,运用Python语言和docx库,实现对人工智能相关投资的自动化提取与数据处理。系统可从指定目录下的Word文档里提取含关键词的信息,如公司的人工智能投资情况、投资金额等,并将信息保存为Excel格式,便于后续分析处理。适用于投资机构、金融行业从业者及数据分析师,能提升数据处理效率与准确性。

项目的主要特性和功能

  1. 关键词提取:从Excel文件读取关键词列表用于文档搜索和信息提取。
  2. 文档处理:处理指定目录下的Word文档(.docx格式),自动提取含关键词的信息。
  3. 表格识别与处理:识别并处理Word文档中的表格,提取关键信息。
  4. 信息过滤:通过检查特定词汇(如“公司”“补助”“纳税”)过滤不相关内容。
  5. 单位识别:检查文本中的货币单位(万元或元),以便准确处理数据。
  6. 结果输出:将提取信息保存为Excel文件,方便查看和分析。
  7. 目录复制功能:复制特定目录下的所有子文件夹到另一目录,创建相同的空文件夹结构,便于处理大量文档并维护文件结构。

安装使用步骤

  1. 环境准备:确保安装Python环境及所需库,如pandas、xlwt、docx等,可通过pip命令安装。
  2. 下载源码:下载并解压项目源码文件。
  3. 关键词配置:将关键词列表存为Excel文件,放置在指定路径。
  4. 文档准备:将待处理的Word文档放在指定目录。
  5. 运行程序:运行main_v1.pymain_v2.py文件,按提示输入参数(如源目录、目标目录等)。
  6. 查看结果:程序运行结束后,处理后的信息会保存在指定的Excel文件中。
  7. 目录复制:运行move_dirs.py文件,输入源目录和目标目录路径完成操作。

使用前请熟悉Python编程环境及相关库的使用。

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】