littlebot
Published on 2025-04-16 / 4 Visits
0

【源码】基于Python的新闻正文提取工具

项目简介

这是一个用于从网页中提取新闻正文的Python模块。它能够获取网页的HTML内容,解析并提取新闻的标题、发布时间和正文内容,并且兼容Python 2.x和Python 3.x。

项目的主要特性和功能

  1. 兼容性强:可在Python 2.x和Python 3.x上运行。
  2. 功能丰富:能够提取新闻标题、发布时间和正文内容。
  3. 灵活使用:可以作为独立的工具包引用,也能作为其他项目的子模块使用,并直接返回提取的标题、发布时间和正文内容。

安装使用步骤

安装依赖

  1. 解压下载的源码文件,并进入源码目录:cd getContent
  2. 使用命令 pip install -r requirements.txt 安装项目需要的依赖库。

使用方法

直接使用

  1. 打开 articleExtractor.py 文件,修改 url 字段为需要抓取的网页URL。
  2. 在终端运行 python articleExtractor.py,即可看到提取的新闻信息。

作为子模块使用

  1. 将项目代码复制到你的项目中。
  2. 在同级目录创建一个测试脚本,并加入以下代码: ```python import requests from getContent.articleExtractor import *

url = '需要抓取的网页url' htmlCode = requests.get(url).text msg = getResult(url, htmlCode) print(msg['newsTitle']) # 打印新闻标题 print('='100) # 打印分隔线 print(msg['publicTime']) # 打印发布时间 print('='100) # 打印分隔线 print(msg['article']) # 打印新闻正文内容 print('='*100) # 打印分隔线结束标识 `` 3. 在终端运行python demo.py`,即可看到提取的新闻信息。

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】