项目简介
这是一个用于从网页中提取新闻正文的Python模块。它能够获取网页的HTML内容,解析并提取新闻的标题、发布时间和正文内容,并且兼容Python 2.x和Python 3.x。
项目的主要特性和功能
- 兼容性强:可在Python 2.x和Python 3.x上运行。
- 功能丰富:能够提取新闻标题、发布时间和正文内容。
- 灵活使用:可以作为独立的工具包引用,也能作为其他项目的子模块使用,并直接返回提取的标题、发布时间和正文内容。
安装使用步骤
安装依赖
- 解压下载的源码文件,并进入源码目录:
cd getContent
。 - 使用命令
pip install -r requirements.txt
安装项目需要的依赖库。
使用方法
直接使用
- 打开
articleExtractor.py
文件,修改url
字段为需要抓取的网页URL。 - 在终端运行
python articleExtractor.py
,即可看到提取的新闻信息。
作为子模块使用
- 将项目代码复制到你的项目中。
- 在同级目录创建一个测试脚本,并加入以下代码: ```python import requests from getContent.articleExtractor import *
url = '需要抓取的网页url'
htmlCode = requests.get(url).text
msg = getResult(url, htmlCode)
print(msg['newsTitle']) # 打印新闻标题
print('='100) # 打印分隔线
print(msg['publicTime']) # 打印发布时间
print('='100) # 打印分隔线
print(msg['article']) # 打印新闻正文内容
print('='*100) # 打印分隔线结束标识
``
3. 在终端运行
python demo.py`,即可看到提取的新闻信息。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】