项目简介
本项目是基于Python的论坛数据爬取与存储系统,目标是从论坛中爬取帖子数据并存储到本地文件。具备登录论坛、获取Cookie、爬取网页内容、存储数据等功能,运用多线程或协程提高数据爬取效率,还设有测试模块用于测试代码性能与正确性。
项目的主要特性和功能
- 论坛数据爬取:借助Python脚本完成论坛数据爬取,支持多线程或协程加速。
- Cookie管理:登录论坛后获取Cookie,用于后续请求识别用户身份。
- 数据存储:将爬取数据保存到本地文件,支持Excel和HTML格式。
- 测试模块:提供测试代码,测试代码性能和正确性。
安装使用步骤
- 解压源码文件:把下载的源码文件解压到本地目录。
- 运行脚本:
- 运行
storePosts.py
模块,程序会拉取成长贴存储到./scalers/scalersForumPost
文件夹下。 - 运行
readPosts.py
模块,程序会从./scalers/scalersForumPost
文件夹下读取网页分析存储到对应的Excel中。
- 运行
- 查看和完善代码:查看源代码,比对运行结果,自行完善程序。
- 记录问题:若有问题,直接把问题写在对应文件里,如
/doc/shawn/疑问.md
。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】