项目简介
本项目是基于Python和Scrapy框架构建的视频数据分析系统,专注于分析Bilibili网站的视频数据。借助集群式爬虫技术,成功爬取视频Av号从1至51746026的全部视频信息,并对这些数据开展了细致的分析与统计。
项目的主要特性和功能
- 集群式爬虫:运用Redis管理递增的Av号,降低网络堵塞时的数据遗漏,支持多台机器同时进行数据爬取。
- 数据清洗与统计:对爬取的数据进行清洗和统计,生成视频状态、质量、分类等详细分析报告。
- 视频分类分析:依据视频分类标签统计各分类的视频数量,并生成年度变化图。
- 视频数量年度变化分析:分析视频数量随年份的变化趋势,展示视频数量的增长情况。
- 视频相关数量排名:列出投稿数量最多的前50名用户,以及收藏、分享、弹幕和投币数量最多的视频。
- 视频标题分词分析:该功能代码未完成,暂未实现。
安装使用步骤
- 确保已下载本项目的源码文件。
- 安装依赖:保证环境中已安装Python 3.7.3、Scrapy 1.5.2、Redis 5.0.3、MongoDB 4.0等必要的依赖库和工具。
- 运行爬虫:运行爬虫脚本,开始爬取Bilibili视频数据。
- 数据分析:运行数据分析脚本,对爬取的数据进行清洗和统计。
- 查看报告:依据生成的报告和图表,进行视频数据的分析。
注意:由于爬取的数据量较大,运行爬虫和数据分析脚本可能耗时较长,请确保在合法合规的前提下使用本项目。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】