项目简介
本项目是基于Java的网络爬虫和数据分析项目,主要实现从互联网抓取唐诗数据,完成数据的采集、清洗、存储和解析,最终分析出各位诗人的创作数量和常用词汇,并通过柱状图展示诗人创作数量,词云展示诗人常用词汇。
项目的主要特性和功能
- 数据抓取:借助HtmlUnit库从网页抓取唐诗数据。
- 数据清洗与存储:利用Ansj库进行文本分词和解析,通过Druid连接池操作数据库,将清洗后的数据存入数据库。
- 数据分析:分析诗人创作数量和常用词汇,生成柱状图和词云。
- Web服务:采用Sparkjava框架提供Web服务,展示分析结果。
安装使用步骤
环境准备
- 安装Java开发环境(JDK 8或更高版本)。
- 安装Maven构建工具。
- 安装IDEA开发工具(可选)。
复制项目
bash
cd poetry_analyse
配置数据库
- 在
config.properties
文件中配置数据库连接信息。 - 创建数据库表结构,确保数据库连接正常。
编译和运行
bash
mvn clean install
java -jar target/poetry_analyse.jar
访问Web服务
启动Web服务后,访问http://localhost:4567
查看分析结果。
运行爬虫
在命令行中运行以下命令启动爬虫:
bash
java -jar target/poetry_analyse.jar run-crawler
按照上述步骤操作,即可成功运行唐诗分析系统,查看诗人创作数量和常用词汇的分析结果。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】