项目简介
本项目是基于C++实现的轻量化搜索引擎,通过离线处理与在线查询结合,能快速处理大量文本数据,提供高效的文本检索和实时查询服务。
项目的主要特性和功能
离线处理
- 将本地文件格式化为XML格式的网页库。
- 生成偏移库和倒排索引,以支持高效的关键词检索。
- 运用TopK算法进行网页去重,保障数据的高效与准确。
- 采用TF - IDF算法计算词语权重,优化搜索结果相关性。
在线查询
- 基于TCP协议的查询服务器,支持多线程并发处理。
- 利用缓存机制提高查询效率,确保系统高性能。
- 支持实时查询与结果返回,提供友好交互体验。
数据管理
- 使用Trie字典树存储倒排索引,提升数据检索速度。
- 支持配置文件管理,方便用户自定义系统参数。
安装使用步骤
下载源码
从项目仓库下载源码文件到本地。
配置文件修改
- 打开
conf/my.conf
文件,依据本地环境将文件路径修改为绝对路径。 - 修改
include/WordSegmentation.h
中的路径为当前目录下的绝对路径。
编译项目
进入项目根目录,执行make
命令进行编译。
运行项目
编译完成后,执行./main
启动搜索引擎服务。
查询使用
启动服务后,可通过客户端发送查询请求,服务器将返回相应的查询结果。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】