项目简介
Jcseg是基于mmseg算法的轻量级中文分词器,具备关键字提取、关键短语提取、关键句子提取和文章自动摘要等功能。它提供基于Jetty的web服务器,便于各大语言通过HTTP调用,还提供了最新版本的Lucene、Solr、Elasticsearch的分词接口。
项目的主要特性和功能
- 中文分词:支持简易、复杂、检测、检索、分隔符和NLP六种切分模式。
- 关键字提取:基于TextRank算法提取关键字。
- 关键短语提取:基于TextRank算法提取关键短语。
- 关键句子提取:基于TextRank算法提取关键句子。
- 文章自动摘要:基于BM25+TextRank算法生成文章摘要。
- 自动词性标注:基于词库+统计歧义去除计划。
- 命名实体标注:支持电子邮件、网址、大陆手机号码等多种实体识别。
- Restful API:嵌入Jetty提供高性能server模块,有全部功能的http接口,标准化json输出格式,方便各种语言客户端调用。
安装使用步骤
1. 下载与编译
- 下载Jcseg源码。
- 使用Maven编译:
bash cd jcseg mvn clean install
2. 配置Jcseg
在Jcseg根目录下找到jcseg.properties
文件,根据需求配置分词参数,如最大匹配词长、是否开启中文人名识别、是否追加拼音、是否追加同义词等。
3. 启动Jcseg服务器
在Jcseg根目录下运行以下命令启动服务器:
bash
java -jar jcseg-server-{version}.jar ./jcseg-server.properties
4. 使用Jcseg分词器
通过HTTP接口调用Jcseg分词器,例如:
bash
curl http://localhost:1990/tokenizer/tokenizer_instance?text=研究生命起源
5. 集成到Lucene、Solr、Elasticsearch
- 将Jcseg的jar包复制到Lucene、Solr或Elasticsearch的类库目录中。
- 在Lucene中使用JcsegAnalyzer:
java Analyzer analyzer = new JcsegAnalyzer(JcsegTaskConfig.COMPLEX_MODE);
- 在Solr中配置Jcseg分词器:
xml <fieldtype name="textComplex" class="solr.TextField"> <analyzer> <tokenizer class="org.lionsoul.jcseg.analyzer.JcsegTokenizerFactory" mode="complex"/> </analyzer> </fieldtype>
- 在Elasticsearch中配置Jcseg分词器:
yaml index: analysis: analyzer: jcseg_complex: type: org.lionsoul.jcseg.elasticsearch.index.analysis.JcsegComplexAnalyzerProvider
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】