littlebot
Published on 2025-04-12 / 2 Visits
0

【源码】基于Java的Jcseg中文分词器

项目简介

Jcseg是基于mmseg算法的轻量级中文分词器,具备关键字提取、关键短语提取、关键句子提取和文章自动摘要等功能。它提供基于Jetty的web服务器,便于各大语言通过HTTP调用,还提供了最新版本的Lucene、Solr、Elasticsearch的分词接口。

项目的主要特性和功能

  1. 中文分词:支持简易、复杂、检测、检索、分隔符和NLP六种切分模式。
  2. 关键字提取:基于TextRank算法提取关键字。
  3. 关键短语提取:基于TextRank算法提取关键短语。
  4. 关键句子提取:基于TextRank算法提取关键句子。
  5. 文章自动摘要:基于BM25+TextRank算法生成文章摘要。
  6. 自动词性标注:基于词库+统计歧义去除计划。
  7. 命名实体标注:支持电子邮件、网址、大陆手机号码等多种实体识别。
  8. Restful API:嵌入Jetty提供高性能server模块,有全部功能的http接口,标准化json输出格式,方便各种语言客户端调用。

安装使用步骤

1. 下载与编译

  • 下载Jcseg源码。
  • 使用Maven编译: bash cd jcseg mvn clean install

2. 配置Jcseg

在Jcseg根目录下找到jcseg.properties文件,根据需求配置分词参数,如最大匹配词长、是否开启中文人名识别、是否追加拼音、是否追加同义词等。

3. 启动Jcseg服务器

在Jcseg根目录下运行以下命令启动服务器: bash java -jar jcseg-server-{version}.jar ./jcseg-server.properties

4. 使用Jcseg分词器

通过HTTP接口调用Jcseg分词器,例如: bash curl http://localhost:1990/tokenizer/tokenizer_instance?text=研究生命起源

5. 集成到Lucene、Solr、Elasticsearch

  • 将Jcseg的jar包复制到Lucene、Solr或Elasticsearch的类库目录中。
  • 在Lucene中使用JcsegAnalyzer: java Analyzer analyzer = new JcsegAnalyzer(JcsegTaskConfig.COMPLEX_MODE);
  • 在Solr中配置Jcseg分词器: xml <fieldtype name="textComplex" class="solr.TextField"> <analyzer> <tokenizer class="org.lionsoul.jcseg.analyzer.JcsegTokenizerFactory" mode="complex"/> </analyzer> </fieldtype>
  • 在Elasticsearch中配置Jcseg分词器: yaml index: analysis: analyzer: jcseg_complex: type: org.lionsoul.jcseg.elasticsearch.index.analysis.JcsegComplexAnalyzerProvider

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】