10大Java开源中文分词器的使用方法和分词效果对比--688IT编程网

10⼤Java开源中⽂分词器的使⽤⽅法和分词效果对⽐

本⽂的⽬标有两个：

1、学会使⽤10⼤Java开源中⽂分词器

2、对⽐分析10 ⼤Java开源中⽂分词器的分词效果

本⽂给出了10⼤Java开源中⽂分词的使⽤⽅法以及分词结果对⽐代码，⾄于效果哪个好，那要⽤的⼈结合⾃⼰的应⽤场景⾃⼰来判断。

10⼤Java开源中⽂分词器，不同的分词器有不同的⽤法，定义的接⼝也不⼀样，我们先定义⼀个统⼀的接⼝：

/**

* 获取⽂本的所有分词结果, 对⽐不同分词器结果

* @author 杨尚川

public interface WordSegmenter {

/**

* 获取⽂本的所有分词结果

* @param text ⽂本

* @return 所有的分词结果，去除重复

default public Set<String> seg(String text) {

return segMore(text).values().stream().Set());

}

/**

* 获取⽂本的所有分词结果

* @param text ⽂本

* @return 所有的分词结果，KEY 为分词器模式，VALUE 为分词器结果

public Map<String, String> segMore(String text);

}

从上⾯的定义我们知道，在Java中，同样的⽅法名称和参数，但是返回值不同，这种情况不可以使⽤重载。

这两个⽅法的区别在于返回值，每⼀个分词器都可能有多种分词模式，每种模式的分词结果都可能不相同，第⼀个⽅法忽略分词器模式，返回所有模式的所有不重复分词结果，第⼆个⽅法返回每⼀种分词器模式及其对应的分词结果。

在这⾥，需要注意的是我们使⽤了Java8中的新特性默认⽅法，并使⽤stream把⼀个map的value转换为不重复的集合。

下⾯我们利⽤这10⼤分词器来实现这个接⼝：

1、word分词器

@Override

public Map<String, String> segMore(String text) {

Map<String, String> map = new HashMap<>();

for(SegmentationAlgorithm segmentationAlgorithm : SegmentationAlgorithm.values()){

map.Des(), seg(text, segmentationAlgorithm));

}

return map;

}

private static String seg(String text, SegmentationAlgorithm segmentationAlgorithm) {

StringBuilder result = new StringBuilder();

for(Word word : WordSegmenter.segWithStopWords(text, segmentationAlgorithm)){

result.Text()).append(" ");

}

String();

}

2、Ansj分词器

@Override

public Map<String, String> segMore(String text) {

Map<String, String> map = new HashMap<>();

StringBuilder result = new StringBuilder();

for(Term term : BaseAnalysis.parse(text)){

result.Name()).append(" ");

}

map.put("BaseAnalysis", String());

result.setLength(0);

for(Term term : ToAnalysis.parse(text)){

result.Name()).append(" ");

}

map.put("ToAnalysis", String());

result.setLength(0);

for(Term term : NlpAnalysis.parse(text)){

result.Name()).append(" ");

}

map.put("NlpAnalysis", String());

result.setLength(0);

for(Term term : IndexAnalysis.parse(text)){

result.Name()).append(" ");

}

map.put("IndexAnalysis", String());

return map;

}

3、Stanford分词器

private static final StanfordCoreNLP CTB = new StanfordCoreNLP("StanfordCoreNLP-chinese-ctb");

private static final StanfordCoreNLP PKU = new StanfordCoreNLP("StanfordCoreNLP-chinese-pku"); private static final PrintStream NULL_PRINT_STREAM = new PrintStream(new NullOutputStream(), false); public Map<String, String> segMore(String text) {

Map<String, String> map = new HashMap<>();

map.put("Stanford Beijing University segmentation", seg(PKU, text));

map.put("Stanford Chinese Treebank segmentation", seg(CTB, text));

return map;

}

private static String seg(StanfordCoreNLP stanfordCoreNLP, String text){

PrintStream err = ;

System.setErr(NULL_PRINT_STREAM);

Annotation document = new Annotation(text);

stanfordCoreNLP.annotate(document);

List<CoreMap> sentences = (CoreAnnotations.SentencesAnnotation.class);

StringBuilder result = new StringBuilder();

for(CoreMap sentence: sentences) {

for (CoreLabel token: (CoreAnnotations.TokensAnnotation.class)) {

String word = (CoreAnnotations.TextAnnotation.class);;

result.append(word).append(" ");

}

System.setErr(err);

String();

}

4、FudanNLP分词器

private static CWSTagger tagger = null;

static{

try{

tagger = new CWSTagger("lib/fudannlp_seg.m");

tagger.setEnFilter(true);

}catch(Exception e){

e.printStackTrace();

}

@Override

public Map<String, String> segMore(String text) {

Map<String, String> map = new HashMap<>();

map.put("FudanNLP", tagger.tag(text));

return map;

}

5、Jieba分词器

private static final JiebaSegmenter JIEBA_SEGMENTER = new JiebaSegmenter(); @Override

public Map<String, String> segMore(String text) {

Map<String, String> map = new HashMap<>();

map.put("INDEX", seg(text, SegMode.INDEX));

map.put("SEARCH", seg(text, SegMode.SEARCH));

return map;

}

private static String seg(String text, SegMode segMode) {

StringBuilder result = new StringBuilder();

for(SegToken token : JIEBA_SEGMENTER.process(text, segMode)){

result.append(Token()).append(" ");

}

String();

}

6、Jcseg分词器

private static final JcsegTaskConfig CONFIG = new JcsegTaskConfig();

private static final ADictionary DIC = ateDefaultDictionary(CONFIG);

try catch的使用方法static {

CONFIG.setLoadCJKSyn(false);

CONFIG.setLoadCJKPinyin(false);

}

@Override

public Map<String, String> segMore(String text) {

Map<String, String> map = new HashMap<>();

map.put("复杂模式", segText(text, JcsegTaskConfig.COMPLEX_MODE));

map.put("简易模式", segText(text, JcsegTaskConfig.SIMPLE_MODE));

return map;

}

private String segText(String text, int segMode) {

StringBuilder result = new StringBuilder();

try {

ISegment seg = ateJcseg(segMode, new Object[]{new StringReader(text), CONFIG, DIC}); IWord word = null;

while((())!=null) {

result.Value()).append(" ");

}

} catch (Exception ex) {

throw new RuntimeException(ex);

}

String();

}

7、MMSeg4j分词器

private static final Dictionary DIC = Instance();

private static final SimpleSeg SIMPLE_SEG = new SimpleSeg(DIC);

private static final ComplexSeg COMPLEX_SEG = new ComplexSeg(DIC);

private static final MaxWordSeg MAX_WORD_SEG = new MaxWordSeg(DIC);

@Override

public Map<String, String> segMore(String text) {

Map<String, String> map = new HashMap<>();

map.put(Class().getSimpleName(), segText(text, SIMPLE_SEG));

map.put(Class().getSimpleName(), segText(text, COMPLEX_SEG));

map.put(MAX_Class().getSimpleName(), segText(text, MAX_WORD_SEG));

return map;

}

private String segText(String text, Seg seg) {

StringBuilder result = new StringBuilder();

MMSeg mmSeg = new MMSeg(new StringReader(text), seg);

try {

Word word = null;

while((())!=null) {

result.String()).append(" ");

}

} catch (IOException ex) {

throw new RuntimeException(ex);

}

String();

}

8、IKAnalyzer分词器

@Override

public Map<String, String> segMore(String text) {

Map<String, String> map = new HashMap<>();

map.put("智能切分", segText(text, true));

map.put("细粒度切分", segText(text, false));

return map;

}

private String segText(String text, boolean useSmart) {

StringBuilder result = new StringBuilder();

IKSegmenter ik = new IKSegmenter(new StringReader(text), useSmart);

try {

Lexeme word = null;

while((())!=null) {

result.LexemeText()).append(" ");

}

} catch (IOException ex) {

throw new RuntimeException(ex);

}

String();

}

9、Paoding分词器

private static final PaodingAnalyzer ANALYZER = new PaodingAnalyzer();

@Override

public Map<String, String> segMore(String text) {

Map<String, String> map = new HashMap<>();

map.put("MOST_WORDS_MODE", seg(text, PaodingAnalyzer.MOST_WORDS_MODE));

map.put("MAX_WORD_LENGTH_MODE", seg(text, PaodingAnalyzer.MAX_WORD_LENGTH_MODE)); return map;

}

private static String seg(String text, int mode){

ANALYZER.setMode(mode);

StringBuilder result = new StringBuilder();

try {

Token reusableToken = new Token();

TokenStream stream = kenStream("", new StringReader(text));

Token token = null;

while((token = (reusableToken)) != null){

result.()).append(" ");

}

} catch (Exception ex) {

throw new RuntimeException(ex);

}

String();

}

10、smartcn分词器

688IT编程网

10大Java开源中文分词器的使用方法和分词效果对比

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

10大Java开源中文分词器的使用方法和分词效果对比

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式