java开源自然语义识别_自然语义处理--688IT编程网

java开源⾃然语义识别_⾃然语义处理

斯坦福⼤学⾃然语⾔处理组是世界知名的NLP研究⼩组，他们提供了⼀系列开源的Java⽂本分析⼯具，包括分词器(Word Segmenter)，词性标注⼯具(Part-Of-Speech Tagger)，命名实体识别⼯具(Named Entity Recognizer)，句法分析器(Parser)等，可喜的事，他们还为这些⼯具训练了相应的中⽂模型，⽀持中⽂⽂本处理。在使⽤NLTK的过程中，发现当前版本的NLTK已经提供了相应的斯坦福⽂本处理⼯具接⼝，包括词性标注，命名实体识别和句法分析器的接⼝，不过可惜的是，没有提供分词器的接⼝。在google⽆果和阅读了相应的代码后，我决定照猫画虎为NLTK写⼀个斯坦福中⽂分词器接⼝，这样可以⽅便的在Python中调⽤斯坦福⽂本处理⼯具。

java调用python模型

sudo apt-get install default-jre

sudo apt-get install default-jdk

最后，当然是最重要的，你需要下载斯坦福分词器的相应⽂件，包括源代码，模型⽂件，词典⽂件等。注意斯坦福分词器并不仅仅⽀持中⽂分词，还⽀持阿拉伯语的分词，需要下载的zip打包⽂件是这个: Download Stanford Word Segmenter version 2014-08-27，下载后解压。

准备⼯作就绪后，我们⾸先考虑的是在nltk源代码⾥的什么地⽅来添加这个接⼝⽂件。在nltk源代码包下，

斯坦福词性标注器和命名实体识别⼯具的接⼝⽂件是这个：nltk/tag/stanford.py ，⽽句法分析器的接⼝⽂件是这个：nltk/parse/stanford.py , 虽然在nltk/tokenize/⽬录下有⼀个stanford.py⽂件，但是仅仅提供了⼀个针对英⽂的tokenizer⼯具PTBTokenizer的接⼝，没有针对斯坦福分词器的接⼝，于是我决定在nltk/tokenize下添加⼀个stanford_segmenter.py⽂件，作为nltk斯坦福中⽂分词器的接⼝⽂件。NLTK中的这些接⼝利⽤了Linux 下的管道(PIPE)机制和subprocess模块，这⾥直接贴源代码了，感兴趣的同学可以⾃⾏阅读:

继续阅读 →

688IT编程网

java开源自然语义识别_自然语义处理

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

java开源自然语义识别_自然语义处理

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式