使⽤StanfordParser进⾏句法分析
⼀、句法分析
1、定义
句法分析判断输⼊的单词序列(⼀般为句⼦)的构成是否合乎给定的语法,并通过构造句法树来确定句⼦的结构以及各层次句法成分之间的关系,即确定⼀个句⼦中的哪些词构成⼀个短语,哪些词是动词的主语或宾语等问题。
2、主流技术
基于统计的⽅法是现阶段句法分析的主流技术。常见的概率句法分析模型包括概率上下⽂⽆关模型、基于历史的句法分析模型、层次化渐进式的句法分析模型和中⼼词驱动的句法分析模型。综合多种模型⽽实现的句法分析器种类繁多,⽬前在开源中⽂句法分析器中⽐较具有代表性有Stanford parser和Berkeley parser。前者基于因⼦模型,后者基于⾮词汇化分析模型。
3、应⽤领域
随着⾃然语⾔应⽤的⽇益⼴泛,特别是对⽂本处理需求的进⼀步增加,句法分析的作⽤愈加突出,它在机器翻译、信息检索与抽取、问答系统、语⾳识别等研究领域中都有重要的应⽤价值。
⼆、Stanford Parser
1、简介
Stanford parser 是由斯坦福⼤学⾃然语⾔处理⼩组开发的开源句法分析器,是基于概率统计句法分析的⼀个 JAVA 实现。分析器⽬前提供了5个中⽂⽂法。
2、优点
①既是⼀个⾼度优化的概率上下⽂⽆关⽂法和词汇化依存分析器,也是⼀个词汇化上下⽂⽆关⽂法分析器。
②基于权威可靠的宾州树库(Penn Treebank)作为分析器的训练数据,⽬前已⾯向英⽂、中⽂、德⽂、阿拉伯⽂、意⼤利⽂、保加利亚⽂、葡萄⽛⽂等语种提供句法分析功能。
③提供了多样化的分析输出形式,除句法分析树输出外,还⽀持分词和词性标注⽂本输出、短语结构树输出、斯坦福依存关系输出等。
④分析器内置了分词⼯具、词性标注⼯具、基于⾃定义树库的分析器训练⼯具等句法分析辅助程序。
⑤通过设置不同的运⾏参数,可实现句法分析模型选择、⾃定义词性标记集、⽂本编码设置和转换、语法关系导⼊和导出等功能的定制。
三、使⽤Stanford Parser教程
javaparser野外(⼀)IDE中运⾏
1. 在Stanford官⽅⽹站下载最新安装包
2. 解压下载后的zip包stanford-parser-full-2015-12-09.zip,⾥⾯会有数据,依赖包以及demo,还有相关的source code和java doc
3. 使⽤Eclipse创建项⽬,名为stanfordparser,在build path中引⼊stanford-parser-3.6.0-models.jar,stanford-parser.jar,slf4j-simple.jar,slf4j-api.jar
4.从步骤2中解压的⽂件中把ParserDemo.java和ParserDemo2.java和data⽂件夹都复制到Eclipse项⽬
中。
5. 以ParserDemo.java为例,在Eclipse中右键点击ParserDemo.java⽂件,设置运⾏参数Arguments为:
edu/stanford/nlp/models/lexparser/
(注意gz和data之间有个空格,空格前是第⼀个参数,空格后是第⼆个参数。)
第⼀个参数是PCFG路径,models⾥已经提供,第⼆个参数是待分析的数据⽂件,在data⽂件夹中。
6.运⾏,输出的结果为:
(⼆)命令⾏中运⾏
在已解压的stanford-parser-full-2015-12-09⽂件夹中,到lexparser.bat⽂件。在命令窗⼝中运⾏这个⽂件,得到如下结果,即为命令⾏运⾏结果。
(三)可视化界⾯查看句法分析结果
1.在已解压的stanford-parser-full-2015-12-09⽂件夹中,到lexparser-gui.bat⽂件。在命令窗⼝中运⾏这个⽂件,得到如下可视化界⾯。
2.点击Load File选择要进⾏句法分析的语料⽂件。点击Load Parser选择model⽂件,解析器选择英⽂。最后点击Parser>即可⽣成解析树。
上图⽤了stanford-parser-3.6.0-models.jar的model⽂件,⽤了作为要句法分析的语料⽂件。
上图⽤了stanford-chinese-corenlp-2016-01-19-models.jar的model⽂件,⽤了作为要句法分析的语料⽂件。
四、使⽤Stanford Parser的实例分析
Example :分词&词性标注、句法分析树、依存句法分析
1、先贴全部代码
2、分析的句⼦
“中国的神威太湖之光计算机被⽤于天⽓预报、制药研究和⼯业设计等领域。”
3、运⾏结果
①分词并词性标注结果:
②句法分析树结果:
③依存句法分析结果:
4、代码分析
①
定义modelpath⽤来存放模型⽂件。中⽂处理⽅⾯的模型⽂件
有:、、、、等。其中factored包含词汇化信息,PCFG是更快更⼩的模板,xinhua是根据⼤陆的《新华⽇报》训练的语料,⽽chinese同时包含⾹港和台湾的语料,本程序使⽤的可以对未分词的句⼦进⾏句法解析。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论