⾃然语⾔处理是什么
⾃然语⾔处理是什么?
语⾔是⼈类区别其他动物的本质特性。在所有⽣物中,只有⼈类才具有语⾔能⼒。⼈类的多种智能都与语⾔有着密切的关系。⼈类的逻辑思维以语⾔为形式,⼈类的绝⼤部分知识也是以语⾔⽂字的形式记载和流传下来的。因⽽,它也是⼈⼯智能的⼀个重要,甚⾄核⼼部分。
⽤⾃然语⾔与计算机进⾏通信,这是⼈们长期以来所追求的。因为它既有明显的实际意义,同时也有重要的理论意义:⼈们可以⽤⾃⼰最习惯的语⾔来使⽤计算机,⽽⽆需再花⼤量的时间和精⼒去学习不很⾃然和习惯的各种计算机语⾔;⼈们也可通过它进⼀步了解⼈类的语⾔能⼒和智能的机制。
字符串是什么样的实现⼈机间⾃然语⾔通信意味着要使计算机既能理解⾃然语⾔⽂本的意义,也能以⾃然语⾔⽂本来表达给定的意图、思想等。前者称为⾃然语⾔理解,后者称为⾃然语⾔⽣成。因此,⾃然语⾔处理⼤体包括了⾃然语⾔理解和⾃然语⾔⽣成两个部分。历史上对⾃然语⾔理解研究得较多,⽽对⾃然语⾔⽣成研究得较少。但这种状况近年来已有所改变。
⽆论实现⾃然语⾔理解,还是⾃然语⾔⽣成,都远不如⼈们原来想象的那么简单,⽽是⼗分困难的。从⽬前的理论和技术现状看,通⽤的、⾼质量的⾃然语⾔处理系统,仍然是较长期的努⼒⽬标,但是针对⼀定
应⽤,具有相当⾃然语⾔处理能⼒的实⽤系统已经出现,有些已商品化,甚⾄开始产业化。典型的例⼦有:多语种数据库和专家系统的⾃然语⾔接⼝、各种机器翻译系统、全⽂信息检索系统、⾃动⽂摘系统等。
⾃然语⾔处理,即实现⼈机间⾃然语⾔通信,或实现⾃然语⾔理解和⾃然语⾔⽣成是⼗分困难的。造成困难的根本原因是⾃然语⾔⽂本和对话的各个层次上⼴泛存在的各种各样的歧义性或多义性(ambiguity)。⼀个中⽂⽂本从形式上看是由汉字(包括标点符号等)组成的⼀个字符串。由字可组成词,由词可组成词组,由词组可组成句⼦,进⽽由⼀些句⼦组成段、节、章、篇。⽆论在上述的各种层次:字(符)、词、词组、句⼦、段,??还是在下⼀层次向上⼀层次转变中都存在着歧义和多义现象,即形式上⼀样的⼀段字符串,在不同的场景或不同的语境下,可以理解成不同的词串、词组串等,并有不同的意义。⼀般情况下,它们中的⼤多数都是可以根据相应的语境和场景的规定⽽得到解决的。也就是说,从总体上说,并不存在歧义。这也就是我们平时并不感到⾃然语⾔歧义,和能⽤⾃然语⾔进⾏正确交流的原因。但是⼀⽅⾯,我们也看到,为了消解歧义,是需要极其⼤量的知识和进⾏
推理的。如何将这些知识较完整地加以收集和整理出来;⼜如何到合适的形式,将它们存⼊计算机系统中去;以及如何有效地利⽤它们来消除歧义,都是⼯作量极⼤且⼗分困难的⼯作。这不是少数⼈短时期内可以完成的,还有待长期的、系统的⼯作。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论