(19)中华人民共和国国家知识产权局
(12)发明专利说明书
(10)申请公布号 CN 109948031 A
(43)申请公布日 2019.06.28
(21)申请号 CN201910191363.0
(22)申请日 2019.03.12
(71)申请人 南京航空航天大学
    地址 211106 江苏省南京市江宁区将军大道29号
(72)发明人 夏正友 刘庆庆 刘赛赛
(74)专利代理机构
    代理人
(51)Int.CI
     
                                                                  权利要求说明书 说明书 幅图
(54)发明名称
      带有情感倾向的网评语句自动生成系统
(57)摘要
      本发明介绍了一个自动生成带有情感倾向的网评语句的系统,能够根据用户提供的关键词及情感等信息,自动生成匹配的网评语句。传统的自然语言生成方法生成的语句过于呆板、单调,且扩展性差,很难适应人类日益变化的语言风格。本文介绍的语句自动生成机制,能够生成各具特并带有情感倾向的语句,抛去了原本基于规则生成语句所需要的对语义、语法等的知识储备,简单高效。本发明的整体思想是,首先从网络获取语句资源作为语料库并利用情感分析相关技术对其进行情感倾向分类,然后搭建搜索框架,基于用户提供的相关信息,从大量的数据中匹配符合用户需求的文本并呈现出来,本系统扩展性好且生成的句子更符合人们的日常用语。
法律状态
法律状态公告日
法律状态信息
法律状态
2019-07-23
实质审查的生效
实质审查的生效
2019-06-28
公开
公开
权 利 要 求 说 明 书
1.根据权利要求1所述的带有情感倾向的网评语句自动生成系统,其特征在于,包括网评语句爬取、数据清洗存储、情感分析、搜索框架搭建、语句匹配生成:
所述网评语句爬取用于为系统建立数据储备,爬取的网评语句作为原始语料库;
所述数据清洗存储用于对原始语料库的数据进行清洗,过滤无效信息、非文本信息,替换有用信息为文本格式,
删除重复信息,并将整理后的数据存储至数据库后续使用;
所述情感分析用语对语料库中的语句进行情感倾向的分析,并将结果写入数据库;
所述搜索框架的搭建用于搭建搜索框架,并且为数据库中数据建立全文索引;
所述语句匹配生成用语执行查询并返回结果。全文索引建立后,查询接口接受使用者的输入选择,并根据使用者的输入以及选择的情感倾向匹配相应的文本信息反馈给用户。
2.根据权利要求1所述的带有情感倾向的网评语句自动生成系统,其特征在于系统面向使用者,由用户主导,能够有针对性的根据用户提供的信息生成符合用户需求的语句。
3.根据权利要求1所述的带有情感倾向的网评语句自动生成系统,其特征在于抛去了传统的基于规则/模板生成语句所需要的对语义、语法等的知识储备,构造原理易懂,使用简单高效。
说  明  书
<p>技术领域
本发明属于计算机应用领域,尤其涉及一种带有情感倾向的网络评论自动生成的方法。
背景技术
近年来,随着计算机、互联网等技术的快速发展,人们在工作和生活中会花费大量时间活跃在网络中,很多消息新闻也是从网络得知,所以比起在现实生活中和朋友交流意见思想,人们更倾向于在网络上发表自己的言论,让其言论更具影响力。
自然语言生成属于人工智能和计算语言学的交叉学科,其目的旨在使机器生成可以理解的人类自然语言。自然语言生成技术在很多领域都有应用,比如对话系统、机器翻译等,它的发展能够促进很多领域的进步。自然语言生成发展至今学者们提出了很多方法,其中最稳健也是使用最广泛的NLG方法是基于规则/模板的方法。Mann等提出的修辞结构理论(RST),被扩展为计算文本规划的理论基础,是基于规则生成的始祖。RST后来发展成为很多学者提出的文本生成方法的基础,特别是用于规划各种大型文本;Sugiyama等针对以前基于模板的生成器产生的话语有时包含关于与输入用户话语的不相关句子,提出了一种基于模板的改进的方法,该方法使用用户话语中最突出的单词填充模板,并使用从Twitter收集的Web级依赖结构提取相关单词。后来出现了可训练的句子生成器,Stent等提出的可训练的句子生成器,能够自动适应应用领域的通用语言知识,它有快速灵活且通用但在特定领域中产生高质量输出的优点,该生成器可以产生与MATCH基于模板的生成器相当的输出。
随着网络的发展,数据的获取越来越容易,随之而生的新的基于语料库的自然语言生成方法被提出并广泛应用。Oh和Rudnicky提出了基于语料库的自然语言生成方法,对执行感兴趣任务的领域专家所说的语言进行建模,并使用该模型随机生成系统话语。后来将这一技术应用于句子的实现和内容的规划,并将生成结果的组件集成到一个可以工作的自然对话系统中。他们用两个语料库来构建基于单词的n-gram语言模型,然后随机生成语句。虽然上述传统的自然语言生成系统在现在也有着广泛的应用,但是这些系统也存在着一些问题,对手工定制的依赖性很大,而且生成的语句很单调,不能够适应人类日益变化的语言风格,且泛化能力差,不能够扩展到针对网评语句的生成。上述方法在我们应用上最大的问题是,上述生成系统忽略了用户在语句生成系统中的作用,不能由用户主导所生成的句子。我们的系统主要是面向使用者,能够有针对性的根据用户提供的信息生成符合用户需求的语句。
发明内容
本发明是一个自动生成带有情感倾向的网评语句的系统,能够根据用户提供的关键词及情感等信息,自动生成匹配的网评语句。
传统的自然语言生成方法生成的语句过于呆板、单调,且这类方法扩展性差,很难适应人类日益变化的语言风格。我们的目标是为最终用户生成流畅且带有个人感情彩的文本。本文介绍的语句自动生成机制,能够生
成各具特的语句并带有情感倾向,且抛去了原本基于规则生成语句所需要的对语义、语法等的知识储备,简单高效。我们的想法是首先从网络获取语句资源作为语料库并利用情感分析相关技术对其进行情感倾向分类,然后利用搜索引擎的思想,在基于用户提供相关信息的情况下,从大量的数据中寻符合用户需求的语句并呈现出来,这样生成的句子更符合人们的日常。
正则匹配快代理本发明提供了一种自动生成带有情感倾向网评语句的机制,整个系统的流程在图1中展示,具体包括下述步骤:
步骤1:网络爬取数据。采用了网络爬虫技术,基于我们的需求,我们选择使用较简单的聚焦网络爬虫。选择微博、知乎、天涯等一些热门网站作为爬取对象,爬取内容为评论语句以及相应的点赞数。为了最大化我们语句的多样性,我们网络爬取了10万条语句后续整理为语料库,当然可以根据需要扩大爬取数量。
步骤2:数据整理存储。网页内容存储时应当只提取其中的文档部分,而网络的评论语句会出现emoji表情符号、图片、转发或者网页链接等不规则或者我们不需要的信息,所以需要在抓取的时候对内容进行正则化处理,过滤掉我们不需要的信息,替换掉格式不能直接保留的信息,比如,对于表情符号,我们不能直接保存表情到数据库,但是表情符号对于情感的表达很重要,对于后续我们进行的情感分析很有帮助,所以对于此类信息不能直接过滤,要将表情符号转换为相应的情感语言表达与爬取的语句一起保存下来。正则表达式的匹配规则见附图2。
步骤3:对语料库语句进行情感分析。情感分析又称倾向性分析,是对带有情感彩的主观性文本进行分析、处理、归纳和推理的过程。我们爬取的网评信息是大量用户对诸如任务、产品或者事件表达的批评或者赞扬的情绪,基于此,我们为了产生与使用者情感倾向相同的文本,需要对爬取的网评信息进行情感分析,以过滤产生符合用户倾向的最终文本。我们进行情感分析是利用了机器学习的相关技术对抓取的语句进行情感分析,使用卡方检验进行特征提取,SVM分类器进行情感分类,在情感分析的同时将相应的情感分析结果写入数据库。情感分析的流程见附图1的第三部分。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。