⾃然语⾔处理之⽂本情感分类
⼀、概述
  ⽂本情感分析(Sentiment Analysis)是指利⽤⾃然语⾔处理和⽂本挖掘技术,对带有情感⾊彩的主观性⽂本进⾏分析、处理和抽取的过程。情感分析任务按其分析的粒度可以分为篇章级,句⼦级,词或短语级;按其处理⽂本的类别可分为基于产品评论的情感分析和基于新闻评论的情感分析;按其研究的任务类型,可分为情感分类,情感检索和情感抽取等⼦问题。⽂本情感分析的基本流程如下图所⽰,包括从原始⽂本爬取,⽂本预处理,语料库和情感词库构建以及情感分析结果等全流程。
  情感分类⼜称情感倾向性分析,是对带有感情⾊彩的主观性⽂本进⾏分析、推理的过程,即分析对说话⼈的态度,倾向正⾯,还是反⾯。它与传统的⽂本主题分类⼜不相同,传统主题分类是分析⽂本讨论的客观内容,⽽情感分类是要从⽂本中得到它是否⽀持某种观点的信息。⽐如,“⽇媒:认为歼-31能够抗衡F-35,这种说法颇具恭维的意味。”传统主题分类是要将其归为类别为“军事”主题,⽽情感分类则要挖掘出⽇媒对于“歼-31能够抗衡F-35”这个观点,持反⾯态度。这是⼀项具有较⼤实⽤价值的分类技术,可以在⼀定程度上解决⽹络评论信息杂乱的现象,⽅便⽤户准确定位所需信息。按照处理⽂本的粒度不同,情感分析可分为词语级、短语级、句⼦级、篇章级以及多篇章级等⼏个研究层次。按照处理⽂本的类别不同,可分为基于新闻评论的情感分析和基于产品评论的情感分析。纵观⽬前主观性⽂本情感倾向性分析的研究⼯作,主要研究思路分为基于语义的情感词典⽅法和基于机器学习的⽅法。
⼆、基于情感词典的情感分类⽅法
  2.1 基于词典的情感分类步骤
  基于情感词典的⽅法,先对⽂本进⾏分词和停⽤词处理等预处理,再利⽤先构建好的情感词典,对⽂本进⾏字符串匹配,从⽽挖掘正⾯和负⾯信息。如图:
  2.2 ⽂本预处理及⾃动分词
  ⽂本的预处理
  由⽹络爬⾍等⼯具爬取到的原始语料,通常都会带有我们不需要的信息,⽐如额外的Html标签,所以需要对语料进⾏预处理。在⼀⽂中,笔者使⽤Python作为我们的预处理⼯具,其中的⽤到的库有Numpy和Pandas,⽽主要的⽂本⼯具为正则表达式。经过预处理,原始语料规范为如下表,其中我们⽤-1标注消极情感评论,1标记积极情感评论。
  句⼦⾃动分词
  为了判断句⼦中是否存在情感词典中相应的词语,我们需要把句⼦准确切割为⼀个个词语,即句⼦的⾃动分词。
  2.3 情感词典
  情感词典包含正⾯词语词典、负⾯词语词典、否定词语词典、程度副词词典等四部分。⼀般词典包含两部分,词语和权重。
  情感词典在整个情感分析中⾄关重要,所幸现在有很多开源的情感词典,如BosonNLP情感词典,它是基于微博、新闻、论坛等数据来源构建的情感词典,以及知⽹情感词典等。当然也可以通过语料来⾃⼰训练情感词典。
  2.4 情感词典⽂本匹配算法
  基于词典的⽂本匹配算法相对简单。逐个遍历分词后的语句中的词语,如果词语命中词典,则进⾏相应权重的处理。正⾯词权重为加法,负⾯词权重为减法,否定词权重取相反数,程度副词权重则和它修饰的词语权重相乘。如图:
  利⽤最终输出的权重值,就可以区分是正⾯、负⾯还是中性情感了。
  2.5 缺点
  基于词典的情感分类,简单易⾏,⽽且通⽤性也能够得到保障。但仍然有很多不⾜:
  1)精度不⾼:语⾔是⼀个⾼度复杂的东西,采⽤简单的线性叠加显然会造成很⼤的精度损失。词语权重同样不是⼀成不变的,⽽且也难以做到准确。
  2)新词发现:对于新的情感词,⽐如给⼒,⽜逼等等,词典不⼀定能够覆盖。
  3)词典构建难:基于词典的情感分类,核⼼在于情感词典。⽽情感词典的构建需要有较强的背景知识,需要对语⾔有较深刻的理解,在分析外语⽅⾯会有很⼤限制。
三、基于机器学习的情感分类⽅法 
  基于机器学习的情感分类即为分类问题,⽂本分类中的各⽅法均可采⽤,⽂本分类问题可查看我的另外⼀篇⽂章《》。
  常见的分类算法有,基于统计的Rocchio算法、贝叶斯算法、KNN算法、⽀持向量机⽅法,基于规则的决策树⽅法,和较为复杂的神经⽹络。这⾥我们介绍两种⽤到的分类算法:朴素贝叶斯和⽀持向量机。情感分类模型的构建⽅法也很多,这⾥我们对《》中的建模⽅法进⾏总结。
  3.1 分类算法
  3.1.1 朴素贝叶斯
  贝叶斯公式:P(C|X)=P(X|C)P(C)/P(X)
  先验概率P(C)通过计算训练集中属于每⼀个类的训练样本所占的⽐例,类条件概率P(X|C)的估计—朴素贝叶斯,假设事物属性之间相互条件独⽴,P(X|C)=\prod P(x_{i}|c_{i})。朴素贝叶斯有两⽤常⽤的模型,概率定义略有不同,如下:设某⽂档d=(t1,t2,…,tk),tk是该⽂档中出现过的单词,允许重复。
多项式模型:
  先验概率P(c)= 类c下单词总数/整个训练样本的单词总数。
  条件概率P(tk|c)=(类c下单词tk在各个⽂档中出现过的次数之和+1)/( 类c下单词总数+|V|)
伯努利模型:
  先验概率P(c)= 类c下⽂件总数/整个训练样本的⽂件总数。
  条件概率P(tk|c)=(类c下包含单词tk的⽂件数+1)/(类c下单词总数+2)
  通俗点解释两种模型不同点在于:计算后验概率时,对于⼀个⽂档d,多项式模型中,只有在d中出现过的单词,才会参与后验概率计算,伯努利模型中,没有在d中出现,但是在全局单词表中出现的单词,也会参与计算,不过是作为“反例”参与的。
  3.1.2 ⽀持向量机模型SVM
  SVM展开来说较为复杂,这⾥借助两张图帮助概念性地解释⼀下。对于线性可分的数据,可以⽤⼀超平⾯f(x)=w*x+b将这两类数据分开。如何确定这个超平⾯呢?从直观上⽽⾔,这个超平⾯应该是最适合分开两类数据的直线。⽽判定“最适合”的标准就是这条直线离直线两边的数据的间隔最⼤。
  ⽽对于线性不可分的数据,则将其映射到⼀个更⾼维的空间⾥,在这个空间⾥建⽴寻⼀个最⼤间隔的超平⾯。怎么映射呢?这就是SVM的关键:核函数。
  现在常⽤的核函数有:线性核,多项式核,径向基核,⾼斯核,Sigmoid核。如果想对SVM有更深⼊的了解,请参考《⽀持向量机通俗导论(理解SVM的三层境界)》⼀⽂。
  3.2 情感分类系统的实现
  情感分类主要处理⼀些类似评论的⽂本,这类⽂本有以下⼏个特点:时新性、短⽂本、不规则表达、信息量⼤。我们在系统设计、算法选择时都会充分考虑到这些因素。情感分灰系统分为在线、离线两⼤流程,在线流程将⽤户输出的语句进⾏特征挖掘、情感分类、并返回结果。离线流程则负责语料下载、特征挖掘、模型训练等⼯作,系统结构如图3-1所⽰:
图3-1 情感分类系统框架图
  3.2.1 语料库建设
  语料的积累是情感分类的基⽯,特征挖掘、模型分类都要以语料为材料。⽽语料⼜分为已标注的语料和未标注的语料,已标注的语料如对商家的评论、对产品的评论等,这些语料可通过星级确定客户的情感倾向;⽽未标注的语料如新闻的评论等,这些语料在使⽤前则需要分类模型或⼈⼯进⾏标注,⽽⼈⼯对语料的正负倾向,⼜是仁者见仁、智者见智,所以⼀定要与标注的同学有充分的沟通,使标注的语料达到基本可⽤的程度。
  3.2.2极性词挖掘
情感分类中的极性词挖掘,有⼀种⽅法是“全词表法”,即将所有的词都作为极性词,这样的好处是单词被全⾯保留,但会导致特征维度⼤,计算复杂性⾼。我们采⽤的是“极性词表法”,就是要从⽂档中挖掘出⼀些能够代表正负极性的词或短语。如已知正⾯语料“@jjhuang:电话本太赞了!能免费打电话,推荐你使⽤哦~”,这句话中我们需要挖掘出“赞”、“推荐”这些正极性词。分为以下两步:
  1)⽂本预处理语料中的有太多的噪⾳,我们在极性词挖掘之前要先对⽂本预处理。⽂本预处理包含了分词、去噪、最佳匹配等相关技术。分词功能向⼤家推荐腾讯TE199的分词系统,功能强⼤且全⾯,拥有短语分词、词性标注等强⼤功能。去噪需要去掉⽂档中的⽆关信息如“@jjhuang”、html标签等,和⼀些不具有分类意义的虚词、代词如“的”、“啊”、“我”等,以起到降维的作⽤。最佳匹配则是为了确保提出的特征能够正确地反映正负倾向,如“逍遥法外”⼀词,如果提取出的是“逍遥”⼀词,则会被误认为是正⾯情感特征,⽽“逍遥法外”本⾝是⼀个负⾯情感词,这⾥⼀般可以采⽤最长匹配的⽅法。
  2)极性词选择⽂本预处理之后,我们要从众多词语中选出⼀些词作为极性词,⽤以训练模型。我们对之前介绍的TF-IDF⽅法略作变化,⽤以降维。因为我们训练和处理的⽂本都太短,DF和TF值⼤致相同,我们⽤⼀个TF值就可以。另外,我们也计算极性词在反例中出现的频率,如正极性
词“赞”必然在正极性语料中的TF值⼤于在负极性语料中的TF值,如果⼆者的差值⼤于某个域值,我们就将该特征纳⼊极性词候选集,经过⼈⼯审核后,就可以正式作为极性词使⽤。
  3.2.3极性判断
  极性判断的任务是判断语料的正、负、中极性,这是⼀个复杂的三分类问题。为了将该问题简化,我们⾸先对语料做⼀个主客观判断,客观语料即为中性语料,主观语料再进⾏正、负极性的判断。这样,我们就将⼀个复杂三分类问题,简化成了两个⼆分类问题。如下:
正则匹配怎么匹配单词
  在分类器选择中,主客观判断我们使⽤了上节介绍的⽀持向量机模型。⽽极性判断中,我们同时使⽤了朴素贝叶斯和⽀
持向量机模型。其中朴素贝叶斯使⽤⼈⼯审核过的极性词作特征,⽽⽀持向量机模型则使⽤全词表作为特征。两个模型会对输⼊的语料分别判断,给出正、负极性的概率,最后由决策模块给出语料的极性。
  在朴素贝叶斯模型中,我们⽐较了多项式模型和伯努⼒模型的效果。伯努⼒模型将全语料中的单词做为反例计算,因为评测⽂本⼤多是短⽂本,导致反例太多。进⽽伯努⼒模型效果稍差于多项式模型,所以我们选择了多项式模型。
  ⽀持向量机模型中,我们使⽤的是台湾⼤学林智仁开发的SVM⼯具包LIBSVM,这是⼀个开源的软件包,可以解决模式识别、函数逼近和概率密度估计等机器学习基本问题,提供了线性、多项式、径向基和S形函数四种常⽤的核函数供选择。LIBSVM 使⽤的⼀般步骤是:
1. 按照LIBSVM软件包所要求的格式准备数据集;
2. 对数据进⾏简单的缩放操作;
3. 考虑选⽤RBF 核函数;
4. 采⽤交叉验证选择最佳参数C与g;
5. 采⽤最佳参数C与g 对整个训练集进⾏训练获取⽀持向量机模型;
6. 利⽤获取的模型进⾏测试与预测。
  上述介绍的是我们通⽤的情感分类系统,⾯对的是通⽤的主观评论语料。但在⼀些领域中,某些⾮极性词也充分表达了⽤户的情感倾向,⽐如下载使⽤APP时,“卡死了”、“下载太慢了”就表达了⽤户的负⾯情感倾向;股票领域中,“看涨”、“⽜市”表达的就是⽤户的正⾯情感倾向。所以我们要在垂直领域中,挖掘出⼀些特殊的表达,作为极性词给情感分类系统使⽤:
  垂直极性词 = 通⽤极性词 + 领域特有极性词
  该系统即为垂直领域的情感分类系统。
  3.3 系统优化
  情感分类的⼯作,在现在和未来还可以做更多的⼯作来对系统进⾏优化:
1. 挖掘更多的极性词(多领域)
2. 尝试不同的分类器,调优现有的模型
3. 句式识别:否定句,转折句,排⽐句等……
4. 语料清洗:识别⽔军评论和⽤户评论
5. 极性词扩展:采⽤近义词、反义词等⽅法,将挖掘的极性词扩展更多
参考:
Processing math: 0%

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。