python的中文文本挖掘库snownlp进行购物评论文本情感分析实例--688IT编程网

python的中⽂⽂本挖掘库snownlp进⾏购物评论⽂本情感分析

实例

昨晚上发现了snownlp这个库，很开⼼。先说说我开⼼的原因。我本科毕业设计做的是⽂本挖掘，⽤R语⾔做的，发现R语⾔对⽂本处理特别不友好，没有很多强⼤的库，特别是针对中⽂⽂本的，加上那时候还没有学机器学习算法。所以很头疼，后来不得已⽤了⼀个可视化的软件RostCM，但是⼀般可视化软件最⼤的缺点是⽆法调参，很死板，准确率并不⾼。现在研⼀，机器学习算法学完以后，⼜想起来要继续学习⽂本挖掘了。所以前半个⽉开始了⽤python进⾏⽂本挖掘的学习，很多⼈都推荐我从《python⾃然语⾔处理》这本书⼊门，学习了半个⽉以后，可能本科毕业设计的时候有些基础了，再看这个感觉没太多进步，并且这⾥通篇将nltk库进⾏英⽂⽂本挖掘的，英⽂⽂本挖掘跟中⽂是有很⼤差别的，或者说学完英⽂⽂本挖掘，再做中⽂的，也是完全懵逼的。所以我停了下来，觉得太没效率了。然后我在⽹上查关于python如何进⾏中⽂⽂本挖掘的⽂章，最后到了snownlp这个库，这个库是国⼈⾃⼰开发的python类库，专门针对中⽂⽂本进⾏挖掘，⾥⾯已经有了算法，需要⾃⼰调⽤函数，根据不同的⽂本构建语料库就可以，真的太⽅便了。我只介绍⼀下这个库具体应⽤，不介绍其中的有关算法原理，因为算法原理可以⾃⼰去学习。因为我在学习这个库的时候，我查了很多资料发现很少或者基本没有写这个库的实例应⽤，很多都是转载官⽹对这个库的简介，所以我记录⼀下我今天的学习。

下⾯正式介绍实例应⽤。主要是中⽂⽂本的情感分析，我今天从京东⽹站采集了249条关于笔记本的评论⽂本作为练习数据，由于我只是想练习⼀下，没采集更多。然后⼈⼯标注每条评论的情感正负性，情感正负性就是指该条评论代表了评论者的何种态度，是褒义还是贬义。以下是样例

其中-1表⽰贬义，1表⽰褒义。由于snownlp全部是unicode编码，所以要注意数据是否为unicode编码。因为是unicode编码，所以不需要去除中⽂⽂本⾥⾯含有的英⽂，因为都会被转码成统⼀的编码（补充⼀下，关于编码问题，我还是不特别清楚，所以这⾥不多讲，还请对这⽅⾯⽐较熟悉的伙伴多多指教）。软件本⾝默认的是Ascii编码，所以第⼀步先设置软件的默认编码为utf-8，代码如下：

1、改变软件默认编码

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

2、然后准备数据

import pandas as pd #加载pandas

ad_excel(u'F:/⾃然语⾔处理/评论⽂本.xlsx',header=0) #读取⽂本数据

text0=text.iloc[:,0] #提取所有数据

text1=[i.decode('utf-8') for i in text0] #上⼀步提取数据不是字符⽽是object，所以在这⼀步进⾏转码为字符有组件的登录界面bootstrap

3、训练语料库python爬虫教程全套视频

from snownlp import sentiment #加载情感分析模块

packages/snownlp/') #对语料库进⾏训练，把路径改成相应的位置。我这次练习并没有构建语料库，⽤了默认的，所以把路径写到了sentiment模块下。

sentiment.save('D:/pyscript/sentiment.marshal')#这⼀步是对上⼀步的训练结果进⾏保存，如果以后语料库没有改变，下次不⽤再进⾏训练，直接使⽤就可以了，所以⼀定要保存，保存位置可以⾃⼰决定，但是要把`snownlp/seg/__init__.py`⾥的`data_path`也改成你保存的位置，不然下次使⽤还是默认的。

4、进⾏预测京东python入门教程

from snownlp import SnowNLP

senti=[SnowNLP(i).sentiments for i in text1] #遍历每条评论进⾏预测

5、进⾏验证准确率

预测结果为positive的概率，positive的概率⼤于等于0.6，我认为可以判断为积极情感，⼩于0.6的判断为消极情感。所以以下将概率⼤于等于0.6的评论标签赋为1，⼩于0.6的评论标签赋为-1，⽅便后⾯与实际标签进⾏⽐较。

newsenti=[]

private void

for i in senti:accessible词根词缀

if (i>=0.6):

newsenti.append(1)

else:

newsenti.append(-1)

text['predict']=newsenti #将新的预测标签增加为text的某⼀列，所以现在text的第0列为评论⽂本，第1列为实际标签，第2列为预测标签

counts=0

基于web的农产品销售管理系统for j in range(len(text.iloc[:,0])): #遍历所有标签，将预测标签和实际标签进⾏⽐较，相同则判断正确。

if text.iloc[j,2]==text.iloc[j,1]:

counts+=1

print u"准确率为:%f"%(float(counts)/float(len(text)))#输出本次预测的准确率

运⾏结果为：

准确率还可以，但还不算⾼，原因是我考虑时间原因，并且我只是练习⼀下，所以没有⾃⼰构建该领域的语料库，如果构建了相关语料库，替换默认语料库，准确率会⾼很多。所以语料库是⾮常关键的，如果要正式进⾏⽂本挖掘，建议要构建⾃⼰的语料库。在没有构建新的语料库的情况下，这个83.9357%的准确率还是不错了。

以上是我这次的学习笔记，和⼤家分享⼀下，有不⾜之处请⼤家批评指正。我还是⼀个刚涉世数据挖掘、机器学习、⽂本挖掘领域不久的⼩⽩，有许多知识还是⽐较模糊，但对这数据挖掘很感兴趣。希望能多结识这⽅⾯的朋友，共同学习、共同进步。

688IT编程网

python的中文文本挖掘库snownlp进行购物评论文本情感分析实例

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林特征选择原理

自动驾驶系统中的随机森林算法解析

随机森林算法及其在生物信息学中的应用

监督学习中的随机森林算法解析(六)

随机森林算法在数据分析中的应用

机器学习——随机森林,RandomForestClassifier参数含义详解

随机森林的算法

随机森林算法作用

监督学习中的随机森林算法解析(十)

随机森林算法案例

随机森林案例

二分类问题常用的模型

绘制ssd框架训练流程

一种基于信息熵和DTW的多维时间序列相似性度量算法

SVM训练过程范文

如何使用支持向量机进行股票预测与交易分析

二分类交叉熵损失函数binary

tinybert_训练中文文本分类模型_概述说明

基于门控可形变卷积和分层Transformer的图像修复模型及其应用

人工智能开发技术的测试和评估方法

最新文章

基于随机森林的数据分类算法改进

人工智能中的智能识别与分类技术

基于人工智能技术的随机森林算法在医疗数据挖掘中的应用

随机森林回归模型的建模步骤

r语言随机森林预测模型校准曲线

《2024年随机森林算法优化研究》范文

标签列表