⽂本分类NLP⾖瓣电影短评中⽂⽂本分类实战代码Jieba+sklearn 本⽂主要是基于爬⾍获取的⾖瓣电影短评标题,做⽂本分类。主要运⽤了jieba+sklearn来完成整个项⽬数据过程。
先简单介绍下中⽂分词利器jieba,是⼀个⾮常好⽤的中⽂⼯具,以分词起家的,但是功能⽐分词要强⼤很多。
⽀持三种分词模式:
1精确模式,试图将句⼦最精确地切开,适合⽂本分析;
2全模式,把句⼦中所有的可以成词的词语都扫描出来, 速度⾮常快,但是不能解决歧义;
3搜索引擎模式,在精确模式的基础上,对长词再次切分,提⾼召回率,适合⽤于搜索引擎分词。
除了分词以外,jieba在词性标注上操作起来也⾮常⽅便。调⽤posseg⽅法即可。
下⾯开始项⽬过程代码实操⽰例:
⾖瓣电影短评标题获取,⾃⾏爬⾍搞定,存储数据并读取后开始NLP流程。
⼀、标题⽂本预处理包含:
1.过滤⾮中⽂字符
2.⽂本分词并进⾏词性标注
3.去除常见中⽂停⽤词,并存储分词后结果
⼆、 ⽂本特征词向量化表⽰:
1.词袋模型 Coutvictorizer
有个叫什么代码的电影2.TF-IDF特征提取
三、调⽤sklearn 分类器建模,GridsearchCV调参
1.逻辑回归分类 LogisticRegression
2.超参数C设定,正则化 防⽌过拟合
整体流程如上,下⾯贴核⼼代码⽰例:
from jieba import posseg as pseg
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn. imp
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论