python中⽂⽂本⾥的词的重复数_Python数据挖掘——⽂本分
python中文文档
作者 | zhouyue65
来源 | 君泉计量
原⽂ | Python数据挖掘——⽂本分析
⽂本挖掘:从⼤量⽂本数据中抽取出有价值的知识,并且利⽤这些知识重新组织信息的过程。
⼀、语料库(Corpus)
语料库是我们要分析的所有⽂档的集合。
⼆、中⽂分词
2.1 概念:
中⽂分词(Chinese Word Segmentation):将⼀个汉字序列切分成⼀个⼀个单独的词。
eg:我的家乡是⼴东省湛江市-->我/的/家乡/是/⼴东省/湛江市
停⽤词(Stop Words):
数据处理时,需要过滤掉某些字或词
√泛滥的词,如web、⽹站等。
√语⽓助词、副词、介词、连接词等,如 的,地,得;
2.2 安装Jieba分词包:
最简单的⽅法是⽤CMD直接安装:输⼊pip install jieba,但是我的电脑上好像不⾏。
然后我再anaconda 环境下也安装了jieba,先在Anaconda3Lib这个⽬录下将jieba0.39的解压缩⽂件放在⾥⾯,然后在Anaconda propt 下输⼊ pip install jieba,如下图:
2.3 代码实战:
jieba最主要的⽅法是cut⽅法:
jieba.cut⽅法接受两个输⼊参数:
1) 第⼀个参数为需要分词的字符串
2)cut_all参数⽤来控制是否采⽤全模式
jieba.cut_for_search⽅法接受⼀个参数:需要分词的字符串,该⽅法适合⽤于搜索引擎构建倒排索引的分词,粒度⽐较细
注意:待分词的字符串可以是gbk字符串、utf-8字符串或者unicode
jieba.cut以及jieba.cut_for_search返回的结构都是⼀个可迭代的generator,可以使⽤for循环来获得分词后得到的每⼀个词语(unicode),也可以⽤list(jieba.cut(...))转化为list代码⽰例( 分词 )
输出结果为: 我 爱
Python
⼯信处
⼥⼲事
每⽉ 经过 下属 科室 都 要 亲⼝
交代
24 ⼝ 交换机 等 技术性 器件 的 安装
⼯作
分词功能⽤于专业的场景:
会出现真武七截阵和天罡北⽃阵被分成⼏个词。为了改善这个现象,我们⽤导⼊词库的⽅法。
但是,如果需要导⼊的单词很多,jieba.add_word()这样的添加词库的⽅法就不⾼效了。
我们可以⽤jieba.load_userdict(‘D:PDM2.2⾦庸武功招式.txt’)⽅法⼀次性导⼊整个词库,txt⽂件中为每⾏⼀个特定的词。
2.3.1 对⼤量⽂章进⾏分词
先搭建语料库:
分词后我们需要对信息处理,就是这个分词来源于哪个⽂章。
四、词频统计
3.1词频(Term Frequency):
某个词在该⽂档中出现的次数。
3.2利⽤Python进⾏词频统计
3.2.1 移除停⽤词的另⼀种⽅法,加if判断
代码中⽤到的⼀些常⽤⽅法:
分组统计:

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。