python词频统计三国演义_python实例:三国演义TXT文本词频分析--688IT编程网

python词频统计三国演义_python实例：三国演义TXT⽂本词

频分析

0x00 前⾔

不到要写什么东西了！今天有个潭州⼤⽜讲师说了个⽂本词频分析

我基本上就照抄了⼀遍

中间遇到⼀些⼩⼩的问题⾃我百度填坑补全了如下：

效果演⽰

0x01 准备环境及介绍

python3.x版本随意

安装jieba库

pip install jieba

jieba三种模式：

1.精准模式 lcut函数，返回⼀个分词列表

2.全模式

3.搜索引擎模式

词频：

：的键值对

IPO描述 imput output process

输⼊　：从⽂件读取三国演义的内容

处理　：采⽤jiedb进⾏分词，字典数据结构统计词语出现的频率

输出　：⽂章中出现最对的前10个词

代码：

第⼀步：读取⽂件

第⼆步：分词

第三步：统计

第四步：排序

介绍完毕了！那么进⼊实战吧！

0x02 实战

完整代码如下：

1 importjieba2

3 content = open('三国演义.txt', 'r',encoding='utf-8').read()

4 words =jieba.lcut(content)#分词

python怎么读取txt

5 excludes={"将军","却说","⼆⼈","后主","上马","不知","天⼦","⼤叫","众将","不可","主公","蜀兵","只见",

"如何","商议","都督","⼀⼈","汉中","不敢","⼈马","陛下","魏兵","天下","今⽇","左右","东吴","于是","荆州","不能","如此","⼤喜","引兵","次⽇","军⼠","军马"}#排除的词汇

6 words=jieba.lcut(content)

7 counts={}8

9 for word inwords:10 if len(word) == 1: #排除单个字符的分词结果

11 continue

12 elif word == '孔明' or word == '孔明⽈':13 real_word = '孔明'

14 elif word == '关公' or word == '云长':15 real_word = '关⽻'

16 elif word == '孟德' or word == '丞相':17 real_word = '曹操'

18 elif word == '⽞德' or word == '⽞德⽈':19 real_word = '刘备'

20 else:21 real_word =word22 counts[word] = (word, 0) + 1

26 for word inexcludes:27 del(counts[word])28 items=list(counts.items())29 items.sort(key=lambda x:x[1],reverse=True)30 for i in range(10):31 word,count=items[i]32 print("{0:<10}{1:>5}".format(word,count))

0x03 注意事项

①　在执⾏的过程中遇到：'gbk' codec can't decode byte 0x82 in position 20: illegal multibyte sequence 编码错误：content = open("C:\\Users\\geek\\Desktop\\", "r",encoding= 'utf-8')

这⾥是我下载的txt⽂件《三国演义》是ASCII，怎么办呢！搜索过后得知，要正常运⾏就得把TXT的编码改为UTF-8的形式才能运⾏成功，怎么做呢！

⾸先：打开TXT⽂本→⽂件→另存为→编码→UTF-8 →确定完成第⼀个坑。到这⾥呢！配合以上代码你成功了，但是我遇到的远远要多2个的所以我准备⼀并写出来。

③ 下载好以后就可以就可以愉快的玩耍了，但是我要说但是了，要问我为什么？容我⼀⼀道来！ 15个字组太多会出现什么呢！我截图

运⾏后会出现很多不相⼲的词汇，⾏，没办法只能清理，但是我清理⼤多数还是有，实在没办法了，本为了练⼿所⽤所以我降到10个词组，不错，那么想要完整的名字词组呢？就需要排除的词汇增多，所以这个玩法就到此结束。

0x04 谢幕

完

688IT编程网

python词频统计三国演义_python实例:三国演义TXT文本词频分析

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

python词频统计三国演义_python实例:三国演义TXT文本词频分析

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式