Python之jieba库的使用--688IT编程网

Python之jieba库的使⽤

jieba库，它是Python中⼀个重要的第三⽅中⽂分词函数库。

1.jieba的下载

由于jieba是⼀个第三⽅函数库，所以需要另外下载。电脑搜索“cmd”打开“命令提⽰符”，然后输⼊“pip install jieba”，稍微等等就下载成功。（注：可能有些pip版本低，不能下载jieba库，需要⼿动升级pip⾄19.0.3的版本，在安装jieba库）

当你再次输⼊“pip install jieba”，显⽰如图，jieba库就下载成功。

2.jieba库的3种分词模式

精确模式：将句⼦最精确地切开，适合⽂本分析。

例：

python中lambda怎么使用

全模式：把句⼦中所有可以成词的词语都扫描出来，速度⾮常快，但是不能消除歧义。

例：（“国是”，⿊⼈问号）

搜索引擎模式：在精确模式的基础上，对长词再次切分，提⾼召回率，适合⽤于搜索引擎分词。

例：（没什么不同，可能我还没发现它的⽤处）

3.jieba应⽤

def get_text():

txt = open("D://加油鸭~//", "r",encoding='UTF-8').read()

txt = txt.lower()

for ch in'!"#$%&()*+,-./:;<=>?@[\\]^_‘{|}~':

txt = place(ch, "") # 将⽂本中特殊字符替换为空格

return txt

hamletTxt = get_text() # 打开并读取⽂件

words = hamletTxt.split() # 对字符串进⾏分割，获得单词列表

counts = {}

for word in words:

if len(word) == 1:

continue

else:

counts[word] = (word, 0) + 1 # 分词计算

items = list(counts.items())

items.sort(key=lambda x: x[1], reverse=True)

for i in range(10):

word, count = items[i]

print("{0:<10}{1:>5}".format(word,count))

得到结果，如图：

最后，我们还可以做词云图，这个呢我下次再给⼤家分享吧，再见~

发表评论

688IT编程网

Python之jieba库的使用

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

Python之jieba库的使用

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式