Python之jieba库的使⽤
jieba库,它是Python中⼀个重要的第三⽅中⽂分词函数库。
1.jieba的下载
由于jieba是⼀个第三⽅函数库,所以需要另外下载。电脑搜索“cmd”打开“命令提⽰符”,然后输⼊“pip install jieba”,稍微等等就下载成功。(注:可能有些pip版本低,不能下载jieba库,需要⼿动升级pip⾄19.0.3的版本,在安装jieba库)
当你再次输⼊“pip install jieba”,显⽰如图,jieba库就下载成功。
2.jieba库的3种分词模式
精确模式:将句⼦最精确地切开,适合⽂本分析。
例:
python中lambda怎么使用全模式:把句⼦中所有可以成词的词语都扫描出来,速度⾮常快,但是不能消除歧义。
例:(“国是”,⿊⼈问号)
搜索引擎模式:在精确模式的基础上,对长词再次切分,提⾼召回率,适合⽤于搜索引擎分词。
例:(没什么不同,可能我还没发现它的⽤处)
3.jieba应⽤
def get_text():
txt = open("D://加油鸭~//", "r",encoding='UTF-8').read()
txt = txt.lower()
for ch in'!"#$%&()*+,-./:;<=>?@[\\]^_‘{|}~':
txt = place(ch, "") # 将⽂本中特殊字符替换为空格
return txt
hamletTxt = get_text() # 打开并读取⽂件
words = hamletTxt.split() # 对字符串进⾏分割,获得单词列表
counts = {}
for word in words:
if len(word) == 1:
continue
else:
counts[word] = (word, 0) + 1 # 分词计算
items = list(counts.items())
items.sort(key=lambda x: x[1], reverse=True)
for i in range(10):
word, count = items[i]
print("{0:<10}{1:>5}".format(word,count))
得到结果,如图:
最后,我们还可以做词云图,这个呢我下次再给⼤家分享吧,再见~
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论