HanLP:pyhanlppython中文分词,以及加入自定义词典--688IT编程网

HanLP：pyhanlppython中⽂分词，以及加⼊⾃定义词典

fw = open(HanLP_save_path, 'w', encoding='utf-8') # 分词结果保存

with open(origin_path, 'r', encoding='utf-8') as fr: # 需要分词的⽂档

for line in fr:

line = line.strip()

word_list = HanLP.segment(line) # 返回是⼀个列表[⼥性/n, ，/w, 88/m, 岁/qt, ，/w, 农民/nnt, ]

# print(word_list)

for term in word_list: # 分词结果格式：单词和词性。term.word, term.nature：获取单词与词性

# print(term.word)

fw.write(term.word + ' ')

fw.write('\n')

fw.close()

使⽤⾃定义词典：

例如加⼊⾃⼰整理的词典：（只有词，没有词性词频）

注意：

词典中词之间不能有空格，因为官⽅词典每⾏格式：[单词] [词性A] [A的频次] [词性B] [B的频次]...

有看到说有空格，保存成csv格式，但是运⾏结果发现，分词效果不好。然后我就选择把带空格的给删了，哈哈~

1、把词典放到下⾯的路径：..\Anaconda3\Lib\site-packages\pyhanlp\static\data\dictionary\custom

2、把词典加⼊到配置⽂件 hanlp.properties

注意红⾊框⾥的内容，路径问题：; ；两个是在同⼀个⽬录，

其次优先级问题：所以选择了放在前⾯（默认词性默认是名词n）

3、清除缓存bin，之后运⾏才会加载新的⽂件。（敲重点不清除⾃定义字典可能不起作⽤）

#rm -bin 这⾥本宝宝选择的⼿动删除此⽂件

4、执⾏分词代码就ok了

参考：

8. ⽤户⾃定义词典

jieba、HanLP、PKUSeg分词结果⽐较（仅限于我的实验总结，仅供参考）：HanLP 和 Jieba ⽐PKUSeg要好。

不加⾃定义词典，Jieba好⼀些，加⼊⾃定义词典HanLP好⼀些

python官方文档中文版

发表评论

688IT编程网

HanLP:pyhanlppython中文分词,以及加入自定义词典

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

HanLP:pyhanlppython中文分词,以及加入自定义词典

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式