用python实现新词发现程序——基于凝固度和自由度--688IT编程网

⽤python实现新词发现程序——基于凝固度和⾃由度python学习笔记整理于猿⼈学⽹站的和

互联⽹时代，信息产⽣的数量和传递的速度⾮常快，语⾔⽂字也不断变化更新，新词层出不穷。⼀个好的新词发现程序对做NLP（⾃然预⾔处理）来说是⾮常重要的。

N-Gram加词频

最原始的新词算法莫过于n-gram加词频了。简单来说就是，从⼤量语料中抽取连续的字的组合⽚段，这些字组合⽚段最多包含n个字，同时统计每个字组合的频率，按照词频并设置⼀个阈值来判断⼀个字组合⽚段是否为词汇。

该⽅法简单处理速度快，它的缺点也很明显，就是会把⼀些不是词汇但出现频率很⾼的字组合也当成词了。

凝固度和⾃由度

这个算法在⽂章《互联⽹时代的社会语⾔学：基于SNS的⽂本数据挖掘》⾥有详细的阐述。

凝固度就是⼀个字组合⽚段⾥⾯字与字之间的紧密程度。⽐如“琉璃”、“榴莲”这样的词的凝固度就⾮常⾼，⽽“华为”、“组合”这样的词的凝固度就⽐较低。

leveldb使用⾃由度就是⼀个字组合⽚段能独⽴⾃由运⽤的程度。⽐如“巧克⼒”⾥⾯的“巧克”的凝固度就很⾼，和“巧克⼒”⼀样⾼，但是它⾃由运⽤的程度⼏乎为零，所以“巧克”不能单独成词。

Python实现

根据以上阐述，算法实现的步骤如下：

1. n-gram统计字组合的频率

如果⽂本量很⼩，可以直接⽤Python的dict来统计n-gram及其频率。⼀段⽂本n-gram出来的字组合的⼤⼩⼤约是原始⽂本的(1+n)*n/2倍，字组合的数量也⾮常惊⼈。⽐如，“中华⼈民共和国”的⾸字n-gram是（n=5）：

中

中华

中华⼈

中华⼈民

中华⼈民共

n-gram统计字组合频率的同时还要统计字组合的左右邻居，这个⽤来计算⾃由度。

如果⽂本量再⼤⼀些，Python的dict经常会碰到最好使⽤trie tree这样的数据结构。双数组Trie Tree有很多⾮常好的开源实现，⽐

如，cedar、darts等等。Trie Tree使⽤的好处是，它天然包含了字组合的右邻居信息，因为这个数据结构⼀般是前缀树。要统计左邻居信息时，只需要把字组合倒序放⼊另外⼀个Trie Tree即可。

使⽤cedar Trie Tree的时候，5-gram统计30M的⽂本⼤约使⽤6GB左右的内存。

如果⽂本量更⼤，这就要借助硬盘了，可以使⽤leveldb这样的key-value数据库来实现。实验下来，trie tree统计30M的⽂本⽤⼏⼗秒，⽽同样的⽤leveldb统计却要6个多⼩时应该还有⽐leveldb更合适的数据库来做这件事情，有时间再说。

当然，为了发现新词，⼏⼗MB的⽂本⽂本⾜够了。

2. 计算字组合的凝固度;

有了上述的统计结果，计算每个字组合的凝固度就⽐较简单了。

⾸先，把字组合切分成不同的组合对，⽐如’abcd’可以拆成(‘a’, ‘bcd’), (‘ab’, ‘cd’), (‘abc’, ‘d’),

然后，计算每个组合对的凝固度：D(s1, s2) = P(s1s2) / (P(s1) * P(s2))

最后，取这些组合对凝固度中最⼩的那个为整个字组合的凝固度。

3. 计算字组合的⾃由度;

分别计算它的左邻居信息熵和右邻居信息熵，取其中较⼩的为该组合的⾃由度。

4. 阈值的选择

整个过程涉及到三个阈值的选择：

组合的词频：频率很低的组合成词的可能性很⼩

组合的凝固度：凝固度越⼤成词的可能性越⼤

组合的⾃由度：⾃由度越⼤成词的可能性越⼤

经验值：30M⽂本，词频>200, 凝固度>10**(n-1), ⾃由度>1.5

⼩窍门：词频>30, 凝固度>20**(n-1)也能发现很多低频的词汇。

688IT编程网

用python实现新词发现程序——基于凝固度和自由度

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

用python实现新词发现程序——基于凝固度和自由度

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式