详解Python字符串相似性的几种度量方法--688IT编程网

详解Python字符串相似性的⼏种度量⽅法

字符串的相似性⽐较应⽤场合很多，像拼写纠错、⽂本去重、上下⽂相似性等。

评价字符串相似度最常见的办法就是：把⼀个字符串通过插⼊、删除或替换这样的编辑操作，变成另外⼀个字符串，所需要的最少编辑次数，这种就是编辑距离（edit distance）度量⽅法，也称为Levenshtein距离。海明距离是编辑距离的⼀种特殊情况，只计算等长情况下替换操作的编辑次数，只能应⽤于两个等长字符串间的距离度量。

其他常⽤的度量⽅法还有 Jaccard distance、J-W距离（Jaro–Winkler distance）、余弦相似性（cosine similarity）、欧⽒距离（Euclidean distance）等。

python-Levenshtein 使⽤

使⽤ pip install python-Levenshtein 指令安装 Levenshtein

# -*- coding: utf-8 -*-

import difflib

# import jieba

import Levenshtein

str1 = "我的⾻骼雪⽩也长不出青稞"

str2 = "雪的⽇⼦我只想到雪中去si"

# 1. difflib

seq = difflib.SequenceMatcher(None, str1,str2)

ratio = seq.ratio()

print 'difflib similarity1: ', ratio

# difflib 去掉列表中不需要⽐较的字符

seq = difflib.SequenceMatcher(lambda x: x in ' 我的雪', str1,str2)

ratio = seq.ratio()

字符串长度比较函数print 'difflib similarity2: ', ratio

# 2. hamming距离，str1和str2长度必须⼀致，描述两个等长字串之间对应位置上不同字符的个数

# sim = Levenshtein.hamming(str1, str2)

# print 'hamming similarity: ', sim

# 3. 编辑距离，描述由⼀个字串转化成另⼀个字串最少的操作次数，在其中的操作包括插⼊、删除、替换

sim = Levenshtein.distance(str1, str2)

print 'Levenshtein similarity: ', sim

# 4.计算莱⽂斯坦⽐

sim = Levenshtein.ratio(str1, str2)

print 'Levenshtein.ratio similarity: ', sim

# 5.计算jaro距离

sim = Levenshtein.jaro(str1, str2 )

print 'Levenshtein.jaro similarity: ', sim

# 6. Jaro–Winkler距离

sim = Levenshtein.jaro_winkler(str1 , str2 )

print 'Levenshtein.jaro_winkler similarity: ', sim

输出：

difflib similarity1: 0.246575342466

difflib similarity2: 0.0821917808219

Levenshtein similarity: 33

Levenshtein.ratio similarity: 0.27397260274

Levenshtein.jaro similarity: 0.490208958959

Levenshtein.jaro_winkler similarity: 0.490208958959

以上就是本⽂的全部内容，希望对⼤家的学习有所帮助，也希望⼤家多多⽀持。

688IT编程网

详解Python字符串相似性的几种度量方法

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

详解Python字符串相似性的几种度量方法

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式