相似度计算公式
    相似度计算公式是用来计算任何两个给定集合(数据或对象)之间的相似度的数学公式。它可以利用来做出各种技术方面的匹配和预测。相似度计算常常在机器学习、信息检索、数据挖掘、图像识别等应用中使用。对于在分类算法中,用其作为分类器参数,以致于能够准确定位样本属性。
    相似度计算常用于两个集合之间的相似度计算,如字符串的相似度,文本的相似度,图片的相似度等。常见的相似度计算公式有:欧氏距离、曼哈顿距离、余弦距离、Tanimoto系数、杰卡德距离等。它们均是把对象间的距离变为相似度,用值表示两者之间的差异,越大反映两个对象之间的差异越大,而越小则表示它们之间的差异越小。
    1.欧式距离(Euclidean Distance)
    欧氏距离是最基本的相似度计算方法,它衡量两个点在n维空间中的相似程度,假设这两个点分别由(x1,y1)和(x2,y2)给出,那么它们的欧氏距离为:
d(x1,x2)=sqrt((x1-x2)^2+(y1-y2)^2)
    2.曼哈顿距离(Manhattan Distance)
    曼哈顿距离又称L1范数,是把向量中所有元素的绝对值加起来的一种距离,它是两个点在标准坐标系上形成的直角三角形的斜边长。假设这两个点分别由(x1,y1)和(x2,y2)给出,那么它们的曼哈顿距离为:
d(x1,x2)=|x1-x2|+|y1-y2|
    3.余弦距离(Cosine Distance)
    余弦距离也是常用的计算相似度的方法,它是计算两个向量之间夹角余弦值(cos)的相似度度量,通常用来计算文本相似度。假设这两个向量分别由(x1,y1)和(x2,y2)给出,那么它们的余弦距离为:
d(x1,x2)= 1-cos(x1,x2)
4.Tanmoto系数(Tanimoto Coefficient)
    Tanmoto系数(Tanimoto Coefficient)是常用的字符串匹配方法,它也可以用来计算文本相似度、图片相似度等。 Tanmoto系数反映两个串之间的相似度,用于判断两个串的相似度大小。Tanmoto系数可以表示为:
字符串长度公式
C”=|AB|/|A|*|B|
其中AB是两个字符串的交集,A和B分别是字符串A和B的总长度。
    5.杰卡德距离(Jaccard Distance)
    杰卡德距离也是常用的相似度计算方法,它是用于度量两个集合的相似度的指标。它用于比较不同的字符串之间的相似度,以及比较不同文档之间的相似性。交叉距离(Jaccard Distance)可以用下面这个公式来计算:
Dj(A,B)=1-|AB|/|A\ B|
其中AB是两个字符串的交集,A\ B是A减去B的并集。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。