利用Python计算Spearman相关系数,非调用函数,针对array和list的实现...--688IT编程网

利⽤Python计算Spearman相关系数，⾮调⽤函数，针对array和list的实现

⾃⼰编程实现Spearman相关系数的计算。

Spearman相关系数

Spearman相关系数是⼀种秩相关系数。数据的秩简单来说就是该样本数据的次序统计量。秩统计量是基于样本值的⼤⼩在全体样本中所占位次(秩)的统计量

例：有样本数据-0.8, -3.1, 1.1, -5.2, 4.2，次序统计量的值是-5.2, -3.1, -0.8,1.1, 4.2，则秩统计量的取值是3,2,4,1,5。

若观测数据中两个值相等，则秩取为它们应排序位置的平均值。

例：有样本数据-0.8, -3.1, -0.8，秩为2.5, 1, 2.5。

Spearman相关系数计算公式：

其中，Ri是X的秩统计量，Si是Y的秩统计量，Spearman相关系数定义为这两组秩统计量的相关系数。

拆解任务

读⼊数据

排序

第⼀次计算秩统计量

查是否有相等数据，纠正次序统计量

计算Spearman相关系数

排序

array形式

da2 = pd.read_excel(fb,header = None)

da3 = da2.values #将pd格式转换成数组

row = da2.shape[0]

python 定义数组

col = da2.shape[1]

sa1 = np.sort(da3[:,0]) #数据排序

sa2 = np.sort(da3[:,1])

sb1 = da3[:,0]

sb2 = da3[:,1]

pr = np.ones((1,row))

ps = np.ones((1,row))

list形式

wb = xlrd.open_workbook(r'C:\Users\LENOVO\Documents\Tencent Files\973391860\FileRecv\eg1d9data.xls')#打开⽂件

sheet1 = wb.sheet_by_index(0)#通过索引获取表格

x1 = l_values(0)

x2 = l_values(0) #不可直接x2=x1，这样会变成创建副本，x2跟着x1变

y1 = l_values(1)

y2 = l_values(1) #获取列内容

n =len(x1)

x1.sort() #排序

y1.sort()

pr = np.ones((1,n))

ps = np.ones((1,n))

不可直接x2=x1，这样会变成创建副本，x2跟着x1变

第⼀次计算秩统计量

array形式

for i in range(row):

[c]=np.where(sa1==sb1[i])

[d]= np.where(sa2==sb2[i]) #确定元素位置

pr[0][i]= c[0]

ps[0][i]= d[0]

np.where返回的是元组形式，要获取元组数据，应⽤[]来获取

list形式

for i in range(n):

sx = sx + np.square(x2[i]- mx)

sy = sy + np.square(y2[i]- my)

sz = sz +(x2[i]-mx)*(y2[i]-my)

pr[0][i]= x1.index(x2[i]) #获取秩统计量，此处因数据为列表形式，故⽤此⽅法，数组另有⽅法

ps[0][i]= y1.index(y2[i]) #列表对于重复元素，只能获取第⼀个出现元素的索引，⽽数组可以⼀次获取，但数组获取返回的是元组形式纠正次序统计量

array形式

def findrank(x1,z):

repeat =[item for item, count in Counter(x1).items()if count >1] # 重复元素

rcount =[count for item, count in Counter(x1).items()if count >1] #重复次数

nr =len(repeat)

for j in range(nr): #处理重复元素的秩统计量

[a]= np.where(x1==repeat[j])

m = rcount[j]

b =sum(a)/m

for k in range(m):

[d,c]= np.where(z==a[k])

z[0][c]= b

list形式

def findrank(x1,z):

repeat =[item for item, count in Counter(x1).items()if count >1] # 重复元素

rcount =[count for item, count in Counter(x1).items()if count >1] #重复次数

nr =len(repeat)

for j in range(nr): #处理重复元素的秩统计量

a = x1.index(repeat[j])

m = rcount[j]

b =(m*a+(m-1)*m/2)/m

[d,c]= np.where(z==a)

z[0][c]= b

计算Spearman相关系数

这⾥array和list的代码没有区别。

array形式

findrank(sa1,pr)

findrank(sa2,ps)

qxy =0

for i in range(row):

qxy = qxy + np.square(pr[0][i]- ps[0][i]) #计算spearman qxy =1-6/row/(np.square(row)-1)*qxy

print(qxy)

list形式

findrank(x1,pr)

findrank(y1,ps)

qxy =0

for i in range(n):

qxy = qxy + np.square(pr[0][i]- ps[0][i]) #计算spearman qxy =1-6/n/(np.square(n)-1)*qxy

完整代码在**

688IT编程网

利用Python计算Spearman相关系数,非调用函数,针对array和list的实现...

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林特征选择原理

自动驾驶系统中的随机森林算法解析

随机森林算法及其在生物信息学中的应用

监督学习中的随机森林算法解析(六)

随机森林算法在数据分析中的应用

机器学习——随机森林,RandomForestClassifier参数含义详解

随机森林的算法

随机森林算法作用

监督学习中的随机森林算法解析(十)

随机森林算法案例

随机森林案例

二分类问题常用的模型

绘制ssd框架训练流程

一种基于信息熵和DTW的多维时间序列相似性度量算法

SVM训练过程范文

如何使用支持向量机进行股票预测与交易分析

二分类交叉熵损失函数binary

tinybert_训练中文文本分类模型_概述说明

基于门控可形变卷积和分层Transformer的图像修复模型及其应用

人工智能开发技术的测试和评估方法

最新文章

基于随机森林的数据分类算法改进

人工智能中的智能识别与分类技术

基于人工智能技术的随机森林算法在医疗数据挖掘中的应用

随机森林回归模型的建模步骤

r语言随机森林预测模型校准曲线

《2024年随机森林算法优化研究》范文

标签列表

688IT编程网

利用Python计算Spearman相关系数,非调用函数,针对array和list的实现...

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林特征选择原理

自动驾驶系统中的随机森林算法解析

随机森林算法及其在生物信息学中的应用

监督学习中的随机森林算法解析(六)

随机森林算法在数据分析中的应用

机器学习——随机森林,RandomForestClassifier参数含义详解

随机森林 的算法

随机森林算法作用

监督学习中的随机森林算法解析(十)

随机森林算法案例

随机森林案例

二分类问题常用的模型

绘制ssd框架训练流程

一种基于信息熵和DTW的多维时间序列相似性度量算法

SVM训练过程范文

如何使用支持向量机进行股票预测与交易分析

二分类交叉熵损失函数binary

tinybert_训练中文文本分类模型_概述说明

基于门控可形变卷积和分层Transformer的图像修复模型及其应用

人工智能开发技术的测试和评估方法

最新文章

基于随机森林的数据分类算法改进

人工智能中的智能识别与分类技术

基于人工智能技术的随机森林算法在医疗数据挖掘中的应用

随机森林回归模型的建模步骤

r语言随机森林预测模型校准曲线

《2024年随机森林算法优化研究》范文

标签列表

随机森林的算法