手写算法-python代码实现Kmeans++以及优化--688IT编程网

⼿写算法-python代码实现Kmeans++以及优化

聚类结果不稳定的优化⽅法

上篇⽂章，我们列举了Kmeans的不⾜之处，也⽤python代码实现了Kmeans聚类，但是跑出来的聚类结果不稳定，详情请看：链接:

今天，我们来解决这个问题。

⼀次优化：kmeans++

问题点：随机选取k个数据，导致结果⽆法收敛。

因为随机选取，可能会使选取的⼏个数据点都⾮常靠近，不仅导致算法收敛很慢，还会导致结果只收敛到局部最⼩值。

解决思路：

使⽤Kmeans++的⽅法初始质⼼，流程如下：

1、从输⼊的数据点集合中随机选择⼀个点作为第⼀个聚类中⼼；

2、对于数据集中的每⼀个点xi，计算它与已选择的聚类中⼼中最近聚类中⼼的距离D(x)；

3、选择⼀个新的数据点作为新的聚类中⼼，选择的原则是：D(x)较⼤的点，被选取作为聚类中⼼的概率较⼤；

4、重复b和c直到选择出k个聚类质⼼；

5、利⽤这k个质⼼来作为初始化质⼼去运⾏标准的K-Means算法；

按照上⾯的流程，我们来修改Kmeans代码，实现Kmeans++。

import numpy as np

from sklearn.datasets import make_blobs

from matplotlib import pyplot as plt

#⽆监督算法，学习过程就是训练质⼼的位置，进⾏聚类

class Kmeans:

#添加init参数，默认init = 'random'就是标准Kmeans，init = 'Kmeans++'则为Kmeans++

def __init__(self,k,init='random'):

self.k = k

self.init = init

def calc_distance(self,x1,x2):

diff = x1 - x2

distances = np.sqrt(np.square(diff).sum(axis=1))

return distances

def fit(self,x):

self.x = x

m,n = shape

if self.init == 'random':

#随机选定k个数据作为初始质⼼，不重复选取

#默认类别是从0到k-1

elif self.init == 'Kmeans++':

first = np.random.choice(m)

#储存在⼀个列表中

index_select = [first]

#继续选取k-1个点

for i in range(1,self.k):

all_distances = np.empty((m,0))

for j in index_select:

#计算每个数据点到已选择的质⼼的距离

distances = self.calc_distance(self.x,x[j]).reshape(-1,1)

#把每个数据点到已选择的质⼼的距离储存在数组中，每个质⼼⼀列

all_distances = np.c_[all_distances,distances]

#到每个点到已选择质⼼的最⼩距离

min_distances = all_distances.min(axis=1).reshape(-1,1)

#在min_distances⾥⾯选取距离较⼤的点作为下⼀个质⼼，我们就选最⼤的点

index = np.argmax(min_distances)

index_select.append(index)

#⽣成Kmeans++⽅法的初始质⼼，默认类别是从0到k-1

while True:

#初始化⼀个字典，以类别作为key，赋值⼀个空数组

dict_y = {}

for j in range(self.k):

dict_y[j] = np.empty((0,n))

for i in range(m):

distances =self.calc_distance(x[i],iginal_center)

#把第i个数据分配到距离最近的质⼼，存放在字典中

label = np.argsort(distances)[0]

dict_y[label] = np.r_[dict_y[label],x[i].reshape(1,-1)]

centers = np.empty((0,n))

#对每个类别的样本重新求质⼼

for i in range(self.k):

center = np.mean(dict_y[i],axis=0).reshape(1,-1)

centers = np.r_[centers,center]

#与上⼀次迭代的质⼼⽐较，如果没有发⽣变化，则停⽌迭代（也可考虑收敛时停⽌）

result = np.all(centers == iginal_center)

if result == True:

break

else:

#继续更新质⼼

def predict(self,x):

y_preds = []

m,n = x.shape

for i in range(m):

distances =self.calc_distance(x[i],iginal_center)

y_pred = np.argsort(distances)[0]

y_preds.append(y_pred)

return y_preds

代码修改完毕，现在我们再次请出上篇⽂章⽤到的数据集，验证修改后，聚类结果稳不稳定：

#再次⽤到此数据集

x,y = make_blobs(centers=5,random_state=20,cluster_std=1)

plt.scatter(x[:,0],x[:,1])

plt.show()

model = Kmeans(k=5,init = 'Kmeans++') model.fit(x)

y_preds = model.predict(x)

plt.scatter(x[:,0],x[:,1],c=y_preds)

plt.show()

可以看到，不管执⾏多少遍，聚类结果都是稳定的，证明我们修改的Kmeans++成功！⼆次优化：添加参数n_init

这是什么意思呢，意思很简单：

就是我执⾏n_init次，最终结果取最优的⼀次，最优怎么理解呢？

简单地说，就是所有样本点到所属的聚类质⼼的距离之和最⼩，即为最优。

在Kmeans++⽅法选取质⼼的基础上，再添加参数n_init，双重保险，万⽆⼀失！哈哈。。。到n_init次运⾏中，J最⼩时，对应的聚类质⼼，即为最优解。

继续修改代码如下：

#⽆监督算法，学习过程就是训练质⼼的位置，进⾏聚类

class Kmeans:

#添加init 参数，默认init = 'random'就是标准Kmeans ，init = 'Kmeans++'则为Kmeans++

def __init__(self,k,n_init,init='random'):

self.k = k

self.n_init = n_init

self.init = init

def calc_distance(self,x1,x2):

diff = x1 - x2

distances = np.sqrt(np.square(diff).sum(axis=1))

return distances

def fit(self,x):

m,n = x.shape

if self.init == 'random':

#随机选定k 个数据作为初始质⼼，不重复选取

快速排序python实现iginal_ = np.random.choice(m,self.k,replace=False)

#默认类别是从0到k-1

elif self.init == 'Kmeans++':

first = np.random.choice(m)

#储存在⼀个列表中

index_select = [first]

#继续选取k-1个点

for i in range(1,self.k):

all_distances = np.empty((m,0))

for j in index_select:

#计算每个数据点到已选择的质⼼的距离

distances = self.calc_distance(x,x[j]).reshape(-1,1)

#把每个数据点到已选择的质⼼的距离储存在数组中，每个质⼼⼀列

all_distances = np.c_[all_distances,distances]

#到每个点到已选择质⼼的最⼩距离

min_distances = all_distances.min(axis=1).reshape(-1,1)

#在min_distances ⾥⾯选取距离较⼤的点作为下⼀个质⼼，我们就选最⼤的点

index = np.argmax(min_distances)

index_select.append(index)

#⽣成Kmeans++⽅法的初始质⼼，默认类别是从0到k-1

while True:

#初始化⼀个字典，以类别作为key ，赋值⼀个空数组

dict_y = {}

for j in range(self.k):

dict_y[j] = np.empty((0,n))

for i in range(m):

distances =self.calc_distance(x[i],iginal_center)

#把第i 个数据分配到距离最近的质⼼，存放在字典中

label = np.argsort(distances)[0]

dict_y[label] = np.r_[dict_y[label],x[i].reshape(1,-1)]

centers = np.empty((0,n))J =min ∣∣x −i =1∑m

i μ∣∣c i 2

688IT编程网

手写算法-python代码实现Kmeans++以及优化

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

手写算法-python代码实现Kmeans++以及优化

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式