机器学习《西瓜书》9.4解答——k-means算法:编程实现k均值算法,设置三...--688IT编程网

机器学习《西⽠书》9.4解答——k-means算法：编程实现k均值算法，设置三组

不同的k值。。。

1.运⾏结果：（注：图中⽅块标注的点为随机选取的初始样本点）

k=2时：

本次选取的2个初始向量为[[0.243, 0.267], [0.719, 0.103]]

共进⾏61轮

共耗时0.10s

k=3时：

本次选取的3个初始向量为[[0.343, 0.099], [0.719, 0.103], [0.774, 0.376]]

共进⾏64轮

共耗时0.10s

k=4时:

本次选取的4个初始向量为[[0.339, 0.241], [0.748, 0.232], [0.608, 0.318], [0.725, 0.445]]

共进⾏10轮

共耗时0.02s

2.结果分析：

k-means算法选的初始点离得越远越容易收敛，聚类效果也越好。

因此k-means算法的好坏与初始样本的选取有很⼤关系。

3.k-means改进：

（1）K-means++：

K-means++按照如下的思想选取K个聚类中⼼：

假设已经选取了n个初始聚类中⼼(0<n<K)，则在选取第n+1个聚类中⼼时，距离当前n个聚类中⼼越远的点会有更⾼的概率被选为第n+1个聚类中⼼。在选取第⼀个聚类中⼼(n=1)时同样通过随机的⽅法。可以说这也符合我们的直觉：聚类中⼼当然是互相离得越远越好。

(2) ISODATA：

ISODATA的全称是迭代⾃组织数据分析法。在K-means中，K的值需要预先⼈为地确定，并且在整个算法过程中⽆法更改。⽽当遇到⾼维度、海量的数据集时，⼈们往往很难准确地估计出K的⼤⼩。ISODATA就是针对这个问题进⾏了改进，它的思想也很直观：

当属于某个类别的样本数过少时把这个类别去除，当属于某个类别的样本数过多、分散程度较⼤时把这个类别分为两个⼦类别。

(3) Kernel K-means：

传统K-means采⽤欧式距离进⾏样本间的相似度度量，显然并不是所有的数据集都适⽤于这种度量⽅式。参照⽀持向量机中核函数的思想，将所有样本映射到另外⼀个特征空间中再进⾏聚类，就有可能改善聚类效果。

4.代码清单：（详见注释）

# coding=utf-8

# author:yjy

# date:2019/12/1

import numpy as np # 扩展程序库，针对数组运算提供⼤量的数学函数库

import pandas as pd # 加强版numpy，pandas拥有种数据结构：Series和DataFrame

import matplotlib.pyplot as plt # 绘图库，⼀种 MatLab 开源替代⽅案

import random # 随机数模块

import time # 时间模块，时间戳时间: float数据类型，给机器⽤

# 西⽠数据集4.0: 密度含糖率标签

data = [[0.697, 0.460, 1],

[0.774, 0.376, 1],

[0.634, 0.264, 1],

[0.608, 0.318, 1],

[0.556, 0.215, 1],

[0.430, 0.237, 1],

[0.481, 0.149, 1],

[0.437, 0.211, 1],

[0.666, 0.091, 0],

[0.243, 0.267, 0],

[0.245, 0.057, 0],

[0.343, 0.099, 0],

[0.639, 0.161, 0],

[0.657, 0.198, 0],

[0.360, 0.370, 0],

[0.593, 0.042, 0],

[0.719, 0.103, 0],

[0.359, 0.188, 0],

[0.339, 0.241, 0],

[0.282, 0.257, 0],

[0.748, 0.232, 0],

[0.714, 0.346, 1],

[0.483, 0.312, 1],

[0.478, 0.437, 1],

[0.525, 0.369, 1],

[0.751, 0.489, 1],

[0.532, 0.472, 1],

[0.473, 0.376, 1],

[0.725, 0.445, 1],

[0.446, 0.459, 1]]

# 多维数组中创建DataFrame（⼆维表），需要为DataFrame赋值columns和index(默认为数字)

column = ['density', 'sugar_rate', 'label']

dataSet = pd.DataFrame(data, columns=column)

# 创建类K_means

class K_means(object):

# 创建__init__⽅法，在⾯向对象编程中，给未来创建的对象所定义的进⾏初始化属性

# 当对象⼀旦被创建，Python将会⾃动调⽤__init__⽅法，⾥⾯的属性将会赋予这个对象

def __init__(self, k, data, loop_times, error): # self只有在类的⽅法中才会有，指向类的实例对象，⽽⾮类本⾝

self.k = k

self.data = data

self.loop_times = loop_times

< = error

def distance(self, p1, p2):

# linalg=linear（线性）+algebra（代数），norm则表⽰范数

# 求p = 2 时的闵可夫斯基距离，即欧⽒距离

return (np.array(p1) - np.array(p2))

def fitting(self):

time1 = time.perf_counter() # 返回性能计数器的值（以分秒为单位），表⽰程序开始运⾏到调⽤这个语句所经历的时间

mean_vectors = random.sample(self.data, self.k) # 随机选取k个初始样本

initial_main_vectors = mean_vectors

for vec in mean_vectors :

plt.scatter(vec[0], vec[1], s=100, color = 'black', marker='s') # 画出初始聚类中⼼，以⿊⾊正⽅形（square）表⽰

times = 0

# map(),⾼阶函数，它接收⼀个函数 f 和⼀个 list，并通过把函数 f 依次作⽤在 list 的每个元素上，得到⼀个新的 list 并返回

# lambda：返回可调⽤的函数对象，通常是在需要⼀个函数，但⼜不想命名⼀个函数时使⽤，lambda x : [x] 表⽰输⼊x，输出为[x] clusters = list(map((lambda x:[x]), mean_vectors))

lambda编程

while times < self.loop_times:

change_flag = 1 # 标记簇均值向量是否改变

for sample in self.data:

dist = []

for vec in mean_vectors:

dist.append(self.distance(vec, sample)) # 计算样本到每个聚类中⼼的距离

clusters[dist.index(min(dist))].append(sample) # 到离该样本最近的聚类中⼼，并将它放⼊该簇

new_mean_vectors = []

for c,v in zip(clusters, mean_vectors): # zip()将两个对象中对应的元素打包成⼀个个元组，然后返回由这些元组组成的列表 cluster_num = len(c)

cluster_array = np.array(c)

new_mean_vector = sum(cluster_array) / cluster_num # 计算出新的聚类簇均值向量

mean_vector = np.array(v)

# np.divide和np.true_divide结果⼀样（python3.7.2）,np.floor_divide只保留整数结果

# all(iterable)：如果iterable(元组或者列表)的所有元素不为0、False或者iterable为空，all(iterable)返回True，否则返回False if ue_divide((new_mean_vector - mean_vector), mean_vector) < np.array([, ])):

new_mean_vectors.append(mean_vector) # 均值向量未改变

change_flag = 0

else:

# dataFrame转List()，括号不能忘

new_mean_vectors.append(new_list()) # 均值向量发⽣改变

if change_flag == 1:

mean_vectors = new_mean_vectors

else:

break

times += 1

time2 = time.perf_counter()

# str.format()，基本语法是通过 {} 和 : 来代替以前的 %

print ('本次选取的{}个初始向量为{}'.format(self.k, initial_main_vectors))

print ('共进⾏{}轮'.format(times))

print ('共耗时{:.2f}s'.format(time2 - time1)) # 取2位⼩数

for cluster in clusters:

x = list(map(lambda arr: arr[0], cluster))

y = list(map(lambda arr: arr[1], cluster))

plt.scatter(x, y, marker = 'o', label = clusters.index(cluster)+1)

plt.xlabel('密度')

plt.ylabel('含糖率')

plt.legend(loc='upper left')

plt.show()

for i in [2, 3, 4]:

# 调⽤K_means，执⾏⽅法fitting()

k_means = K_means(i, dataSet[['density', 'sugar_rate']].list(), 1000, 0.0000001)

k_means.fitting()

688IT编程网

机器学习《西瓜书》9.4解答——k-means算法:编程实现k均值算法,设置三...

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

机器学习《西瓜书》9.4解答——k-means算法:编程实现k均值算法,设置三...

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式