聚类分析不调包代码学习笔记

import numpy as np
#定义一个欧式距离
def distEclud(vecA,vecB):
    return np.sqrt(np.sum(np.power(vecA-vecB,2)))
#np.power(x,y)是计算x的y次方
print('----test_distEclud----')
vecA,vecB=np.array([1,1]),np.array([2,1])
distance = distEclud(vecA,vecB)
print(distance)

接下来设置k个中心点

#随机设置k个中心点
def randCent(dataSet,k):
    n=np.shape(dataSet)[1] #获取列值
    centroids=np.mat(np.zeros([k,n])) #创建K行n列全为0的矩阵，mat函数为创建矩阵
    for j in range(n):
        minj = np.min(dataSet[:,j]) #获得j列的最小值
        rangej = float(np.max(dataSet[:,j]-minj))#获得输出为k行1列的数据，并使其在数据集范围内
        centroids[:,j]=np.mat(minj+rangej*np.random.rand(k,1)) #生成k行1列的服从0~1均匀分布的随机样本值
    return centroids

print('----test_randCent----')
dataSet1 = np.array([[1,2],[3,6],[8,10],[12,23],[10,11],[14,18]])
print(dataSet1[1,:])
r=randCent(dataSet1,2)
print(r)

np.random.seed(666)
rand_num=np.random.rand(3,1) #输出为3行1列，随机数在0到1之间
test=np.mat(np.zeros([3,2]))

随后定义KMeans函数

#定义KMeans函数
def KMeans(dataSet,k,distMeans= distEclud,createCent=randCent):
    m=np.shape(dataSet)[0] #行数即样本数
    clusterAssement = np.mat(np.zeros([m,2])) #行数为m，列数为2的零矩阵，方便后面填入数值
    centroids = createCent(dataSet,k) #初始化k个中心点，行数为k，列数为dataSet的列数
    clusterChanged = True
    while clusterChanged :
        clusterChanged=False
        for i in range(m):
            #minDist是一个数，存放最小的那个欧氏距离
            #minIndex是存放第i个样本离哪个中心点更近
            minDist = np.inf #先取无穷大
            minIndex = -1
            for j in range(k):
                distJ=distMeans(centroids[j,:],dataSet[i,:])
                if distJ < minDist:
                    minDist = distJ #更新最小距离
                    minIndex = j
            clusterAssement[i,:]=minIndex, minDist**2 #将聚类的类别和最小距离存入该矩阵
            if clusterAssement[i,0] != minIndex: #如果中心点没变化，则终止循环
                clusterChanged= True
        print(centroids) #打印k个中心点的坐标
        #更换中心点的位置
        for cent in range(k):
            #nonzero()返回的是一个二维的数组，其表示非0的元素位置。取这里面的行
            ptsInClust = dataSet[np.nonzero(clusterAssement[:,0].A==cent)[0]] #找到属于k类的数据，.A是把数据拉成一列
            centroids[cent,:]=np.mean(ptsInClust,axis=0) #得到更新后的中心点
    return centroids,clusterAssement

数据验证

#数据验证
dataSet = np.mat([[ 0.90796996 ,5.05836784],[-2.88425582 , 0.01687006],
                    [-3.3447423 , -1.01730512],[-0.32810867 , 0.48063528]
                    ,[ 1.90508653 , 3.530091  ]
                    ,[-3.00984169 , 2.66771831]
                    ,[-3.38237045 ,-2.9473363 ]
                    ,[ 2.22463036 ,-1.37361589]
                    ,[ 2.54391447 , 3.21299611]
                    ,[-2.46154315 , 2.78737555]
                    ,[-3.38237045 ,-2.9473363 ]
                    ,[ 2.8692781  ,-2.54779119]
                    ,[ 2.6265299  , 3.10868015]
                    ,[-2.46154315 , 2.78737555]
                    ,[-3.38237045 ,-2.9473363 ]
                    ,[ 2.80293085 ,-2.7315146 ]])
center, cluster = KMeans(dataSet, 2)

代码参考：https://blog.csdn.net/taoyanqi8932/article/details/53727841https://blog.csdn.net/taoyanqi8932/article/details/53727841

聚类分析不调包代码学习笔记

Python相关栏目本月热门文章