kmeans算法(kmean算法改进和应用论文)

回归

聚类属于非监督学习不知道点的标签，知道标签就是监督学习。

K-means算法

clustering中的经典算法，数据挖掘十大经典算法之一
算法接受参数k；然后将事情先输入的n个数据对象划分为k个聚类以便于使获得的聚类满足：同一聚类的对象相似度高，不同类聚相似度低。
算法思想：以空间中k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代更新各类中心的值，直到出现最好的聚类结果。
算法描述：

适当的选择c个类的初始中心，在第k次迭代中对任意一个样本，求其到c的距离，将该样本归到距离最短的中心所在的类利用均值等方法更新该类的中心值对于所有的c个聚类中心，如果迭代更新，数据不变，保持不变，则迭代结束，否则继续迭代。代码

import numpy as np
#设置函数 数据集，分几类 循环几次
def kmeans(x,k,maxit):
    # 获取数据的形状
    numpoint,numDim =x.shape
    # 加一类 用来存多少行 创建一个矩阵
    dataset = np.zeros((numpoint,numDim+1))
    # 从头到倒数第二列   :,表示所有
    dataset[:,:-1] =x
    # 随机选择k个中心点。随机选择k行，所有的列数都要
    centroids = dataset[np.random.randint(numpoint,size = k),:]
    centroids[:,-1] = range(1,k+1)
    #初始化中心点
    iterations = 0
    oldCentroids =None
    while not shouldStop(oldCentroids,centroids,iterations,maxit):
        print(iterations,dataset,centroids)
        #将新的中心点赋值到旧的中心点
        oldCentroids = np.copy(centroids)
        iterations +=1
        #更新重新分类
        updateLabels(dataset,centroids)
        #获得新的中心点
        centroids = getCentroids(dataset,k)
    return dataset

def shouldStop(oldCentroids,centroids,iterations,maxit):
    #到达最大次数的时候可以退出
    if iterations >maxit:
        return True
    #如果没有达到最大次数时候，看两者的中心点是否相等
    return np.array_equal(oldCentroids,centroids)
# 更新数据
def updateLabels(dataset,centroids):
    #返回数据集的形状
    numpoint,numdim = dataset.shape
    for i in range(0,numpoint):
        #比较每一行到中心点的距离，最近的点的标签返回。
        dataset[i,-1]=getLabelFromClosestCentroid(dataset[i,:-1],centroids)
#获取每一行的点到中心点的距离
def getLabelFromClosestCentroid(datasetRaw,centroids):
    #初始化中心点的位置
    label = centroids[0,-1]
    #将第一个作为最小的距离 np.linalg.norm（）函数，传入两个向量，返回值是两个向量的距离。
    minDist = np.linalg.norm(datasetRaw-centroids[0,:-1])
    #循环每一个点和中心点的距离，
    for i in range(1,centroids.shape[0]):
        dist = np.linalg.norm(datasetRaw-centroids[i,:-1])
        if dist  
结果 
 
层次聚类 hierarchical clustering 
假设有N个待聚类的样本，对于层次聚类来说，步骤： 
 
初始把每个样本归为一类，计算每两个类的样本之间的距离，也就是样本之间的相似度，
  寻找各类样本之间最近的两个类，把他们归为一类
  重新计算新生成的这个类和其他样本的相似度
  重复前面两个步骤，直到所有样本都归为一类，结束。
 整个聚类过程其实时建立了一棵树，在建立过程中，可以通过第二部分的设置阈值，当最近的两个类的距离大于这个阈值，则认为迭代可以终止。另外最关键的一步就是第三步，如何判断两个类之间的相似度的方法有：
  取两类中距离最近的两个样本的距离作为这两个集合的距离，也就是说最近的两个样本的距离越小，相似度就越大，
  取两类中的最远的点距离作为两个集合的距离
  把两个集合两两配对，一起求平均值
  取两两距离的中值

kmeans算法(kmean算法改进和应用论文)

Python相关栏目本月热门文章