【一起入门MachineLearning】中科院机器学习第*课-聚类算法：K均值（K-means）

专栏介绍：本栏目为 “2021秋季中国科学院大学周晓飞老师的机器学习” 课程记录，不仅仅是课程笔记噢～如果感兴趣的话，就和我一起入门Machine Learning吧殺

目录
算法思想：例子
1.明确初始簇心2.计算所有样本点到簇心的距离3.更新簇心4.回到第二步继续算距离并分类5.分类结果不变化时，停止分类问题与改进优缺点

参考：B站：【10分钟算法系列】

算法思想：

将样本分给最近的类心，然后重新调整类心；通过多次迭代，逐步进行类别划分例子 1.明确初始簇心

2.计算所有样本点到簇心的距离

比如A1,它到A3的距离比到A4的距离小，因此它将和A3归为同一类，这轮计算之后，蓝色的点被分为一类，紫色的点被分为一类。

3.更新簇心

三个蓝色的点，三个紫色的点分别计算一个均值，作为新的簇心

4.回到第二步继续算距离并分类

5.分类结果不变化时，停止分类

可以看到上图中，第二次分类时，135三个点还是被分在了同一类中，与第一次分类的结果没有差别，意味着分类结束。

问题与改进

由于K-means的基本思想是按照最近类心原则，批量划分后修正类心，这将会导致以下问题

可能导致空的簇批量修正使得划分并不能最好地收敛目标

改进方法：单个划分最优原则，单个划分后修正类心。（也就是新增一个样本点就调整一次簇心）

优缺点

缺点：

受初值和离群点的影响每次的结果不稳定结果通常不是全局最优而是局部最优解无法很好地解决数据簇分布差别比较大的情况不太适用于离散分类

优点：

对于大数据集，相对高效计算复杂度是 O(NKt) 接近于线性，其中N是数据对象的数目，K是聚类的簇数，t是迭代的轮数。

调优方法：

数据归一化离群点预处理采用核函数合理选择K值

其他例题：【一起入门MachineLearning】中科院机器学习-期末题库-【计算题13+简答题3,22+单选题58,82+多选题19】

【一起入门MachineLearning】中科院机器学习第*课-聚类算法：K均值（K-means）

大数据系统相关栏目本月热门文章