Python机器学习---2.聚类算法理论部分

1.1 无监督学习与聚类算法

决策树、线性和逻辑回归都是比较常用的机器学习算法他们虽然有着不同的功能但却都属于“有监督学习”的一部分即是说模型在训练的时候即需要特征矩阵X 也需要真实标签y。机器学习当中还有相当一部分算法属于“无监督学习” 无监督的算法在训练的时候只需要特征矩阵X 不需要标签。无监督学习的代表算法有聚类算法、降维算法。

聚类算法是无监督类机器学习算法中最常用的一类其目的是将数据划分成有意义或有用的组(也被称为簇)。这种划分可以基于我们的业务需求或建模需求来完成也可以单纯地帮助我们探索数据的自然结构和分布。如果目标是划分成有意义的组则簇应当捕获数据的自然结构。然而在某种意义下聚类分析只是解决其他问题(如数据汇总)的起点。无论是旨在理解还是应用聚类分析都在广泛的领域扮演着重要角色。这些领域包括:心理学和其他社会科学、生物学、统计学、模式识别、信息检索、机
器学习和数据挖掘。
聚类分析在许多实际问题上都有应用下面是一些具体的例子按聚类目的是为了理解数据自然结构还是用于数据处理来组织。

1.1.1.旨在理解数据自然结构的聚类

在对世界的分析和描述中类或在概念上有意义的具有公共特性的对象组扮演着重要的角色。的确人类擅长将对象划分成组(聚类) 并将特定的对象指派到这些组(分类)。例如即使很小的孩子也能很快地将图片.上的对象标记为建筑物、车辆、人、动物、植物等。就理解数据而言,簇是潜在的类而聚类分析是研究自动发现这些类的的技术。

1.1.2 用于数据处理的聚类

聚类分析提供由个别数据对象到数据对象所指派的簇的抽象。此外 -些聚类技术使用簇原型(即同一个簇中用于代表其他对象的数据对象例如质心等)来刻画簇特征。这些簇原型可以用作大量数据分析和数据处理技术的基础。因此就聚类用于数据处理层面而言聚类分析是研究发现最有代表性的簇原型的技术。

数据降维
许多数据分析技术如回归和PCA,都具有O(m2 )或更高的时间或空间复杂度(其中m是对象的个数)。因此对于大型数据集这些技术不切实际。然而可以将算法用于仅包含簇原型的数据
集即每一列只保留其原型而不是整个数据集。依赖分析类型、原型个数和原型代表数据的精度行汇总结果可以与使用所有数据得到的结果相媲美。数据离散压缩
簇原型可以用于数据列压缩。例如创建一个包含所有簇原型的表即每个原型赋予-个整数值,作为它在表中的位置(索引)。每个对象用于它所在的簇相关联的原型的索引表示。这类压缩称作
向量量化(vector quantization) 并常常用于图像、声音和视频数据。
无论是用于数据降维还是离散压缩都将损失-定的数据信息量而能够使用聚类进行信息浓缩的
数据的特点是:
(1) 许多数据对象之间高度相似
(2) 某些信息丢失是可以接受的
(3) 希望大幅度压缩数据量有效地发现最近邻
很多机器学习算法都是基于距离的模型即找出最近邻可能需要计算所有点对点之间的距离如之前介绍的KNN。通常我们可以使用簇原型减少发现对象最近邻所需要计算的距离的数目。直观地说如果两个簇原型相距很远则对应簇中的对象不可能互为近邻。这样为了找出一个对象的最近邻只需要计算到邻近簇中对象的距离其中两个簇的邻近性用其原型之间的距离度量从而大幅降低KNN类算法的计算量。 1.2 核心概念

在讨论具体的聚类技术之前还需要讨论必要的背景知识。首先我们就聚类分析中的核心概念展开讨论。

1.2.1 聚类分析

聚类分析仅根据在数据中发现的描述对象及其关系的信息将数据对象分组。其目标是组内的对象相互之间是相似的(相关的) 而不同组中的对象是不同的(不相关的)。组内的相似性(同质性)越大组间差别越大聚类就越好。

1.2.2 簇

简单来说簇就是分类结果的类但实际上簇并没有明确的定义并且簇的划分没有客观标准我们可以利用下图来理解什么是簇。该图显示了20个点和将它们划分成簇的3种不同方法。标记的形状指示簇的隶属关系。下图分别将数据划分成两部分和六部分。然而将2个较大的簇都划分成3个子簇可能是人的视觉系统造成的假象。此外说这些点形成4个簇可能也不无道理。该图表明簇的定义是不精确的,而最好的定义依赖于数据的特性和期望的结果。聚类分析与其他将数据对象分组的技术相关。例如聚类可以看作一种分类它用类(簇) 标号创建对
象的标记。然而只能从数据导出这些标号。相比之下 KN则是监督分类(supervisedclassfication) 即使用由类标号已知的对象开发的模型对新的、无标记的对象赋予类标号。为此,有时称聚类分析为非监督分类(unsupervised classification)。在数据挖掘中不附加任何条件使用术语分类时通常是指监督分类。

1.3 基于原型的聚类技术: K-Means 1.3.1 基于原型的簇

此时簇是对象的集合并且其中每个对象到定义该簇的原型的距离比到其他簇的原型的距离更近(或更加相似)。对于具有连续属性的数据簇的原型通常是质心即簇中所有点的平均值。当质心没有意义时(例如当数据具有分类属性时) 原型通常是中心点即簇中最有代表性的点。对于许多数据类型,原型可以视为最靠近中心的点;在这种情况下通常把基于原型的簇看作基于中心的簇(center-basedcluster)。毫无疑问这种簇趋向于呈球状。下图是一个基于中心簇的例子。

1.3.2. K-Means基本定义

K均值算法比较简单我们从介绍它的基本算法开始。首先选择K个初始质心其中K是我们指定的参数即所期望的簇的个数。每个点指派到最近的质心而指派到一个质心的点集为一个簇。然后,根据指派到簇的点更新每个簇的质心。重复指派和更新步骤直到簇不发生变化或等价地直到质心不发生变化。
K-Means的核心任务就是根据我们设定好的K 找出K个最优的质心并将离这些质心最近的数据分别分配到这些质心代表的簇中去。具体过程可以总结如下:

那什么情况下质心的位置会不再变化呢?当我们找到一个质心在每次迭代中被分配到这个质心上的样本都是一致的即每次新生成的簇都是一致的所有的样本点都不会再从一个簇转移到另一个簇质心就不会变化了。这个过程在可以由下图来显示我们规定将数据分为4簇(K 4) 其中白色X代表质心的位置:

在数据集下多次迭代(iteration),就会有:

可以看见第六次迭代之后基本上质心的位置就不再改变了生成的簇也变得稳定。此时我们的聚类就完成了我们可以明显看出 K-Means按照数据的分布将数据聚集成了我们规定的4类接下来我们就可以按照我们的业务需求或者算法需求对这四类数据进行不同的处理。

1.3.3 算法执行细节

聚类算法聚出的类有什么含义呢?这些类有什么样的性质?我们认为被分在同一个簇中的数据是有相似性的而不同簇中的数据是不同的当聚类完毕之后我们就要分别去研究每个簇中的样本都有什么样的性质从而根据业务需求制定不同的商业或者科技策略。聚类算法的目的就是追求“簇内差异小簇外差异大”。而这个“差异” 由样本点到其所在簇的质心的距离来衡量。
对于一个簇来说所有样本点到质心的距离之和越小我们就认为这个簇中的样本越相似簇内差异就越小。而距离的衡量方法有多种令x表示簇中的一个样本点 μ表示该簇中的质心 n表示每个样本点中的特征数目表示组成点x的每个特征则该样本点到质心的距离可以由以下距离来度量。

距离衡量方法

常见距离衡量方法即对应公式如下所示:
● 数据距离
对于数据之间的距离而言在欧式空间中我们常常使用欧几里得距离也就是我们常说的距离平方
和开平方其基本计算公式如下:

除此之外还有曼哈顿距离也被称作街道距离该距离的计算方法相当于是欧式距离的1次方表示形式其基本计算公式如下:

当然不管是欧式距离还是曼哈顿距离都可视为闵可夫斯基距离的-种特例该距离计算公式如下:

当n为1时就是曼哈顿距离当n为2时即为欧式距离当n趋于无穷时即为切比雪夫距离。

文本距离

而除了数据距离之外距离的衡量还常见于文本数据之间此时我们常用余弦相似性或杰卡德相似度来进行衡量余弦相似性计算本质上就是计算余弦夹角其基本计算公式如下:

而杰卡德相似度则主要以集合运算为主:

1.3.4 误差平方和SSE (Sum of the Squared Error, SSE)

此处引入机器学习算法中非常重要的概念误差平方和也被称为组内误差平方和。该概念在聚类和回归算法中均有广泛应用。在聚类算法中所谓误差平方和是指每个数据点的误差即它到最近所属类别质心的欧几里得距离然后求和汇总既得误差平方和。在聚类算法中 SSE是我们判断模型是否最优的重要指标我们希望求得的模型是在给定K值得情况下SSE最小的模型即在相同的K值情况下聚类模型SSE越小越好这也是聚类算法最核心的优化条件。

1.3.5 聚类目标函数和质心计算方法

聚类算法中的目标函数是实现聚类这一目标所使用的函数如最小化对象到其所属类的质心距离等这里需要注意 -般如果采用距离作为邻近度衡量标准则目标函数往往是利用最小距离来构建聚类类别而若采用相似度作为邻近度衡量标准则目标函数就是利用最大化相似度和来构建聚类类别。
而质心是聚类类别的原型 -般可用均值或中位数来表示。但无论如何在一旦确定距离衡量方法或邻近度函数(如欧式距离等) 并在模型优化条件(SSE最小) 的指导下目标函数和质心选取方法都会随之确定常用邻近度函数、质心和目标函数组合如下:

而这一切实际上是建立在严格的数学理论推导的基础之上的推导方法之一就是利用EM算法进行计算。首先我们需要定义聚类算法中的符号集:

然后误差平方和可由下列计算公式表示:

其中 C; 是第i个簇 x是C;中的点 C是第i个簇的质心。我们这里验证最常用的当采用欧式距离时当且仅当质心为均值的时候才能够保证在目标函数的聚类过程中SSE保持最小。要保证在给定K值情况”下总SSE最小则用梯度下降理论工具可将问题转化为为了保证总SSE最小 K的每一步取值即K值每增加1,都要能够最大程度降低SSE,即在给定K值步长为1的情况下去找SSE下降速度最快的坡度(详见逻辑回归)。即簇的最小化SSE的最佳质心是簇中各点的均值。同样可类似证明采用曼哈顿距离时最佳质心选取方案是选取中位数而当采用余弦夹角衡量相似度时均值是最佳的质心计算方法。

Python机器学习---2.聚类算法理论部分

Python相关栏目本月热门文章