系统聚类法
系统聚类法中最常用的方法是最短距离法和最长距离法。
目录
系统聚类法
1.最短距离法计算公式
2.最长距离法计算公式
1.最小距离法
最小距离法聚类分析运行结果
结果分析
2.最大距离法
最大距离法聚类分析运行结果
结果分析
1.最小距离法计算公式
最短距离法是类与类之间按照公式;
来计算的系统聚类法。它等于类Gp与类Gq中最邻近的两个样品的距离。
2.最长距离法计算公式
最长距离法是类与类之间采用公式:
来计算的系统聚类法。它等于类Gp与类Gq中最邻远的两个样品的距离。
例题:位比较10种不同的葡萄酒的质量,由5位品酒师对每种就的颜色、香味、酸度、添堵、纯度和果味等6项指标进行评价,最低评分为1分。最高10分,得到每种酒的没想指标的平均得分,使用系统聚类的最小距离法和最大距离法进行聚类分析。(例题来源《多元统计分析》--中国人民大学出版社)
| 酒 | 颜色x1 | 香味x2 | 酸度x3 | 甜度x4 | 纯度x5 | 果味x6 |
| 1 | 4.65 | 4.22 | 5.01 | 4.5 | 4.15 | 4.12 |
| 2 | 6.32 | 6.11 | 6.21 | 6.85 | 6.52 | 6.33 |
| 3 | 4.87 | 4.6 | 4.95 | 4.15 | 4.02 | 4.11 |
| 4 | 4.88 | 4.68 | 4.43 | 4.12 | 4.03 | 4.14 |
| 5 | 6.73 | 6.65 | 6.72 | 6.13 | 6.51 | 6.35 |
| 6 | 7.45 | 7.56 | 7.6 | 7.8 | 7.2 | 7.18 |
| 7 | 8.1 | 8.23 | 8.01 | 7.95 | 8.31 | 6.26 |
| 8 | 8.42 | 8.45 | 8.12 | 7.88 | 8.26 | 7.98 |
| 9 | 6.45 | 6.81 | 6.52 | 6.31 | 6.27 | 6.06 |
| 10 | 7.5 | 7.32 | 7.42 | 7.52 | 7.1 | 6.95 |
R语言程序代码:
#clipboard 表示复制板上的数据
data<-read.table("clipboard",header = T)
#采用欧式距离计算相似矩阵的,method表示距离计算方法
d<-dist(data,method = "euclidean",diag = T,upper = F,p=2)
#最小值聚类
HC<-hclust(d,method = "single")
plot(HC)
#最大值聚类
HC<-hclust(d,method = "complete")
plot(HC)
1.最小距离法
最小距离法聚类分析运行结果
图1 10种葡萄酒最小距离法系统聚类树状图
结果分析
从图中来看,如果距离为4的话,可分为两类,第一类为{2,9,10,5,6,7,8},第一类为{1,3,4};如果距离取3,则可以分为3类,第一类为{9,10,5,6,7,8},第二类为{2},第三类为{1,3,4}。
2.最大距离法
最大距离法聚类分析运行结果
图2 10种葡萄酒最大距离法系统聚类树状图
结果分析
从图2来看,如果距离为10,则可以分为两类,第一类为{7,8,9,10,2,5,6},第二类为{1,3,4};如果距离为6,则可以分为3类,第一类为{2,5,6},第二类为{7,8,9,10},第三类为{1,3,4}。



