第二节 Hierarchical Cluster过程
10.2.1 主要功能
调用此过程可完成系统聚类分析。在系统聚类分析中,用户事先无法确定类别数,系统将所有例数均调入内存,且可执行不同的聚类算法。系统聚类分析有两种形式,一是对研究对象本身进行分类,称为Q型举类;另一是对研究对象的观察指标进行分类,称为R型聚类。
10.2.2 实例操作
[例10.2]29名儿童的血红蛋白(g/100ml)与微量元素(μg/100ml)测定结果如下表。由于微量元素的测定成本高、耗时长,故希望通过聚类分析(即R型指标聚类)筛选代表性指标,以便更经济快捷地评价儿童的营养状态。
编号
N0. |
钙
X1 |
镁
X2 |
铁
X3 |
锰
X4 |
铜
X5 |
血红蛋白
X6 |
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29 |
54.89
72.49
53.81
64.74
58.80
43.67
54.89
86.12
60.35
54.04
61.23
60.17
69.69
72.28
55.13
70.08
63.05
48.75
52.28
52.21
49.71
61.02
53.68
50.22
65.34
56.39
66.12
73.89
47.31 |
30.86
42.61
52.86
39.18
37.67
26.18
30.86
43.79
38.20
34.23
37.35
33.67
40.01
40.12
33.02
36.81
35.07
30.53
27.14
36.18
25.43
29.27
28.79
29.17
29.99
29.29
31.93
32.94
28.55 |
448.70 467.30 425.61 469.80 456.55 395.78 448.70 440.13 394.40 405.60 446.00 383.20 416.70 430.80 445.80
409.80
384.10
342.90
326.29
388.54
331.10
258.94
292.80
292.60
312.80
283.00
344.20
312.50
294.70 |
0.012
0.008
0.004
0.005
0.012
0.001
0.012
0.017
0.001
0.008
0.022
0.001
0.012
0.000
0.012
0.012
0.000
0.018
0.004
0.024
0.012
0.016
0.048
0.006
0.006
0.016
0.000
0.064
0.005 |
1.010
1.640
1.220
1.220
1.010
0.594
1.010
1.770
1.140
1.300
1.380
0.914
1.350
1.200
0.918
1.190
0.853
0.924
0.817
1.020
0.897
1.190
1.320
1.040
1.030
1.350
0.689
1.150
0.838 |
13.50
13.00
13.75
14.00
14.25
12.75
12.50
12.25
12.00
11.75
11.50
11.25
11.00
10.75
10.50
10.25
10.00
9.75
9.50
9.25
9.00
8.75
8.50
8.25
8.00
7.80
7.50
7.25
7.00 |
编号 |
冠心病人组 |
编号 |
正常人组 |
舒张压kPa
x1 |
胆固醇mmol/L
x2 |
舒张压kPa
x1 |
胆固醇mmol/L
x2 |
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15 |
9.86
13.33
14.66
9.33
12.80
10.66
10.66
13.33
13.33
13.33
12.00
14.66
13.33
12.80
13.33 |
5.18
3.73
3.89
7.10
5.49
4.09
4.45
3.63
5.96
5.70
6.19
4.01
4.01
3.63
5.96 |
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16 |
10.66
12.53
13.33
9.33
10.66
10.66
9.33
10.66
10.66
10.66
10.40
9.33
10.66
10.66
11.20
9.33 |
2.07
4.45
3.06
3.94
4.45
4.92
3.68
2.77
3.21
5.02
3.94
4.92
2.69
2.43
3.42
3.63 |
10.2.2.1 数据准备
激活数据管理窗口,定义变量名:钙、镁、铁、锰、铜和血红蛋白的变量名分别为x1、x2、x3、x4、x5、x6,之后输入原始数据。
10.2.2.2 统计分析
激活Statistics菜单选Classify中的Hierarchical Cluster...项,弹出Hierarchical Cluster Analysis对话框(图10.3)。从对话框左侧的变量列表中选x1、x2、x3、x4、x5、x6,点击Ø钮使之进入Variable(s)框;在Cluster处选择聚类类型,其中Cases表示观察对象聚类,Variables表示变量聚类,本例选择Variables。
图10.3 系统聚类分析对话框
点击Statistics...钮,弹出Hierarchical Cluster Analysis: Statistics对话框,选择Distance matrix,要求显示距离矩阵,点击Continue钮返回Hierarchical Cluster Analysis对话框(图10.4)。
图10.4 系统聚类方法选择对话框
本例要求系统输出聚类结果的树状关系图,故点击Plots...钮弹出Hierarchical Cluster Analysislots对话框,选择Dendrogram项,点击Continue钮返回Hierarchical Cluster Analysis对话框。
点击Method...钮弹出Hierarchical Cluster Analysis:Method对话框,系统提供7种聚类方法供用户选择:
Between-groups linkage:类间平均链锁法;
Within-groups linkage:类内平均链锁法;
Nearest neighbor:最近邻居法;
Furthest neighbor:最远邻居法;
Centroid clustering:重心法,应与欧氏距离平方法一起使用;
Median clustering:中间距离法,应与欧氏距离平方法一起使用;
Ward's method:离差平方和法,应与欧氏距离平方法一起使用。
本例选择类间平均链锁法(系统默认方法)。在选择距离测量技术上,系统提供8种形式供用户选择:
Euclidean distance:Euclidean距离,即两观察单位间的距离为其值差的平方和的平方根,该技术用于Q型聚类;
Squared Euclidean distance:Euclidean距离平方,即两观察单位间的距离为其值差的平方和,该技术用于Q型聚类;
Cosine:变量矢量的余弦,这是模型相似性的度量;
Pearson correlation:相关系数距离,适用于R型聚类;
Chebychev:Chebychev距离,即两观察单位间的距离为其任意变量的最大绝对差值,该技术用于Q型聚类;
Block:City-Block或Manhattan距离,即两观察单位间的距离为其值差的绝对值和,适用于Q型聚类;
Minkowski:距离是一个绝对幂的度量,即变量绝对值的第p次幂之和的平方根;p由用户指定
Customized:距离是一个绝对幂的度量,即变量绝对值的第p次幂之和的第r次根,p与r由用户指定。
本例选用Pearson correlation,点击Continue钮返回Hierarchical Cluster Analysis对话框,再点击OK钮即完成分析。
10.2.2.3 结果解释
在结果输出窗口中将看到如下统计数据:
共29例样本进入聚类分析,采用相关系数测量技术。先显示各变量间的相关系数,这对于后面选择典型变量是十分有用的。然后显示类间平均链锁法的合并进程,即第一步,X3与X6被合并,它们之间的相关系数最大,为0.863431;第二步,X1与X5合并,其间相关系数为0.624839;第三步,X2与第一步的合并项被合并,它们之间的相关系数为0.602099;第四步,它们与第二步的合并项再合并,其间相关系数为0.338335;第五步,与最后一个变量X4合并,这个相关系数最小,为-0.054485。
Data Information
29 unweighted cases accepted.
0 cases rejected because of missing value.
Correlation measure used.
Correlation Similarity Coefficient Matrix
Variable X1 X2 X3 X4 X5
X2 .5379
X3 .2995 .6349
X4 .1480 -.1212 -.2706
X5 .6248 .5820 .2653 .2939
X6 .0972 .5693 .8634 -.3226 .2481
Agglomeration Schedule using Average Linkage (Between Groups)
Clusters Combined Stage Cluster 1st Appears Next
Stage Cluster 1 Cluster 2 Coefficient Cluster 1 Cluster 2 Stage
1 3 6 .863431 0 0 3
2 1 5 .624839 0 0 4
3 2 3 .602099 0 1 4
4 1 2 .338335 2 3 5
5 1 4 -.054485 4 0 0
|
按类间平均链锁法,变量合并过程的冰柱图如下。先是X3与X6合并,接着X1与X5合并,然后X3、X6与X2合并,接着再与X1、X5合并,最后加上X4,六个变量全部合并。
Vertical Icicle Plot using Average Linkage (Between Groups)
(Down) Number of Clusters (Across) Case Label and number
下面用更为直观的聚类树状关系图表示,即X1、X2、X3、X5、X6先聚合后与X4再聚合。这表明,在评价儿童营养状态时,可在微量元素钙、镁、铁、铜和血红蛋白5个指标中选择一个,再加上微量元素锰即可,其效果与六个指标都用是基本等价的,但更经济更迅速。
Dendrogram using Average Linkage (Between Groups)
Rescaled Distance Cluster Combine
微量元素钙、镁、铁、铜和血红蛋白聚合成一类,在这5个指标中如何选择一个典型指标呢?先按下式计算类中每一变量与其余变量的相关指数(即相关系数的平方)的均值,而后把该值最大的变量作为典型指标。
= (式中m为类中变量个数)
本例相关指数的均值依次为:
= = 0.1947
= = 0.3388
= = 0.3272
= = 0.2164
= = 0.2851
故选择镁(变量X2)典型指标。 |