多元统计分析我国主要城市的聚类分析课程设计 下载本文

该表为最终聚类中心间的距离表。例如第1类和第2类中心点坐标之间的距离为1632.112,第2类和第3类中心点坐标之间的距离为919.955。以此类推。 (6)方差分析表 ANOVA 平均气温 平均相对湿度 降水量 日照时数 均方 聚类 df 3 3 3 3 均方 误差 df 27 27 27 27 F Sig. .000 .000 .000 .000 232.937 759.884 1764610.042 3083306.950 6.170 47.201 33190.645 22847.205 37.752 16.099 53.166 134.953 F 检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差别。观测到的显著性水平并未据此进行更正,因此无法将其解释为是对聚类均值相等这一假设的检验。 该表是方差分析表,F值只能作为描述使用,不能根据该值判断各类均值是否有显著性差异,从方差分析表可以看出有三个变量:平均气温,平均相对湿度,降水量,对分类现象显著。 (7)每个聚类中的案例数目 每个聚类中的案例数 聚类 1 2 3 4 12.000 5.000 6.000 8.000 31.000 .000 有效 缺失

每个聚类中的案例数表,由表便可看出,类别1中的案例数为12个,类别2中的案例数为5个,类别3中的案例数为6个,类别4中的案例数为8个。有效个案数为31个。

(8)QCL1为分类归属情况,QCL2为样本到类中心的距离。 1 2 3 4 城市 北京 天津 石家庄 太原 QCL1 1 1 3 1 QCL2 169.368 344.195 302.104 134.141 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 呼和浩特 沈阳 长春 哈尔滨 上海 南京 杭州 合肥 福州 南昌 济南 郑州 武汉 长沙 广州 南宁 海口 重庆 成都 贵阳 昆明 西安 拉萨 兰州 西宁 银川 乌鲁木齐 1 1 1 1 4 3 4 3 4 4 3 3 4 2 4 4 4 2 2 2 3 2 1 1 1 1 1 171.727 331.330 196.540 114.503 287.494 248.519 106.912 312.151 180.329 196.627 309.464 199.182 224.272 310.696 285.826 200.245 270.056 124.481 190.792 22.912 199.530 69.953 223.380 146.384 69.265 267.049 144.953

由表可知,相对于系统矩阵,K均值矩阵把地区分为5类时,

第一类:北京、天津、太原、呼和浩特、沈阳、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐

第二类:长沙、重庆、成都、贵阳、西安 第三类:南京、河南、济南、郑州 第四类:广州、南宁、海口、南昌、武汉

6.两种方法的结果比较

我又分别做了K=3和K=5时的K均值聚类分析与系统聚类分析的3类、4类、5类相比较,结果如下表:

(1)把地区分为5类时,两种方法比较如下表所示 第一类 系统聚类 北京、太原、呼和浩特、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐 天津、石家庄、沈阳、济南、郑州 上海、南京、合肥、武汉、昆明 长沙、广州、南宁、海口、杭州、福州、南昌、昆明 重庆、成都、贵阳、西安 K均值聚类 长沙、重庆、成都、贵阳、西安 上海、南京、合肥、武汉、昆明 天津、石家庄、沈阳、济南、郑州 广州、南宁、海口、南昌、杭州、福州 北京、太原、呼和浩特、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐 第二类 第三类 第四类 第五类

(2)把地区分为4类时,两种方法比较如下表所示: 第一类 系统聚类 北京、太原、呼和浩特、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐 天津、济南、郑州、沈阳、石家庄 上海、南京、合肥、杭州、福州、南昌、武汉、长沙、广州、南宁、海口、 重庆、成都、贵阳、西安、昆明 K均值聚类 北京、天津、太原、呼和浩特、沈阳、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐 长沙、重庆、成都、贵阳、西安 南京、河南、济南、郑州、石家庄 广州、南宁、海口、南昌、武汉 第二类 第三类 第四类

(3)把地区分为3类时,两种方法比较如下表所示

第一类 系统聚类 拉萨、兰州、西宁、银川、乌鲁木齐、北京、太原、呼和浩特、天津、石家庄、沈阳、长春、哈尔滨、济南、郑州 上海、南京、合肥、杭州、福州、南昌、武汉、长沙、广州、南宁、海口、昆明 重庆、成都、贵阳、西安 K均值聚类 北京、天津、石家庄、太原、呼和浩特、沈阳、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐、济南、郑州 长沙、重庆、成都、贵阳、西安 上海、南京、合肥、杭州、福州、南昌、武汉、广州、南宁、海口、昆明 第二类 第三类

(1)上图分别比较了k=3,4,5,将系统分为三类四类五类时K均值聚类法与系统聚类法的比较,可以看出,在K=3时,K均值聚类分析与系统聚类分析的结果差异最小,K均值聚类将样品聚类,而系统聚类将指标聚类。系统聚类过程较麻烦,此案例这种比系统聚类法大得多的数据组用K均值法更简单明了,但是在对案例进行分析时,选择几种算法进行反复检验,对于结果的分析是有好处的。当K均值聚类成五类时各类之间差异较小,无较大意义,强行把这些数据分成K个类会导致无意义的聚类。

(2)K均值的优点:操作简便,K均值法得到的结果比较简单易懂。 K均值的缺点:K均值法只能产生指定类数结果。

系统聚类的优点:系统聚类可以对不同的类数产生一系列的聚类结果。 系统聚类的缺点:系统聚类法需要计算出不同样品或变量的距离,还要在 聚类的每一步都要及时“类间距离”,计算量比较大。