SAS学习系列35. 聚类分析

35. 聚类分析

(一)概述

聚类分析,相当于“物以类聚”,用于对事物的类别面貌尚不清楚,甚至在事前连总共有几类都不能确定的情况下对数据进行分类。

而判别分析,必须事先知道各种判别的类型和数目,并且要有一批来自各判别类型的样本,才能建立判别函数来对未知属性的样本进行判别和归类。

聚类分析是把分类对象按一定规则分成组或类,这些组或类不是事先给定的而是根据数据特征而定的。在同类的对象在某种意义上倾向于彼此相似,而在不同类里的这些对象倾向于不相似。根据这种相似性的不同定义,聚类分析也有不同的方法。

聚类分析分为:对样品的聚类,对变量的聚类。

样品聚类:其统计指标是类与类之间距离,把每一个样品看成空间中的一个点,用某种原则规定类与类之间的距离,将距离近的点聚合成一类,距离远的点聚合成另一类。

变量聚类:其统计指标是相似系数,将比较相似的变量归为一类,而把不怎么相似的变量归为另一类,用它可以把变量的亲疏关系直观地表示出来。

(二)原理

一、距离和相似系数

1. 距离

设有n组样品,每组样品有p个变量的数据如下:

变量 样品 X1 X2 … Xn V1 x11 x21 … xn1 V2 x12 x22 … xn2 … … … … … Vp x1p x2p … xnp

例如,Xi到Xj的闵科夫斯基距离定义为:

?dij???|xik?xjk?k?1p?|?, 1?i,j?n ?q1qq=2时为欧几里得距离;还有马氏距离:

dij=(Xi-Xj)TS-1(Xi-Xj)

其中,Xi=(xi1, …,xip ),S-1为n个样品的p×p的协方差矩阵的逆矩阵。

注:马氏距离考虑了观测变量之间的相关性和变异性(不再受各指标量纲的影响)。 距离选择的基本原则:

(1)要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空间距离概念。马氏距离有消除量纲影响的作

用。

(2)要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析之前已经对变量作了标准化处理,则通常就可采用欧氏距离。

(3)应根据研究对象的特点不同做出具体分折。实际中,聚类分析前不妨试探性地多选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最合适的距离测度方法。

2. 相似系数

变量间的相似性,可以从它们的方向趋同性或“相关性”进行考察,从而得到“夹角余弦法”和“相关系数”两种度量方法。

(1)夹角余弦

Xi=(xi1, …,xip )和Xj作为p维向量,按通常内积中夹角的概念来定义

cij?cos?ij??xk?1ppikxjkp?2??2???xik???xjk??k?1??k?1? (2)相关系数

cij?rij??(xk?1ppik?xi)(xjk?xj)p?2??2?(x?x)(x?x)ij??ik???jk?k?1k?1???? 显然 |cij| ≤1,借助于相似系数,可以定义变量之间的距离。例如,

联系客服:779662525#qq.com(#替换为@) 苏ICP备20003344号-4