如何在SPSS中实现典型相关分析? SPSS 11.0
15.1 典型相关分析 15.1.1方法简介
在相关分析一章中,我们主要研究的是两个变量间的相关,顶多调整其他因素的作用而已;如果要研究一个变量和一组变量间的相关,则可以使用多元线性回归,方程的复相关系数就是我们要的东西,同时偏相关系数还可以描述固定其他因素时某个自变量和应变量间的关系。但如果要研究两组变量的相关关系时,这些统计方法就无能为力了。比如要研究居民生活环境与健康状况的关系,生活环境和健康状况都有一大堆变量,如何来做?难道说做出两两相关系数?显然并不现实,我们需要寻找到更加综合,更具有代表性的指标,典型相关(CanonicalCorrelation)分析就可以解决这个问题。
典型相关分析方法由Hotelling提出,他的基本思想和主成分分析非常相似,也是降维。即根据变量间的相关关系,寻找一个或少数几个综合变量(实际观察变量的线性组合)对来替代原变量,从而将二组变量的关系集中到少数几对综合变量的关系上,提取时要求第一对综合变量间的相关性最大,第二对次之,依此类推。这些综合变量被称为典型变量,或典则变量,第1对典型变量间的相关系数则被称为第1典型相关系数。一般来说,只需要提取1~2对典型变量即可较为充分的概括样本信息。
可以证明,当两个变量组均只有一个变量时,典型相关系数即为简单相关系数;当一组变量只有一个变量时,典型相关系数即为复相关系数。故可以认为典型相关系数是简单相关系数、复相关系数的推广,或者说简单相关系数、复相关系数是典型相关系数的特例。 15.1.2引例及语法说明
在SPSS中可以有两种方法来拟合典型相关分析,第一种是采用Manova过程来拟合,第二种是采用专门提供的宏程序来拟合,第二种方法在使用上非常简单,而输出的结果又非常详细,因此这里只对它进行介绍。该程序名为Canonical correlation.sps,就放在SPSS的安装路径之中,调用方式如下:
INCLUDE 'SPSS所在路径\\Canonical correlation.sps'. CANCORR SETl=第一组变量的列表 /SET2=第二组变量的列表.
在程序中首先应当使用include命令读入典型相关分析的宏程序,然后使用cancorr名称调用,注意最后的“.”表示整个语句结束,不能遗漏。
这里的分析实例来自曹素华教授所著《实用医学多因素统计分析方法》第176页:为了研究兄长的头型与弟弟的头型间的关系,研究者随机抽查了25个家庭的两兄弟的头长和头宽,资料见文件canoncor.sav,希望求得两组变量的典型变量及典型相关系数。显然,代表兄长头形的变量为第一组变量,代表弟弟头形的变量为第二组变量,这里希望求得的是两组变量间的相关性,在语法窗口中键入的程序如下:
INCLUDE 'D:\\SpssWin\\Canonical correlation.sps'. 请使用时改为各自相应的安装目录 CANCORR SETl=longlwidthl 列出第一组变量 /SET2=long2width2. 列出第二组变量
选择菜单Run->All,运行上述程序,结果窗口中就会给出典型相关分析的结果。 15.1.3 结果解释
NOTE:ALL OUTPUT INCLUDING ERROR MESSAGES HAVE BEEN TEMPORARILY SUPPRESSED.IF YOU EXPERIENCE UNUSUAL BEHAVIOR THEN RERUN THIS
MACRO WITH AN ADDITIONAL ARGUMENT/DEBUG='Y'.
BEFORE DOING THIS YOU SHOULD RESTORE YOUR DATA FILE. THIS WILL FACILITATE FURTHER DIAGNOSTICS OF ANY PROBLEMS
系统首先给出的是运行提示:包括出错信息在内的输出暂时被禁止,如果程序运行不正常,则可以在宏中添加/DEBUG='Y'进行调试,这样便于发现问题,但是这样做之前需要重新读入数据文件。
下面系统将会调用矩阵运算开始典型相关分析。 Matrix
Run MATRIX procedure:
Correlations for Set-1
LONG1 WIDTHl LONGl 1.0000 .7346 WIDTHl .7346 1.0000
Correlations for Set-2
LONG2 WIDTH2 LONG2 1.0000 .8393 WIDTH2 .8393 1.0000
从这里开始进行分析,首先给出的是两组变量内部各自的相关矩阵,可见头宽和头长是有相关性的。
Correlations Between Set-1 and Set-2 LONG2 WIDTH2 LONGl .7108 .7040 WIDTHl .6932 .7086
上面给出的是两组变量间各变量的两两相关矩阵,可见兄弟的头型指标间确实存在相关性,这里需要做的就是提取出综合指标宋代表这种相关性。 Canonical Correlations 1 .789 2 .054
上面是提取出的两个典型相关系数的大小,可见第一典型相关系数为0.789,第二典型相关系数为0.054。
Test that remaining correlations are zero: Wilk's Chi-SQ DF Sig. 1 .377 20.964 4.000 .000 2 .997 .062 1.000 .803
上表为检验各典型相关系数有无统计学意义,可见第一典型相关系数有统计学意义,而第二典型相关系数则没有。
Standardized Canonical Coefficients for Set-1 l 2
LONGl -.552 -1.366 WIDTHl -.522 1.378
Raw Canonical Coefficients for Set-1 1 2
LONGl -.057 .140 WIDTHl -.071 .187
上面为各典型变量与变量组1中各变量间标化与未标化的系数列表,由此我们可以写出典型变量的转换公式(标化的)为:
L1=0.552*longl+0.522*widthl L2=1.366*longl-1.378*widthl Standardized Canonical Coefficients for Set-2 1 2
LONG2 -.504 -1.769 WIDTH2 -.538 1.759
Raw Canonical Coefficients for Set-2 1 2
LONG2 -.050 -.176 WIDTH2 -.080 .262
Canonical Loadings for Set-1 l 2 LONGl -.935 -.354 WIDTHl -.927 .375 Cross Loadings for Set-1 l 2 LONGl -.737 -.019 WIDTHl -.731 .020
上表为第一变量组中各变量分别与自身、相对的典型变量的相关系数,可见它们主要和第一对典型变量的关系比较密切。 Canonical Loadings for Set-2 1 2 LONG2 -.956 -.293 WIDTH2 -.962 .274
Cross Loadings for Set-2 1 2 LONG2 -.754 -.016 WIDTH2 -.758 .015
上表为第二变量组中各变量分别与自身、相对的典型变量的相关系数,结论与前相同。 下面即将输出的是冗余度(Redundancy)分析结果,它列出各典型相关系数所能解释原变量变异的比例,可以用来辅助判断需要保留多少个典型相关系数。 Redundancy Analysis:
Proportion Of Variance Of Set-1 Explained by lts Own Can. Var. Prop Var CVi-1 .867 CVl-2 .133
首先输出的是第一组变量的变异可被自身的典型变量所解释的比例,可见第一典型变量解释了总变异的86.7%,而第二典型变量只能解释13.3%。 Proportion Of Variance Of Set-1 Explained by Opposite Can. Var.