(3)各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布,在这种条件下可以精确计算显著性检验值和分组归属的概率。
2、试述贝叶斯判别法的思路。 答:贝叶斯判别法的思路是先假定对研究的对象已有一定的认识,常用先验概率分布来描述这种认识,然后我们取得一个样本,用样本来修正已有的认识(先验概率分布),得到后验概率分布,各种统计推断都通过后验概率分布来进行。将贝叶斯判别方法用于判别分析,就得到贝叶斯判别。
3、试述费歇判别法的基本思想。 答:费歇判别法的基本思想是将高维数据点投影到低维空间上来,然而利用方差分析的思想选出一个最优的投影方向。因此,严格的说费歇判别分析本身不是一种判别方法,只是利用费歇统计量进行数据预处理的方法,以使更有利于用判别分析方法解决问题。为了有利于判别,我们选择投影方向a应使投影后的k个一元总体能尽量分开(同一总体中的样品的投影值尽量靠近)。k要做到这一点,只要投影后的k个一元总体均值有显著差异,即可利用方差分析的方法使组间平方和尽可能的大。则选取投影方向a使Δ(a)达极大即可。
4、什么是逐步判别分析? 答:具有筛选变量能力的判别方法称为逐步判别分析法。逐步判别分析法就是先从所有因子中挑选一个具有最显著判别能力的因子,然后再挑选第二个因子,这因子是在第一因子的基础上具有最显著判别能力的因子,即第一个和第二个因子联合起来有显著判别能力的因子;接着挑选第三个因子,这因子是在第一、第二因子的基础上具有最显著判别能力的因子。由于因子之间的相互关系,当引进了新的因子之后,会使原来已引入的因子失去显著判别能力。因此,在引入第三个因子之后就要先检验已经引入的因子是否还具有显著判别能力,如果有就要剔除这个不显著的因子;接着再继续引入,直到再没有显著能力的因子可剔除为止,最后利用已选中的变量建立判别函数。
5、简要叙述判别分析的步骤及流程 答:(1)研究问题:选择对象,评估一个多元问题各组的差异,将观测个体归类,确定组与组之间的判别函数。
(2)设计要点:选择解释变量,样本量的考虑,建立分析样本的保留样本。 (3)假定:解释变量的正态性,线性关系,解释变量间不存在多重共线性,协方差阵相等。
(4)估计判别函数:联立估计或逐步估计,判别函数的显著性。
(5)使用分类矩阵评估预测的精度:确定最优临界得分,确定准则来评估判对比率,预测精确的统计显著性。
(6)判别函数的解释:需要多少个函数。评价单个函数主要从判别权重、判别载荷、偏F值几个方面;评价两个以上的判别函数,分为评价判别的函数和评价合并的函数。
(7)判别结果的验证:分开样本或交叉验证,刻画组间的差异。 6、略
第5章 主成分分析
1、主成分的基本思想是什么?
在对某一事物进行实证研究时,为更全面、准确地反映事物的特征及其发展规律,往往考虑与其有关的多个指标,在多元统计中也称为变量。一方避免遗漏重要信息而考虑尽可能多的指标看,另一方面考虑指标的增多,又难以避免信息重叠。希望涉及的变量少,而得到的信息量有较多。
主成分的基本思想是研究如何通过原来的少数几个线性组合来解释原来变量绝大多数信息的一种多元统计方法。研究某一问题涉及的众多变量之间有一定的相关性,必然存在着支配作用的公共因素。通过对原始变量相关矩阵或协方差矩阵内部结构关系的研究,利用原始变量的线性组合形成几个无关的综合指标(主成分)来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分,如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)=0则称F2为第二主成分,依此类推可以构造出第三、第四······,第P个主成分。
2、主成分在应用中的主要作用是什么?
作用:利用原始变量的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降维与简化问题的作用,使得在研究复杂问题时更容易抓住主要矛盾。通过主成分分析,可以从事物之间错综复杂的关系中找出一些主要成分,从而能有效利用大量数据进行定量分析,解释变量之间的内在关系,得到对事物特征及其发展规律的一些深层次的启发,把研究工作引向深入。主成分分析能降低所研究的数据空间的维数,有时可通过因子载荷aij的结论,弄清X变量间的某些关系,多维数据的一种图形表示方法,用主成分分析筛选变量,可以用较少的计算量来选择,获得选择最佳变量子集合的效果。
3.由协方差阵出发和由相关阵出发求主成分有什么不同? (1)由协方差阵出发
设随即向量X=(X1,X2,X3,……Xp)’ 的协方差矩阵为Σ,?1≥?2≥……≥?p为Σ的特征值,γ1,γ2,……γp为矩阵A各特征值对应的标准正交特征向量,则第i个主成分为Yi=γ1i*X1+γ2i*X2+……+γpi*Xp,i=1,2,……,p 此时VAR(Yi)=?i,COV(Yi,Yj)=0,i≠j
我们把X1,X2,X3,……Xp的协方差矩阵Σ的非零特征根?1≥?2≥……≥?p>0向量对应的标准化特征向量γ1,γ2,……γp分别作为系数向量,Y1=γ1’*X, Y2=γ2’*X,……, Yp=γp’*X分别称为随即向量X的第一主成分,第二主成分……第p主成分。Y的分量Y1,Y2,……,Yp依次是X的第一主成分、第二主成分……第p主成分的充分必要条件是:(1)Y=P’*X,即P为p阶正交阵,(2)Y的分量之间互不相关,即D(Y)=diag(?1,?2,……,?p),(3)Y的p个分量是按方差由大到小排列,即?1≥?2≥……≥?p。 (2)由相关阵出发
对原始变量X进行标准化,
Z=(Σ^1/2)^-1*(X-μ) cov(Z)=R
原始变量的相关矩阵实际上就是对原始变量标准化后的协方差矩阵,因此,有相关矩阵求主成分的过程与主成分个数的确定准则实际上是与由协方差矩阵出发求主成分的过程与主成分个数的确定准则相一致的。λi,γi 分别表示相关阵R的特征根值与对应的标准正交特征向量,此时,求得的主成分与原始变量的关系式为:
Yi=γi’*Z=γi’*(Σ^1/2)^-1*(X-μ)
在实际研究中,有时单个指标的方差对研究目的起关键作用,为了达到研究目的,此时用协方差矩阵进行主成分分析恰到好处。有些数据涉及到指标的不同度量尺度使指标方差之间不具有可比性,对于这类数据用协方差矩阵进行主成分分析也有不妥。相关系数矩阵计算主成分其优势效应仅体现在相关性大、相关指标数多的一类指标上。避免单个指标方差对主成分分析产生的负面影响,自然会想到把单个指标的方差从协方差矩阵中剥离,而相关系数矩阵恰好能达到此目的。
4、略
第6章 因子分析
1、因子分析与主成分分析有什么本质不同?
答:(1)因子分析把诸多变量看成由对每一个变量都有作用的一些公共因子和一些仅对某一个变量有作用的特殊因子线性组合而成,因此,我们的目的就是要从数据中探查能对变量起解释作用的公共因子和特殊因子,以及公共因子和特殊因子的线性组合。主成分分析则简单一些,它只是从空间生成的角度寻找能解释诸多变量绝大部分变异的几组彼此不相关的新变量
(2)因子分析中,把变量表示成各因子的线性组合,而主成分分析中,把主成 分表示成各变量的线性组合
(3)主成分分析中不需要有一些专门假设,因子分析则需要一些假设,因子分析的假设包括:各个因子之间不相关,特殊因子之间不相关,公共因子和特殊因子之间不相关。
(4)在因子分析中,提取主因子的方法不仅有主成分法,还有极大似然法等,基于这些不同算法得到的结果一般也不同。而主成分分析只能用主成分法提取。(5)主成分分析中,当给定的协方差矩阵或者相关矩阵的特征根唯一时,主成分一般是固定;而因子分析中,因子不是固定的,可以旋转得到不同的因子。 (6)在因子分析中,因子个数需要分析者指定,结果随指定的因子数不同而不同。在主成分分析中,主成分的数量是一定的,一般有几个变量就有几个主成分。 (7)与主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进行后续的分析,则可以使用主成分分析。 2、因子载荷
aij的统计定义是什么?它在实际问题的分析中的作用是什么?
答:(1)因子载荷aij的统计定义:是原始变量Xi与公共因子Fj的协方差,Xi与
Fj(i?1,2,...,p;j?1,2,...,m)都是均值为0,方差为1的变量,因此aij同时也是Xi与Fj的相关系数。
222(2)记g2,2,...,m),则g2j表示的是公共因子Fj对于X的j?a1j?a2j?...?apj(j?1每一分量Xi(i?1,2,...,p)所提供的方差的总和,称为公共因子Fj对原始变量X的方贡献,它是衡量公共因子相对重要性的指标。g2j越大,表明公共因子Fj对Xi的贡献越大,或者说对X的影响作用就越大。如果因子载荷矩阵对A的所有的g2,2,...,m)都计算出来,并按大小排序,就可以依此提炼出最有影响的公共j(j?1因子。
3、略
第7章 对应分析
1、试述对应分析的思想方法及特点。
思想:对应分析又称为相应分析,也称R—Q分析。是因子分子基础发展起来的一种多元统计分析方法。它主要通过分析定性变量构成的列联表来揭示变量之间的关系。当我们对同一观测数据施加R和Q型因子分析,并分别保留两个公共因子,则是对应分析的初步。 对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。它最大特点是能把众多的样品和众多的变量同时作到同一张图解上,将样品的大类及其属性在图上直观而又明了地表示出来,具有直观性。另外,它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程,可以从因子载荷图上对样品进行直观的分类,而且能够指示分类的主要参数(主因子)以及分类的依据,是一种直观、简单、方便的多元统计方法。 特点:对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。它最大特点是能把众多的样品和众多的变量同时作到同一张图解上,将样品的大类及其属性在图上直观而又明了地表示出来,具有直观性。另外,它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程,可以从因子载荷图上对样品进行直观的分类,而且能够指示分类的主要参数(主因子)以及分类的依据,是一种直观、简单、方便的多元统计方法。
2、试述对应分析中总惯量的意义。
2总惯量不仅反映了行剖面集定义的各点与其重心加权距离的总和,同时与x2x统计量仅相差一个常数,而统计量反映了列联表横联与纵联的相关关系,因此
总惯量也反映了两个属性变量各状态之间的相关关系。对应分析就是在对总惯量
信息损失最小的前提下,简化数据结构以反映两属性变量之间的相关关系。 3、略
第8章 典型相关分析
1、试述典型相关分析的统计思想及该方法在研究实际问题中的作用。
答: 典型相关分析是研究两组变量之间相关关系的一种多元统计方法。用于揭示两组变 量之间的内在联系。典型相关分析的目的是识别并量化两组变量之间的联系。将两组变量相 关关系的分析转化为一组变量的线性组合与另一组变量线性组合之间的相关关系。
基本思想:
(1)在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的
( X1, X 2, , , X p) 、相关系数。 即:X X ( X1, X 2, , , X q) 是两组
相互关联的随机变量,分别在两组变量中选取若干有代表性的综合变量 Ui、Vi,使是原变量的线性组合。 Ui a1X1 a2 X 2..... aP X P ≡ a‘X Vi b1Y1 b2 Y 2 .... bq Y q ‘Y ≡ b 在 D(aX ) D(bX ) 1 的条件下,使得 (aX , bX ) 达到最大。 (2)选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对。
(3)如此继续下去,直到两组变量之间的相关性被提取完毕为此。 其作用为:
进行两组变量之间的相关性分析,用典型相关系数衡量两组变量之间的相关性。
2、简述典型相关分析中冗余分析的内容及作用。
答:典型型冗余分析的作用即分析每组变量提取出的典型变量所能解释的该组样本总方差的比 例,从而定量测度典型变量所包含的原始信息量。 第一组变量样本的总方差为t r(R11 ) p ,第二组变量样本的总方差为
tr(R22 ) q 。
?*是样本典型相关系数矩阵,典型系数向量是矩阵的行向量, ?*和BAzz?*Z,V?*?A?*?B?*Z Uzzzz前 r 对典型变量对样本总方差的贡献为
则第一组样本方差由前 r 个典型变量解释的比例为:
z
|U
第二组样本方差由前 r 个典型变量解释的比例为:z
|V