数学建模之主成分分析法 下载本文

主成分分析

主成分分析的主要目的是希望用较少的变量去解释原来资料中的大部分变量,将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。通常是选出比原始变量个数少,能解释大部分资料中的变异的几个新变量,即所谓主成分,并用以解释资料的综合性指标。

1、主成分分析的应用

(1)我国各地区普通高等教育发展水平综合评价。 (2)投资效益的分析和排序等。

2、主成分分析法的步骤

①对原始数据进行标准化处理

用x1,x2,?,xm表示主成分分析指标的m个变量,评价对象有n个,aij表示第

?ij,i个评价对象对应于第j个指标的取值。将每个指标值aij转化为标准化指标a即

?ij?aaij??jsj,(i?1,2,?,n;j?1,2,?,m)

1n1n式中:?j??aij,sj?(aij??j)2 ?ni?1n?1i?1相应地,标准化指标变量为

?j?xxj??jsj,(j?1,2,?,m)

②计算相关系数矩阵R

??ak?1nR?(rij)m?m

?kj?a,(i,j?1,2,?,m)

kirij?n?1其中:rii?1,rij?rji,rij是第i个指标和第j指标之间的相关系数。 ③计算相关系数矩阵的特征值与特征向量

解特征方程?I?R?0,得到特征值?i(i?1,2,?,m)?1??2??,??m?0;再求出相对应的特征值?i的特征向量ui(i?1,2,?,m),其中uj?(u1j,u2j,?,umj)T,由特征向量组成的m个新的指标变量为

?1?u21x?2???um1x?m?y1?u11x?y?ux????2121?u22x2???um2xm ?????1?u2mx?2???ummx?m?ym?u1mx其中:y1为第1主成分,y2为第1主成分,?,ym为第m主成分 ④选择p(p≤m)个主成分,计算综合评价值。

(1)计算特征值?j(j?1,2,?,m)的信息贡献率和累积贡献率 用bj表示主成分yi的信息贡献率,则有

bj??j??k?1m(j?1,2,?,m)

k用ap表示主成分y1,y2,?,yp的累积贡献率,则有

ap?????k?1k?1mpk

k若ap接近于1(一般ap的范围为85%—95%)时,则用前p个指标变量

y1,y2,?,yp作为p个主成分,代替原来m个指标变量,再对p个主成分进行综合分析。 ⑤计算综合得分

用bj表示第j个主成分的信息贡献率,则有

Z??bjyj

j?1p根据综合得分值进行评价。 例题:

高等教育是依赖高等院校进行的,高等教育的发展状况主要体现在高等院校的相关方面。遵循可比性原则,从高等教育的五个方面选取十项评价指标,具体如图1。

《中国统计年鉴,1995》和《中国教育统计年鉴,1995》除以各地区相应的人口数得到十项指标值见表1。其中:x1为每百万人口高等院校数;x2为每十万人口高等院校毕业生数;x3为每十万人口高等院校招生数;x4为每十万人口高等院校在校生数;x5为每十万人口高等院校教职工数;x6为每十万人口高等院校专职教师数;x7为高级职称占专职教师的比例;x8为平均每所高等院校的在校生数;x9为国家财政预算内普通高教经费占国内生产总值的比重;x10为生均教育经费。

图1高等教育的十项评价指标

表1 我国各地区普通高等教育发展状况数据