学海无涯苦作舟!
y??22613?2274x1?1020x2?1227x3?538x4?628x5?133x6?35x7?79x8 (2)
通过Matlab软件对方程拟合度进行分析结果如下
图5:各个指标与患病人数的拟合图
对方程拟合优度进行检验得到决定系数R2?0.54通过修正得R2?0.69,R2越大说明方程的拟合程度越好。
根据拟合优度的检验以及图5的拟合效果发现回归函数的拟合程度不高存在较大的误差,可能存在一些不相关的指标影响着模型的拟合,因此需要对方程作进一步分析。 步骤二:函数的误差分析
根据多元线性回归方程公式(4)利用表3中各个自变量的数据进行预测,通过预测得到的数据与实际想比较,计算出回归方程的误差,本文通过残差进行检验,残差的
计算公式为: et?yi?yi (3) 计算的得到的预测值和残差如下表
表7:预测值及残差 月份 1 2 3 4 5 6 7 8 9 10 11 12 实际 1348.25 1256.25 1373 1346 1400.5 1232.5 1300 1295.75 1241 1330.5 1205 1142.5 预测 1501.3 1419.1 1530.4 1499.9 1530.2 1388.0 1450.8 1488.5 1353.4 1473.6 1396.1 1311.6 残差et -153.05 -162.85 -157.4 -153.9 -129.7 -155.5 -150.8 -192.75 -112.4 -143.1 -191.1 -169.1 ^
根据表4中各个月份的残差值,分别计算出残差绝对值与实际数据的比值,公式
etCt??100%i?1,2,3...12 (4)
St式中Ct表示残差绝对值与实际值的百分比,et各个月份残差绝对值,St表示各月
学海无涯苦作舟!
份的实际值。理想的即误差较小的函数残差跟实际数据的比值百分比比较小。通过计算得到如下结果
表8:残差绝对值与实际值的百分比 月份 1 2 3 4 5 6 比值 11.35% 12.96% 11.46% 11.43% 9.2% 12.62% 月份 7 8 9 10 11 12 比值 11.6% 14.88% 9.05% 11.75% 15.85% 14.80% 通过上表的数据可以看出每个月份残差绝对值与实际值的百分比都超过了10%,本
文认为模拟出来的数据残差百分比超过5%的公式,拟合程度不高,自变量中存在一些对拟合有影响的因素。 步骤三:逐步回归分析
题目需要分析脑卒中的发病率与气温、气压以及相对湿度间的关系,本文首先考虑8个指标:平均气压、最高气压、最低气压、平均气温、最高气温、平均相对湿度和最低相对湿度共同作用对发病率的影响,由于一些对因变量影响不显著的指标降低了模型的拟合度,因此采用逐步分析回归剔除影响不显著的指标。
通过t检验逐步分析各个自变量对脑卒中发病率影响,对通过不了t检验(对发病率影响很小)的自变量进行逐个的剔除,最终得到全部能通过t值检验的数值指标作为最终函数的自变量,然后再对函数进行相关分析。 t检验
在回归模型中变量的选择是一个难题,在选择变量时,一方面希望尽可能不遗漏重要的影响变量,另一方面又要遵循参数节省原则,使自变量的个数尽可能少,因为当自变量数目较过大时,模型计算复杂,且会扩大估计方差,降低模型精度。
对于变量的筛选方法比较多,结合本题的情况本文采用向后选择变量法进行筛选,它是变量筛选的一种常用方法。它首先以全部自变量x1?x8作为解释变量拟合方程(公式4),然后每一步都在未通过t检验的自变量中选择一个值最小的变量,将它从模型中删除,直到某一步之后所有的自变量都通过t检验。
通过Matlab软件求得t值如下表
表9:各个自变量的t值 x t值 x1 x2 x3 x4 x5 x6 x7 1.2724 x8 -2.3166 4.0125 -3.6197 -4.2583 0.9795 -2.1823 0.4217 注:x1平均气压,x2最高气压,x3最低气压,x4平均气温,x5最高气温,x6最低气温,x7平均相对湿度,x8最低相对湿度
根据查表得知t的临界值为3.182,小于临界值的指标有x4、x5、x7和x8。对于t的绝对值最小的自变量,认为该变量对脑卒中发病率的影响最低,可以剔除。根据表5可以看出x6的t值绝对值最小,对因变量的影响最小,因此可以剔除x6—平均相对湿度这一变量,根据向后选择变量法思想,删除x6这一指标后对剩余的7个自变量重新拟合回归方程,此时方程为
y??22803.9?2318.66x1?1056.86x2?1234.7x3?749.57x4?706.61x5?26.48x7?69.33x8
通过Matlab软件对方程拟合度进行分析结果如下
学海无涯苦作舟!
图6:剔除x6后方程拟合图
据图可以看出用公式(7的拟合程度)较高,此外运算还得到决定系数R2?0.9105,修正后的R2?0.7540,另外两个参数F=5.8166和P=0.0541,如果F小于置信区间 F0.05(n,n-k-1)=6.09,P大于基准值0.05则认为变量之间的显著性较差,这里F< F0.05(n,n-k-1)且P>0.05因此方程中可能还存在一些不相关的指标影响着模型的拟合。
根据t值检验的思想对剔除x6之后剩余的指标计算相应的t值得到结果如下
表10:剔除x6之后各个自变量的t值 x t值 x1 x2 x3 x4 x5 x6 -- x7 1.5596 x8 -3.1098 4.6707 -4.4175 -4.8175 3.7742 -3.6245 注:--表示该指标已删除 此时通过查表得临界值t0.025(4)=2.776,没有通过t检验的指标为x7,故决定再删除指标x7,对剩余指标进行拟合得出回归方程:
y??24971.4?1892.63x1?856.86x2?1007.85x3?533.092x4?490.538x5?38.1887x8 (5)
对方程拟合度进行分析如下
图7:剔除x6、x7后方程拟合图
注:--表示该指标已删除
通过决定系数R2=0.8562以及修正后的R2=0.6835结合图7可以得知方程的拟合程度较好,同时结合指标F值和p值,由于F=4.9600> F0.05(n,n-k-1)=4.95,p=0.0500综合考虑各个系数分析,认为方程的拟合程度较好。
进一步讨论剩余指标是否通过t值检验,对剔除x6,x7指标之后的数据进行各指标
学海无涯苦作舟!
的t值求解,结果如下
表11:剔除x6、x7之后各个自变量的t值 x t值 x1 x2 x3 x4 x5 x6 -- x7 -- x8 -3.3960 4.0256 -3.7430 -4.2109 3.3089 -3.1533 此时t0.025(5)=2.571,从上表可以看出所有指标都通过了t检验,计算终止。因此可以得到最终脑卒中月发病数与气象因素的预报模型。
步骤四:结果分析
月平均发病人数,在调查样本不变的前提下,分析指标与发
发病总人数病人数的相关性等同于分析指标与发病率的相关性。
本题通过控制变量分析,即假设其他自变量不变(或者用相同的数据带入),针对某一自变量的变化趋势(或者带入不同的数据),研究因变量的变化,通过因变量的变化结果分析两个因素之间的内在联系。
由于公式(7)是线性函数,则当其他自变量保持不变时做如下分析: 平均气压的相关系数为1892.63 ,可以认为脑卒中患病人数与平均气压呈正相关患病人数随着平均气压的增加而增加,根据相关系数的大小可以得知患病人数的变化趋势随着平均气压的改变会产生强烈的变化,因此可知平均气压在很大程度上影响着患病人数的数量。
最高气温的相关系数为-490.538 ,可以认为随着最高温度的增加,脑卒中的患病人数反而下降,因为相关系数相对较小,可以分析得最高气温的变化对脑卒中患病人数的变化影响程度不是很大。
最低相对湿度的相关系数为-38.188 , 可以认为随着最低相对湿度的增加,脑卒中患病人数反而下降。由于相关系数很小仅为38,由此可以认为最低相对湿度的变化对患病人数的作用比较小,只是微妙的影响。
根据公式:发病率?5.2.3模型二的改进
从陈光红,张继泽[1]《气温和气压之间的短时变化关系》的结论中可知,气压在短时间内会随着气温的升高而增大。从微观角度上看,温度高,气体分子运动快,这就促进压强的增大,但随着温度的升高,气体分子便向周围扩散,则该区域内的气体分子数就会减少,导致压强降低。同样的,湿度与大气压强也存在着密切的关系。因此气压与温度之间因存在相互之作用姜启源[7]在考虑因素有相互作用时引入交叉因子来改善模型,就得考虑它们之间的交叉影响。因此,本文对逐步回归分析模型作进一步讨论。
本文引入一个气温与气压的交叉项x9,由x1x4得到,再结合逐步回归分析模型得到的回归方程(x),得到一个新的多元一次回归方程,其通式为:
y?b0?b1x1?b2x2?b3x3?b4x4?b5x5??b8x8?b9x9?? (6)
根据题中所给数据,利用Matlab统计工具箱命令实现多元线性回归,求解出回归方程系数分别为:
表12: b b0 b1 b2 b3 b4 b5 b8 b9 数值 -7375.8 2510.2 -1202 -1295 -29.7 -727.7 -52.6 0.8