学海无涯苦作舟!
因此可以得到多元回归方程为:
y??7375.8?2510.2x1?1295x3?29.7x4?727.7x5?52.6x8?0.8x9
随机误差项方差的估计
图8:残差分析
分析上图可知,最大绝对残差所占实际值的百分值为2%<5%,通过Matlab软件计算得出以下指标:
R2=0.9556; F=12.2966>F0.05(12,4)=5.91; P=0.0144<0.05; 综合上述指标说明模型的拟合优度和显著性都非常好。
本文通过比较模型二与模型三,分析这两个模型的残差的方差,得出模型二残差的方差951.2834大于模型三残差的方差255.229。
图9:拟合比较图
由上图可知,本文进一步探讨后做出的多元回归模型拟合值比未探讨前模型拟合值
学海无涯苦作舟!
要精确,说明指标间确实存在着关联性,此次探讨具有重大意义。 5.3问题三的求解
脑卒中是一种严重危害人类健康的常见病,其死亡率、病残率非常高。目前,随着人们生活水平的逐渐提高,强烈地社会竞争力给人们身心造成的压力,使缺血性脑卒中的发病率逐渐上升,且发病年龄有提早趋势。因此对高危人群提出预警和干预的建议方案已是刻不容缓。
高危人群的重要特征有:偏瘫 、偏身感觉障碍、同向偏盲、失语、精神症状、排尿障碍及昏迷;也可出现皮质盲、丘脑性感觉障碍、共济失调 、构音障碍、眼肌麻痹、吞咽困难、交叉性瘫或四肢瘫痪、闭锁综合征。
高危人群的关键指标有:高血压、房颤和心瓣膜病、吸烟酗酒、血脂异常、糖尿病、很少进行体育运动、肥胖、有卒中家庭史。
本文针对不同的高危人群分别提出预警和干预。一般认为病轻者或处于亚健康的人群适合提出预警,而病重者适合提出干预。
问题一所得结论:脑卒中发病率大多数为男性高于女性,而这主要与男性的不良生活习性较多有关,男性吸烟醉酒者相对于女性来说占了很大一部分;脑卒中发病率在多数在年龄在50~90这一年龄区间内,其所占比例已达到81.10%。
问题二所得结论:温度与发病率呈正相关,气压、湿度与发病率呈负相关,且各个自变量与脑卒中发病率呈弱相关;通过回归分析,有多个变量影响着发病人数,它们总体存在线性相关。
针对分析高危人群提出预警的建议方案:
1、 从生活方面,多做有氧运动,增强体魄,改善饮食平衡,避免暴饮暴食,少吸烟少饮酒,生活有规律,尽量避免通宵熬夜,要注意气候变化,尤其是季节转变或气候骤变,特别是男性和老年人;
2、 从医疗方面,加强对疾病影响生活的宣传力度,提高高危人群对脑卒中及其关键指标的重视,积极去了解疾病产生原因和预防疾病到来;
3、 从就医时间,若发现自己同时具备几种易患因素,就应立即去医院就医。 针对分析高危人群提出干预的建议方案:
1、 非脑卒中高危人群干预。结合减盐防控高血压项目干预,同步进行健康宣传。对于非脑卒中高危人群或无慢病史者,倡导健康生活方式;对有慢病史者,根据相关疾病诊治指南给予干预。
2、 脑卒中高危人群干预。针对每位脑卒中高危个体存在的主要危险因素,进行包括低盐膳食在内的健康指导、药物干预、介入或手术治疗干预。基地医院专科医师制定治疗干预方案,指导基层医疗卫生机构实施健康指导和药物干预;需进行介入或手术治疗的由基地医院进行诊治。
六、模型的推广
针对逐步回归分析对数据进行回归分析,得到的结果不是很理想,原因是本文处理得到的数据有些是不服从正态分布的,而多元线性回归模型对于处理响应变量是非正态分布时它并不适应。本文搜索相关资料时发现“广义线性模型”能够很好地处理响应变量处于非正态分布时的适应性。
广义线性模型由Nelder和Wedderbum在1972年提出,用于建立非正态响应变量的模型
学海无涯苦作舟!
[2]
。广义线性模型被广泛地应用于分类数据分析,或称定性数据分析。例如医学统计、生物统计、社会学统计等。
本文采用基于Matlab的广义线性模型,研究Matlab统计工具箱GLM模块的应用,给出
广义线性Poisson回归模型的Matlab的算法,由此算法可知回归方程的通式为:
ln(y)??0??1x1??2x2??3x3??4x4??5x5??8x8?? (7)
根据Matlab软件中Poisson回归模型中的glmfit函数得到:
表14 变量 bp(参数的估计) sp.p(P值) Intercept -13.9395 0.0243 x1 1.4981 0.0000 x2 -0.6773 0.0000 x3 -0.7978 0.0000 x4 0.4176 0.0001 x5 -0.3838 0.0002 x8 0.0297 0.0001 2dp?7.1737??0.05(16?6)?12.5915
根据上表得知该模型的各解释变量是显著的,由卡方检验(2)说明模型的预测误差不
太大,现有的解释变量对脑卒中发病率的总体效果好。 将表14中的bp值代入公式(7)中得:
ln(y)??13.9395?1.4981?x1?0.6773?x2?0.7978?x3?0.4176?x4?0.3838?x5?0.0297?x8经过转换得到:
y?e?13.9395?1.4981?x1?0.6773?x2?0.7978?x3?0.4176?x4?0.3838?x5?0.0297?x8(8)
用该Poisson模型中的glmval函数进行拟合,得到:
表15 月份 实际值 广义线性回归拟合值 1 1348.25 1346.3 2 1256.25 1249.1 3 1373 1350.8 4 1346 1356.4 5 1400.5 1381.2 6 1232.5 1206.9 7 1300 1327.7 8 1295.75 1338.0 9 1241 1215.7 10 1330.5 1285.5 11 1205 1244.5 12 1142.5 1169.0 广义线性回归模型残差的方差?(et?e)2?833.0651
残差et 1.95 7.15 22.2 -10.4 19.3 25.6 -27.7 -42.25 25.3 45 -39.5 -26.5 学海无涯苦作舟!
逐步回归模型残差的方差?(et?e)2?882.2252
图10:拟合比较图
结合图10和这方差值可看出,广义线性回归模型拟合得比逐步回归模型较平稳些。
七、模型的评价
优点
1、本文对问题二由浅至深进行分析,先不考虑指标与脑卒中发病率的影响大小,采用多元线性回归分析统一纳入到回归方程中,然后对模型进行检验并深入讨论某些指标是否影响着脑卒中的发病率,并采用逐步回归分析逐一删除不影响或较小影响发病率的指标。通过此方法分析,让模型更加清晰易懂。
2、在模型优化与改进中,对逐步回归分析模型作了进一步的探讨,了解到指标之间存在一定的关联性,并引入了一个交叉项指标,增加了模型拟合的精度。 缺点
1、在对大量数据进行处理的过程中,本文基本上采用平均值来代替,且对一些缺失或计录失真(如2200/1/5等)或特殊数据(如02-03-1990等)都是采用直接删除法,有可能对原始数据的统计带来较大的误差。 2、计算脑卒中的发病率时,由于数据中2009的数据相对于其他三年的数据少的比较多,可能对回归预测模型会有影响。