在[30,+ ∞)时的累加发病率最低。锹籁饗迳琐筆襖鸥娅薔。 每日抽烟只数与累加发病率柱状图0.90.880.860.840.820.8累加发病率0.882882883累加发病率0.846153846(0,15)[15,30)每日抽烟只数0.833333333[30,+∞)
(4) 根据上述原则,我们采纳了227个数据。 我们把CO浓度分成三段:浓度不算太高(0,200),浓度不算一般高[200,400),浓度较高[400,+ ∞).在不同CO浓度段,得到的累加发病率分别为;
?P(0,200)?69p==0.8414634146,82p总?P[200,400)?93p==0.8636363636,110p总32p==0.9142857143構氽頑黉碩饨荠龈话骛。 P??[400,??)p总35可见CO浓度越高,累加发病率越高,且浓度较高[400,+ ∞)的累加发病率特别高。
CO浓度与累加发病率柱状图0.95累加发病率0.90.850.80.841463415(0,200)0.863636364[200,400)CO浓度0.914285714累加发病率[400,+∞)
(5) 根据上述原则,我们采纳了224个数据。
我们把调整的CO浓度分成三段:浓度不算太高(500,1000),浓度不算一般高[1000,1500),浓度较高[1500,2000).在不同的调整的CO浓度段,得到的累加发病率分别为;
?P(500,1000)?8p==0.7272727273,11p总?P[1000,1500)?126p==0.8571428571,147p总59p==0.8939393939輒峄陽檉簖疖網儂號泶。 P??[1500,2000)p总66可见调整的CO浓度越高,累加发病率越高,浓度不算太高(500,1000)的累加发病率相较低。
6
CO调整浓度与累加发病率柱状图10.80.60.40.20累加发病率0.7272727270.8571428570.893939394累加发病率500-10001000-1500CO调整浓度1500-2000总结分析:
对于年龄,越年轻,累加发病率越低。 对于性别,女性,累加发病率较高。
对于每日抽烟支数,累加发病率的分布没有明显规律。
对于CO浓度和调整的CO浓度,浓度越高,累加发病率越高。
模型改进方向:
由于累加发病率指已知人群,经过一段特定的观察期之后,发生某病的频率。分子是在某一特定观察期内发生的某病新病例数。分母是观察开始时的暴露人数。这是一个规定的概念,所以我们按要求对数据进行分段统计分析,无需再寻找其他更好的模型。尧侧閆繭絳闕绚勵蜆贅。
问题(2): 变量假设: 符号说明:
xAge:年龄
xCig_Day:每日抽烟支数
xCO:CO浓度
xLogCOadj:调整的CO浓度
?(x?x)(y?y)?(x?x)?(y?y)22建立模型:r?
我们利用excel通过对已知数据的分析,分别计算出年龄,每日抽烟支数,CO浓度,
7
调整的CO浓度与戒烟天数的相关系数,如下表所示: 识饒鎂錕缢灩筧嚌俨淒。 xAge xCig_DayxCO xLogCOadj rxy0.0527833 72 0.026584259 -0.199920331 -0.136951109 1) 由表可知,年龄、每日抽烟支数,CO浓度调整的CO浓度会影响戒烟时间(天数)长短,据r越接近1则相关性越大的原理,他们对戒烟天数的影响程度有大到小排序如下:CO浓度,调整的CO浓度,年龄,每日抽烟支数。凍鈹鋨劳臘锴痫婦胫籴。 2) 由r的符号可知,年龄,每日抽烟支数与戒烟天数是正相关的,CO浓度,调整的CO浓度与与戒烟天数是负相关的。恥諤銪灭萦欢煬鞏鹜錦。 3) 为了更直观地体现不同因素对戒烟时间的影响程度,我们用excel绘制了戒烟时间与年龄、每日抽烟支数及调整的CO浓度等因素的散点图,具体如下鯊腎鑰诎褳鉀沩懼統庫。 CO浓度与戒烟天数散点图Day_abs(戒烟天数)40030020010000200400600CO(CO浓度)80010001200系列1
CO浓度与戒烟天数的相关系数r=-0.199920331
调整的CO浓度与戒烟天数散点图Day_abs(戒烟天数)4003002001000050010001500LogCOadj(调整的CO浓度)20002500系列1
调整的CO浓度与戒烟天数的相关系数r=-0.136951109
8
年龄与戒烟天数散点图Day_abs(戒烟天数)400300200100001020304050Age(年龄)607080系列1
年龄与戒烟天数的相关系数r=0.052783372
每日抽烟支数与戒烟天数散点图Day_abs(戒烟天数)40030020010000204060Cig_Day(每日抽烟支数)80100系列1
每日抽烟支数与戒烟天数的相关系数r=0.026584259
根据散点图中各点分布走向和密集 程度,可以大致判断变量之间的共变关系,由四图可看出,各点的密集 程度是从大到小的,所以我们可以判断影响戒烟时间的因素由相关度从大到小排序是CO浓度,调整的CO浓度,年龄,每日抽烟支数。硕癘鄴颃诌攆檸攜驤蔹。
4) 最后,我们利用excel分别计算不同分性别对应的戒烟天数的平均数,求得男性的戒烟天数的平均数为77.86363636,女性的戒烟天数的平均数为81.83064516。可见性别会影响戒烟天数,一般来说,男性的戒烟天数低于女性。阌擻輳嬪諫迁择楨秘騖。
总结分析:
年龄、性别、每日抽烟支数及调整的CO浓度会影响戒烟时间(天数)长短。
由强到弱按对戒烟时间影响的程度排序有:CO浓度,调整的CO浓度,年龄,性别,每日抽烟支数。
模型改进方向:
该模型仅给出不同因素与戒烟天数的相关系数,及性别这一因素的戒烟天数的平均数,并没直接给出不同因素与戒烟天数的具体函数(数量)关系,给出的分析结果较为模糊,如果能运用回归分析中一元线性回归的方法,分别用回归方程准确地表示不同因素与戒烟天数的回归方程,或许会有更清晰的数据结果。氬嚕躑竄贸恳彈瀘颔澩。
问题(3)
9
符号说明:
xAge:年龄
xCig_Day:每日抽烟支数
xCO:CO浓度
xLogCOadj:调整的CO浓度
针对问题三,我们把戒烟天数作为判断戒烟成功的指标,于是,讨论影响戒烟成功的主要因素即转化为讨论影响戒烟天数的主要因素。由于因变量是戒烟天数,而自变量有多个(年龄、每日抽烟支数及调整的CO浓度等因素),所以我们首先讨论自变量到底选取哪几个。釷鹆資贏車贖孙滅獅赘。
我们可以轻易判断,戒烟天数与距离抽最后一支烟的分钟数无关,所以仅考虑其他五个因素(年龄, CO浓度,调整的CO浓度,每日抽烟支数,性别)。我们运用多元线性回归的方法解决该题。我们在剔除了10个数据不完整的调查对象后,对剩下的224个调查对象用EXCEL进行线性回归分析,一共做了五个模型(自变量包括五个因素,自变量分别不包括性别,年龄, CO浓度,调整的CO浓度,每日抽烟支数的四个模型),发现性别的标准误差均较大,而标准误差越大,拟合程度越差,所以舍去该因素。因此,我们最终把年龄, CO浓度,调整的CO浓度,每日抽烟支数作为自变量。怂阐譜鯪迳導嘯畫長凉。
基于上述分析,用EXCEL进行回归分析,统计结果如下:
回归统计 Multiple R 0.236065127 R Square 0.055726744 Adjusted
R Square 0.038479744 标准误差 126.0181324 观测值 224
方差分析 df SS MS F Significance F 回归分析 4 205246.6958 51311.67394 3.231097808 0.0133224 残差 219 3477844.764 15880.5697
10