章末分层突破
[自我校对] ①回归分析
②相互独立事件的概率 ③χ公式
④判断两变量的线性相关
2
回归分析问题 建立回归模型的步骤: (1)确定研究对象,明确变量x,y.
(2)画出变量的散点图,观察它们之间的关系(如是否存在线性相关关系等).
(3)由经验确定回归方程的类型(如我们观察到数据呈线性相关关系,则选用回归直线方^^^程y=bx+a).
(4)按一定规则估计回归方程中的参数(如最小二乘法). (5)得出回归方程.
另外,回归直线方程只适用于我们所研究的样本的总体,而且一般都有时间性.样本的
取值范围一般不能超过回归直线方程的适用范围,否则没有实用价值.
假设一个人从出生到死亡,在每个生日那天都测量身高,并作出这些数据散点
图,则这些点将不会落在一条直线上,但在一段时间内的增长数据有时可以用线性回归来分析.下表是一位母亲给儿子作的成长记录:
年龄/周岁 身高/cm 年龄/周岁 身高/cm 3 90.8 10 4 5 6 7 8 9 97.6 104.2 110.9 115.7 122.0 128.5 11 12 13 14 15 16 134.2 140.8 147.6 154.2 160.9 167.6 173.0 (1)作出这些数据的散点图; (2)求出这些数据的线性回归方程;
(3)对于这个例子,你如何解释回归系数的含义? (4)解释一下回归系数与每年平均增长的身高之间的联系. 【精彩点拨】 (1)作出散点图,确定两个变量是否线性相关; (2)求出a,b,写出线性回归方程; (3)回归系数即b的值,是一个单位变化量; (4)根据线性回归方程可找出其规律. 【规范解答】 (1)数据的散点图如下:
(2)用y表示身高,x表示年龄, -1
因为x=×(3+4+5+?+16)=9.5,
14-
y=×(90.8+97.6+?+173.0)=132,
18 993-14×9.5×132
≈1 491-14×9.52≈6.316,
114
^
b=
^
a=y-bx=71.998,
所以数据的线性回归方程为y=6.316x+71.998.
(3)在该例中,回归系数6.316表示该人在一年中增加的高度. (4)回归系数与每年平均增长的身高之间近似相等.
--
[再练一题]
1.假定小麦基本苗数x与成熟期有效穗y之间存在相关关系,今测得5组数据如下:
x y 15.0 39.4 25.8 42.9 30.0 42.9 36.6 43.1 44.4 49.2 (1)以x为解释变量,y为预报变量,作出散点图; (2)求y与x之间的回归方程,对于基本苗数56.7预报有效穗.
【导学号:37820006】
【解】 (1)散点图如下.
(2)由图看出,样本点呈条状分布,有比较好的线性相关关系,因此可以用回归方程刻画它们之间的关系.
^^^--设回归方程为y=bx+a,x=30.36,y=43.5,
^
故所求的线性回归方程为y=34.70+0.29x. ^
当x=56.7时,y=34.70+0.29×56.7=51.143. 估计成熟期有效穗约为51.143.
独立性检验 独立性检验的基本思想类似于反证法,要确认两个分类变量有关系这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下,我们构造的随机变量χ应该很小,如果由观测数据计算得到的χ的观测值很大,则在一定程度上说明假设不合理,根据随机变量χ的含义,可以通过P(χ>6.635)≈0.01来评价假设不合理的程度,由实际计算出χ>6.635说明假设不合理的程度约为99%,即两个分类
2
2
2
2
2