2020版高中数学 第三章 统计案例 3.2 独立性检验的基本思想及其初步应用学案 新人教A版选修2-3 下载本文

2019年

§3.2 独立性检验的基本思想及其初步应用

学习目标 1.了解分类变量的意义.2.了解2×2列联表的意义.3.了解随机变量K的意义.4.通过对典型案例分析,了解独立性检验的基本思想和方法.

2

知识点一 分类变量及2×2列联表

思考 山东省教育厅大力推行素质教育,增加了高中生的课外活动时间,某校调查了学生的课外活动方式,结果整理成下表:

男生 女生 合计

体育 210 60 270 文娱 230 290 520 合计 440 350 790 如何判定“喜欢体育还是文娱与性别是否有联系”?

答案 可通过表格与图形进行直观分析,也可通过统计分析定量判断. 梳理 (1)分类变量

变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量. (2)列联表

①定义:列出的两个分类变量的频数表,称为列联表. ②2×2列联表

一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(也称为2×2列联表)为下表.

x1 x2 总计

知识点二 等高条形图

y1 a c a+c y2 b d b+d 总计 a+b c+d a+b+c+d 1.与表格相比,图形更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.

2.如果通过直接计算或等高条形图发现知识点三 独立性检验

aa+bc+d和c相差很大,就判断两个分类变量之间有关系.

2019年

1.定义:利用随机变量K来判断“两个分类变量有关系”的方法称为独立性检验.

2

n?ad-bc?2

2.K=,其中n=a+b+c+d为样本容量.

?a+b??c+d??a+c??b+d?

2

3.独立性检验的具体做法

(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0. (2)利用公式计算随机变量K的观测值k.

(3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.

1.列联表中的数据是两个分类变量的频数.( √ )

2.事件A与B的独立性检验无关,即两个事件互不影响.( × ) 3.K的大小是判断事件A与B是否相关的统计量.( √ )

2

2

类型一 等高条形图的应用

例1 为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:

组别 铅中毒病人 对照组 总计

试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?

考点 定性分析的两类方法 题点 利用图形定性分析 解 等高条形图如图所示:

阳性数 29 9 38 阴性数 7 28 35 总计 36 37 73

其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率.

由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系.

2019年

反思与感悟 在等高条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占的比例计满足条件X=x2的个体中具有Y=y1的个体所占的比例性就越大.

aa+b,也可以估

cc+d.两个比例的值相差越大,X与Y有关系成立的可能

跟踪训练1 网络对现代人的生活影响较大,尤其是对青少年,为了解网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了1 000人调查,发现其中经常上网的有200人,这200人中有80人期末考试不及格,而另外800人中有120人不及格.利用图形判断学生经常上网与学习成绩有关吗? 考点 定性分析的两类方法 题点 利用图形定性分析

解 根据题目所给的数据得到如下2×2列联表:

不及格 及格 总计

得出等高条形图如图所示:

经常上网 80 120 200 不经常上网 120 680 800 总计 200 800 1 000

比较图中阴影部分的高可以发现经常上网不及格的频率明显高于经常上网及格的频率,因此可以认为经常上网与学习成绩有关. 类型二 独立性检验

例2 某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:

南方学生 北方学生 合计

喜欢甜品 60 10 70 不喜欢甜品 20 10 30 合计 80 20 100 根据表中数据,问是否在犯错误的概率不超过0.05的前提下认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.

考点 独立性检验及其基本思想 题点 独立性检验的方法

2019年

解 将2×2列联表中的数据代入公式计算,得

n?ad-bc?2

K的观测值k=

?a+b??c+d??a+c??b+d?

2

100×?60×10-20×10?= 70×30×80×20=

100

≈4.762. 21

2

因为4.762>3.841,所以在犯错误的概率不超过0.05的前提下认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.

反思与感悟 (1)独立性检验的关注点

在2×2列联表中,如果两个分类变量没有关系,则应满足ad-bc≈0,因此|ad-bc|越小,关系越弱;|ad-bc|越大,关系越强. (2)独立性检验的具体做法

①根据实际问题的需要确定允许推断“两个分类变量有关系”犯错误的概率的上界α,然后查表确定临界值k0.

n?ad-bc?22②利用公式K=计算随机变量K的观测值k.

?a+b??c+d??a+c??b+d?

2

③如果k≥k0,推断“X与Y有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”. 跟踪训练2 某省进行高中新课程改革已经四年了,为了解教师对新课程教学模式的使用情况,某一教育机构对某学校的教师关于新课程教学模式的使用情况进行了问卷调查,共调查了50人,其中有老教师20人,青年教师30人.老教师对新课程教学模式赞同的有10人,不赞同的有10人;青年教师对新课程教学模式赞同的有24人,不赞同的有6人.

(1)根据以上数据建立一个2×2列联表;

(2)判断是否有99%的把握说明对新课程教学模式的赞同情况与教师年龄有关系. 考点 独立性检验及其基本思想 题点 独立性检验的方法 解 (1)2×2列联表如下所示:

老教师 青年教师 总计

赞同 10 24 34 不赞同 10 6 16 总计 20 30 50 (2)假设“对新课程教学模式的赞同情况与教师年龄无关”. 50×?10×6-24×10?

由公式得K=≈4.963<6.635,

34×16×20×30

2

2

所以没有99%的把握认为对新课程教学模式的赞同情况与教师年龄有关. 类型三 独立性检验的综合应用

2019年

例3 (2017·全国Ⅱ改编)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如图:

(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;

(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关.

旧养殖法 新养殖法 附:

箱产量<50 kg 箱产量≥50 kg P(K2≥k0) k0 n?ad-bc?2K=.

?a+b??c+d??a+c??b+d?

2

0.050 3.841 0.010 6.635 0.001 10.828 考点 独立性检验思想的应用

题点 分类变量与统计、概率的综合性问题

解 (1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”,