9.1 随机抽样、用样本估计总体
1.随机抽样 (1) 简单随机抽样
①定义:一般地,从个体数为 N 的总体中逐个不放回地取出 n 个个体作为样本 (n (2) 分层抽样 ①定义: 一般地, 当总体由差异明显的几个部分组成时, 为了使样本更客观地反映总体情况, 我们常常将总体中的个体按不同的特点分成层次比较分明的几个部分,然后按各个部分在总 体中所占的比实施抽样,这种抽样方法叫分层抽样,所分成的各个部分称为“层”. ②分层抽样的应用范围: 当总体由差异明显的几个部分组成时,往往选用分层抽样的方法. 2.用样本的频率分布估计总体分布 (1) 在频率分布直方图中, 纵轴表示频率 /组距, 数据落在各小组内的频率用各小长方形的面 积 表示.各小长方形的面积总和等于 1. (2) ①频率分布折线图: 如果将频率分布直方图中各个相邻的矩形的上底边的中点顺次连结起 来,那么就得到频率分布折线图. ②总体分布的密度曲线:如果将样本容量取得足够大,分组的组距取得足够小,那么相应的 频率折线图将趋于一条光滑曲线,我们称这条光滑曲线为总体分布的密度曲线. 3.用样本的数字特征估计总体的数字特征 (1)众数:一组数据中出现次数最多的数. (2)中位数:将数据从小到大排列,若有奇数个数,则最中间的数是中位数;若有偶数个数, 则 中间两数的平均数是中位数. (3) 平均数: x =x1+ x2+? n + xn ,反映了一组数据的平均水平. 1 2 2 (4) 标 准 差 : 是 样 本 数 据 到 平 均 数 的 一 种 平 均 距 离 , s = n[ x1- x + x2- x +?+ xn - x 2]. 1 2 2 2 (5) 方差: s=n[(x1- x )+(x2- x )+?+ (xn- x )]( xn是样本数据, n 是样本容量, x 是样 本平 2 均数 ). 概 念 方 法 微 思 考 1.简单随机抽样和分层抽样有什么共同点和联系? 提示 (1) 抽样过程中每个个体被抽取的机会相等. (2)分层抽样中各层抽样时采用简单随机抽样. 2.平均数、标准差与方差反映了数据的哪些特征? 提示 平均数反映了数据取值的平均水平,标准差、方差反映了数据对平均数的波动情况, 即标准差、方差越大,数据的离散程度越大,越不稳定;反之离散程度越小,越稳定. 题组一 思考辨析 1.判断下列结论是否正确 (请在括号中打“√”或“×” ) (1)简单随机抽样每个个体被抽到的机会不一 样,与先后有关. ( × ) (2)一组数据的众数可以是一个或几个,那么中位数也具有相同的结论. ( × ) (3) 在频率分布直方图中,最高的小长方形底边中点的横坐标是众数. ( √ ) 题组二 教材改编 2.某公司有员工 500 人,其中不到 35岁的有 125 人,35~49岁的有 280 人, 50岁以上的有 95 人,为了调查员工的身体健康状况,从中抽取 100 名员工,则应在这三个年龄段分别抽取 人数为 ( ) A . 33,34,33 C.20,40,30 B .25,56,19 D. 30,50,20 答案 B 解析 设在不到 35 岁的员工抽取 x 人,则 100= x ,所以 x= 25,同理可得这三个年龄段抽 500 125 取人数分别为 25,56,19. 3.如图是 100 位居民月均用水量的频率分布直方图,则月均用水量在 [2,2.5)范围内的居民有 ______ 人. 答案 25 解析 0.5×0.5× 100= 25. 题组三 易错自纠 4. (多选)下表是某电器销售公司 2019 年度各类电器营业收入占比和净利润占比统计表: 空调类 营业收入占比 净利润占比 90.10% 95.80% 冰箱类 4.98% 小家电类 3.82% 3.82% 其它类 1.10% 0.86% -0.48% 则下列判断中正确的是 ( ) A .该公司 2019 年度冰箱类电器销售亏损 B.该公司 2019 年度小家电类电器营业收入和净利润相同 C.该公司 2019 年度净利润主要由空调类电器销售提供 D.剔除冰箱类电器销售数据后,该公司 2019 年度空调类电器销售净利润占比将会降低 答案 ACD 解析 根据表中数据知, 该公司 2019 年度冰箱类电器销售净利润占比为- 0.48% ,是亏损的, A 正确;小家电类电器营业收入占比和净利润占比是相同的,但收入与净利润不一定相同, B 错误;该公司 2019 年度空调类电器净利润占比为 95.80% ,是主要利润来源, C 正确;所 以剔除 冰箱类电器销售数据后, 该公司 2019 年度空调类电器销售净利润占比将会降低, D 正 确.故选 ACD. 5.(2020 ·惠州调研 )某高校调查了 320 名学生每周的自习时间 ( 单位:小时 )制成了下图所示的 频 率分布直方图,其中自习时间的范围是 [17.5,30] ,样本数据分组为 [17.5,20] , (20,22.5] , (22.5,25] , (25,27.5] , (27.5,30] .根据频率分布直方图,这 320 名学生中每周的自习时间不足 22.5 小时的人数是 ( )