5. 抽样和抽样分布
5.1 抽样及抽样中的几个基本概念
1.抽样的基本概念
抽样就是从所研究的对象中随机地抽取出其中的一部分来观察,由此而获得有关总体的信息。
在对总体进行研究时,进行抽样研究是非常重要的。尤其是对于许多实际工作来说,要研究的总体很大,我们不可能对总体逐一进行研究,或者既便我们能这样做,但由于试验是具有破坏性的,我们也就没有可能这样做了。再者,在许多情况下我们也没有必要对所有对象都进行研究、试验、或考察。比如,对灯泡这类产品质量的研究。因此,我们只有进行抽样研究。
抽样的特点:
1) 遵守随机原则。
2) 推断被调查对象的总体的特征。 3) 计算推断的准确性和可靠性。
由于抽样具有这样的特点,因此它可以用在这样一些场合: 1) 不可能进行全面调查; 2) 没有必要全面调查; 3) 进行假设检验; 4) 产品质量控制;
5) 作为全面调查的补充。
2.样本统计量与总体统计量 3.随机抽样和判断抽样
这两种方法虽然都是从总体中抽取出样本的方法,但是它们两者之间存在本质上的区别。随机抽样是按概率规律抽取样本,在总体中所有单位被抽中的概率是相等的。而判断抽样不是一种随机抽样,它是根据个人或集体的设想或经验从总体中有目的地抽取样本,采用这种方法主要是由于人力、物力、财力、时间或其他因素有所限制而采取的。当然,要想使判断抽样也获得比较好的效果,条件是抽样人具有丰富的关于特定总体的专业知识。
由于判断抽样是凭主观设想和判断而抽取样本的,因此抽样的结果就不能用概率的方法来加以分析。这是随机抽样和判断抽样的根本区别。我们这里只讨论随机抽样问题。
4.抽样误差和非抽样误差
抽样调查中的误差是指样本统计量和总体统计量的相应参数之间的差距。这种误差有两种,即抽样误差和非抽样误差。
非抽样误差是指在调查过程中发生的误差和由于主观因素破坏了随机原则而产生的系统性偏差。如,登记性误差。也就是说,这主要是人为的因素造成的误差,是可以通过努力而减小的。
抽样误差是指仅仅由于抽样的随机性而带来的偶然的代表性误差。它是具有随机性质的误差,这种误差是不可避免地,但可以通过统计的理论和方法把误差控制到最小的程度。
5.2 随机抽样设计
在进行抽样时,可以根据所研究对象的特点和工作条件的不同,设计不同的抽样方式。不同的抽样方式对结果有很大地影响。因此需要根据具体情况选择合适的抽样方式。一般常用的抽样方式有下列几种。
1.纯粹随机抽样。 采用抽签法或随机数字法。 2.等距抽样 3.类型抽样 4.整群抽样 5.多阶段抽样
5.3 样本平均数的抽样分布 5.3.1. 抽样分布的概念
在抽样中,由于样本是随机抽取的,对每一个特定的样本,统计量都有一个相应的数值。可见样本统计量本身也是一个随机变量,其取值随样本的不同而不同。假如从一个总体中随机抽出容量相同的各种样本,则从这些样本计算出的某统计量所有可能值的分布就称为这个统计量的抽样分布。或者说,统计量的分布就是抽样分布。
构造抽样分布包括以下几个步骤:
1) 从容量为N的有限总体中随机抽出容量为n的所有可能样本; 2) 计算出每个样本的统计量数值;
3) 将这些来自不同样本的不同统计观察值加以分组排列,把对应于每个观察值的相对
出现的频数排成另一列。 这时不难发现这些全部可能的样本统计量形成了一个概率分布,即抽样分布。 例:PP137
此例主要用于概括出抽样分布的一般规律。
5.3.2. 正态分布总体
设X~N(?,?),X1,X2,X3,。。。Xn,是它的一个样本。则样本平均数x的抽样分布具有如下性质:
21) 样本的平均数x?1?Xi的分布仍然是正态分布; n2) 样本的平均数x分布的平均值ux等于总体的平均值μ;
3) 样本平均数x分布的方差?等于总体的方差除以样本的容量,即?这些结论会经常用到。
2x2x??2n。
5.3.3. 中心极限定理
如果总体的分布不服从正态分布,那么样本平均数的抽样分布的性质只有通过中心极限定理来研究。中心极限定理是一个十分重要的定理,是抽样理论的基础。
中心极限定理:给出一个任意形式的总体,其平均值μ和方差?2为有限值,在对总体进行抽样时,随着样本容量n的增大,由这些样本算出的平均数x的抽样分布将近似服从平均值μ和方差为?2n的正态分布。或者说,若统计量z?t???,则Z近似标准正态分布。
在现实世界中,只要一个随机变量的变化是由大量的相互独立的随机因素的综合影响所形成的,而其中每一个别因素在总的影响中所起的作用都是很微小时,这个变量往往服从正态分布。
一般情况下,样本的数量大于30就可以认为足够大了。
5.3.4. 有限总体修正系数
前面提到的?2x??2n,只适用于无限总体,以及从一个有限总体中中进行重复抽样的
情形。但在实际工作中往往是采用不重复抽样或不放回抽样的方法。在这种情况下,总体的数量会不断减少,总体中各元素被抽中的概率也将发生变化。因此在这样的情况下就需要进行修正。
若抽样的总体是不重复抽样,样本平均数的抽样分布的平均值x就等于总体的平均值μ,而标准差则为:
?x??nN?n n?1当样本容量足够大时,即大到可以应用中心极限定理时,样本平均数的抽样分布将逼近正态分布。