第1章 统计量与抽样分布
数理统计是具有广泛应用的一个数学分支,它以概率论为理论基础,根据试验或观察得到的数据,来研究随机现象,对研究对象的客观规律性作出种种合理的估计和判断。
数理统计的内容包括:如何收集、整理数据资料;如何对所得的数据资料进行分析、研究,从而对所研究的对象的性质、特点作出推断。后者就是我们所说的统计推断问题。本书只讲述统计推断的基本内容。
在概率论中,我们所研究的随机变量,它的分布都是假设已知的,在这一前提下去研究它的性质、特点和规律性,例如求出它的数字特征,讨论随机变量函数的分布,介绍常用的各种分布等。在数理统计中,我们研究的随机变量,它的分布是未知的,或者是不完全知道的,人们是通过对所研究的随机变量进行重复独立的观察,得到许多观察值,对这些数据进行分析,从而对所研究的随机变量的分布作出种种推断的。
1.1 基本概念
1.1.1 总体与个体 在统计学中,将我们研究的问题所涉及的对象的全体称为总体,而把总体中的每个成员称为个体。这是一个比较形象的说法。例如:我们研究一家工厂的某种产品的废品率,这种产品就是我们的总体,而每件产品则是个体。又如把某市每户居民人数的全体看成总体,一户的人数便是个体。再如研究电大学生学习“高等数学”的期末考试成绩情况,全体学员的期末考试成绩构成总体,而每个学员的成绩则为个体。个体与总体就好像集合论中的元素与集合之间的关系。这里所讲的产品的废品率、居民户的人数、学员的考试成绩,它们的取值都是不同的,即每个个体所取的值是不同的。在试验中抽取某个个体所观察得到的数值X就是一个随机变量,因而我们用X的分布去描述总体分布情况。以后我们把总体与随机变量X可能取值的全体所组成的集合等同起来,并把随机变量X的分布称为总体的分布,即总体分布就是设定的表示总体的随机变量X的分布。总体的分布一般说来是未知的,有时虽已知总体分布的类型(如正态分布),但不知道分布中所含的参数,有时连分布所属的类型也不能肯定。统计学的任务就是对总体的未知分布进行推断。
1.1.2 总体与样本
前面指出,作为统计研究对象的总体的分布一般来说是未知的。为了获得对总体分布的知识,一般的方法是对总体进行抽样观察。通常的做法是从它的全部产品中随机地抽取一些样品,在统计学上称为样本。
例1.1.1 研究某地区N个农户的年收入。在这里,总体即指这N个农户,如果我们从这N个农户中随机地抽出n个农户作为调查对象,那么,n个农户他们年收入的n个数字
就是样本。
在上面的例子中,总体是很直观的,是看得见,摸得着的。但是客观情况并不总是这样。
例1.1.2 用一把尺子去量一个物体的长度,假定n次测量值为X1,X2,?,Xn。 显然,在这个问题中,我们把测量值X1,X2,?,Xn看成了样本,但是,总体是什么呢?事实上,这里没有一个现实存在的个体的集合可以作为我们的总体。可是,我们可以这样考虑,既然n个测量值X1,X2,?,Xn是样本,那么总体就应该理解为一切所有可能的测量值的全体。
这种类型的总体的例子不胜枚举。例如:为研究某种安眠药的药效,让n个病人同时服用此药,记录下他们各自服药后的睡眠时间比未服药前延长的小时数X1,X2,?,Xn。这些数字就是样本。总体就是设想让某个地区或某个国家,甚至全世界所有患失眠症的病人都服用此药,他们所增加的睡眠时间的小时数的全体,就是该问题中的总体。
例1.1.3 在例1.1.1中,若农户年收入以万元计,假定N户中收入X为:0.5,0.8,1,1.2,1.5的农户个数分别为n1,n2,n3,n4,n5,这里n1+n2+n3+n4+n5=N,则总体X的分布为离散型分布,其分布律为
X pi
例1.1.4 在例1.1.2中,假定物体的真正长度为? (未知)。一般说来测量值X,也就是我们的总体,取?附近值的概率要大一些,而离?愈远的值被取到的概率就小一些。如果测量过程没有系统性误差,那么X取大于?和小于?的概率也会相等。在这样的情况下,人们往往认为X服从均值为?的正态分布。假定其方差为?,则?反映了测量的精度。于是,总体X的分布为N(?,?),记为X~N(?,?)。
22220.5 0.8 1 1.2 1.5 n1 Nn2 Nn3 Nn4 Nn5 N这里有一个问题,即物体长度的测量值总是在它的真正长度?的附近,它根本不可能取到负值,而随机变量取值在(-∞,+∞)上,那么怎么可以认为测量值服从正态分布呢?要回答这个问题,需要用到正态分布的一条性质。
对于正态变量X~N(?,?2)
P???3??X???3???99.7%
即X落在区间(??3?,??3?)之外的概率不超过0.003,可见这个概率是非常小
的。显然X落在(??4?,??4?)之外的概率也就更小了。
比如,假定物体长度?=10厘米,测量误差约为0.01厘米,则?2=0.012,这时,(??3?,??3?)=(9.9997,10.0003),于是测量值落在这个区间之外的概率最多只有0.003,可以忽略不计。可见,用正态分布N(10,0.012)去描述测量值是适当的。
另外,正态分布取值范围是无限区间(-∞,+∞),还可以解决规定测量值取值范围上的困难。如若不然,我们用一个定义在有限区间(a和b)的随机变量来描述测量值,那么a和b到底取什么值,测量者事先很难确定。再退一步,即便我们能够确定出a和b,却仍很难找出一个定义在(a和b)上的非均匀分布能够用来恰当地描述测量值,与其这样,还不如我们干脆就把取值区间放大到(-∞,+∞),并采用正态分布去描述测量值,这样既简化了问题又不致引起较大的误差。
如果总体所包含的个体数量是有限的,则称该总体为有限总体,其分布是离散型的,如例1.1.3。如果总体所包含的个体数量是无限的,则称该总体为无限总体,其分布可以是连续型的,如例1.1.4。在数理统计中,研究有限总体比较困难,因为它的分布是离散型的,且分布律与总体所含个体数量有关系。所以,通常在总体所含个体数量比较大时,我们就把它近似地视为无限总体,并且用连续型分布去逼近总体的分布,这样便于做进一步的统计分析。例如,我们研究某大城市年龄在1到10岁之间儿童的身高。显然,不管这个城市规模有多大,在这个年龄段的儿童数量总是有限的。因此,这个总体只能是有限总体。总体分布也只能是离散型分布。然而,为了便于处理问题,我们可以把它近似地看成一个无限总体,并且通常用正态分布来逼近这个总体的分布。当城市比较大,儿童数量比较多时,这种逼近所带来的误差,从应用观点来看,可以忽略不计。
1.1.3 样本的二重性
样本的一个重要性质是它的二重性。假设X1,X2,?,Xn是从总体X中抽取的样本,在一次具体的观测或试验中,它们是一批测量值,是一些已知的数。这就是说,样本具有数的属性。这一点比较容易理解。但是,另一方面,由于在具体的试验或观测中,受到各种随机因素的影响,在不同的观测中样本取值可能不同。因此,当脱离开特定的具体试验或观测时,我们并不知道样本X1,X2,?,Xn的具体取值到底是多少,因此,可以把它们看成随机变量。