第五章 大数定理与中心极限定理
概率论与数理统计是研究随机现象统计规律性的学科. 而随机现象的规律性在相同的条件下进行大量重复试验时会呈现某种稳定性. 例如, 大量的抛掷硬币的随机试验中, 正面出现频率; 在大量文字资料中, 字母使用频率; 工厂大量生产某种产品过程中, 产品的废品率等. 一般地, 要从随机现象中去寻求事件内在的必然规律, 就要研究大量随机现象的问题.
在生产实践中, 人们还认识到大量试验数据、测量数据的算术平均值也具有稳定性. 这种稳定性就是我们将要讨论的大数定律的客观背景. 在这一节中,我们将介绍有关随机变量序列的最基本的两类极限定理----大数定理和中心极限定理. 【教学目的与要求】
通过学习,使学生了解契比雪夫不等式的定义并会利用其进行概率估算,了解契比雪夫定理和伯努里定理。理解独立同分布的中心极限定理和棣莫佛-拉普拉斯定理,并会利用其进行概率近似计算。 【教学重点】
契比雪夫不等式与中心极限定理。 【教学难点】
中心极限定理 【计划课时】3 【教学内容】
一、依概率收敛
与微积分学中的收敛性的概念类似, 在概率论中, 我们要考虑随机变量序列的收敛性. 定义1 设X1,X2,?,Xn,?是一个随机变量序列, a为一个常数,若对于任意给定的正数?,有 limP{|Xn?a|??}?1, 则称序列X1,X2,?,Xn,?依概率收敛于a,
n??PPP??a(n??).定理1 设Xn???a,Yn???b,又设函数g(x,y)在点(a,b)连续, 记为Xn?P??g(a,b). 则g(Xn,Yn)?二、切比雪夫不等式
定理2设随机变量X有期望E(X)??和方差D(X)??2,则对于任给??0, 有
?2P{|X??|??}?2.上述不等式称切比雪夫不等式.
?注:(i) 由切比雪夫不等式可以看出,若?2越小, 则事件{|X?E(X)|??}的概率越大, 即, 随机变量X集中在期望附近的可能性越大. 由此可见方差刻划了随机变量取值的离散程度.
(ii) 当方差已知时,切比雪夫不等式给出了X与它的期望的偏差不小于?的概率的估计
?2式.如取??3?, 则有P{|X?E(X)|?3?}??0.111.故对任给的分布,只要期望和方差?2
29?存在, 则随机变量X取值偏离E(X)超过3?的概率小于0.111.
三、大数定理
1.切比雪夫大数定律
36
定理3 (切比雪夫大数定律)设X1,X2,?,Xn,?是两两不相关的随机变量序列,它们数学期望和方差均存在, 且方差有共同的上界, 即D(Xi)?K,i?1,2,?, 则对任意??0, 有
??1n?1n?limP??Xi??E(Xi)????1 n???nni?1??i?1?1n注: 定理表明: 当n很大时,随机变量序列{Xn}的算术平均值?Xi依概率收敛于其数学期
ni?11n望?E(Xi). ni?12.伯努利大数定理
定理4 (伯努利大数定律)设nA是n重伯努利试验中事件A发生的次数, p是事件A在每次试?n??n?验中发生的概率, 则对任意的??0, 有limP?A?p????1或 limP?A?p????0.
n??n???n??n?注:(i) 伯努利大数定律是定理1的推论的一种特例, 它表明: 当重复试验次数n充分大时,
nA依概率收敛于事件A发生的概率p.定理以严格的数学形式表达了频n率的稳定性. 在实际应用中, 当试验次数很大时,便可以用事件发生的频率来近似代替事件的概率. (ii) 如果事件A的概率很小,则由伯努利大数定律知事件A发生的频率也是很小的,或者说事件A很少发生. 即“概率很小的随机事件在个别试验中几乎不会发生”,这一原理称为小概率原理,它的实际应用很广泛. 但应注意到,小概率事件与不可能事件是有区别的. 在多次试验中,小概率事件也可能发生. 3.辛钦大数定理 事件A发生的频率
定理5 (辛钦大数定律) 设随机变量X1,X2,?,Xn,?相互独立, 服从同一分布,且具有数学期?1n?望E(Xi)??,i?1,2,?, 则对任意??0, 有limP??Xi??????1.
n???ni?1?注: (i) 定理不要求随机变量的方差存在; (ii) 伯努利大数定律是辛钦大数定律的特殊情况;
(iii) 辛钦大数定律为寻找随机变量的期望值提供了一条实际可行的途径. 例如, 要估计某地区的平均亩产量, 可收割某些有代表性的地块, 如n块,计算其平均亩产量, 则当n较大时,可用它作为整个地区平均亩产量的一个估计. 此类做法在实际应用中具有重要意义.
四、中心极限定理
在实际问题中, 许多随机现象是由大量相互独立的随机因素综合影响所形成, 其中每一个因素在总的影响中所起的作用是微小的. 这类随机变量一般都服从或近似服从正态分布. 以一门大炮的射程为例, 影响大炮的射程的随机因素包括: 大炮炮身结构的制造导致的误差, 炮弹及炮弹内炸药在质量上的误差, 瞄准时的误差, 受风速、风向的干扰而造成的误差等. 其中每一种误差造成的影响在总的影响中所起的作用是微小的, 并且可以看成是相互独立的, 人们关心的是这众多误差因素对大炮射程所造成的总影响. 因此需要讨论大量独立随机变量和的问题.
37
中心极限定理回答了大量独立随机变量和的近似分布问题, 其结论表明: 当一个量受许多随机因素(主导因素除外) 的共同影响而随机取值, 则它的分布就近似服从正态分布. 1.林德伯格—勒维定理
定理6 (林德伯格—勒维) 设X1,X2,?,Xn,?是独立同分布的随机变量序列, 且 E(Xi)??,D(Xi)??2,i?1,2,?,n,?
?n???Xi?n??x1?t2/2?i?1??x???edt 则 limP???2?n???n??????注: 定理6表明: 当n充分大时, n个具有期望和方差的独立同分布的随机变量之和近似服
从正态分布. 虽然在一般情况下, 我们很难求出X1?X2???Xn的分布的确切形式, 但当n很大时, 可求出其近似分布. 由定理结论有 n1n?Xi?n?近似?Xi??近似n1n2i?1i?1~N(0,1)?~N(0,1)?X~N(?,?/n),X??Xi.
ni?1?n?/n故定理又可表述为: 均值为?, 方差的?2?0的独立同分布的随机变量X1,X2,?,Xn,?的算术平均值X, 当n充分大时近似地服从均值为?,方差为?2/n的正态
分布. 这一结果是数理统计中大样本统计推断的理论基础.
2. 棣莫佛—拉普拉斯定理
在第二章中,作为二项分布的正态近似,我们曾经介绍了棣莫佛—拉普拉斯定理,这里再次给出,并利用上述中心极限定理证明之.
定理7(棣莫佛—拉普拉斯定理)设随机变量Yn服从参数n,p(0?p?1)的二项分布, 则对
t??x1?2?Yn?np??x???edt??(x) 任意x, 有limP???n???np(1?p)2????2注: 易见,棣莫佛—拉普拉斯定理就是林德伯格—勒维定理的一个特殊情况.
3.用频率估计概率的误差
设?n为n重贝努里试验中事件A发生的频率, p为每次试验中事件A发生的概率,q?1?p,由???n??棣莫佛—拉普拉斯定理,有P??p????P?????n????npn?n??pqnpqn??? pq??????????n????????pq????n???2????pq???n???1.此关系式可用解决用频率估计概率的计算问题:
pq??4. 李雅普诺夫定理
定理8(李雅普诺夫定理) 设随机变量X1,X2,?,Xn,? 相互独立, 它们具有数学期望和方差: E(Xk)??k,D(Xk)???0,i?1,2,?,记B???k2. 若存在正数?, 使得当n??时,
2k2nnk?1 38
12??Bn?E{|Xk?1nnk??k|2??}?0,则随机变量之和?Xk的标准化变量:
k?1n?n?Xk?E?X??k???k?1k?1???Zn??n?D?X??k???k?1??X???kk?1k?1nnkBn的分布函数Fn(x)对于任意x, 满足
?nX?n??x1?t2/2??k?1k?k?1k?limFn(x)?limP??x???edt??(x).
??n??n??Bn2?????注:定理8表明, 在定理的条件下, 随机变量Zn??X???kk?1k?1nnkBnnk?1.
n当n很大时,近似地服从正态分布N(0,1). 由此, 当n很大时,?Xk?BnZn???k近似地服
k?1?n2???,B从正态分布N???kn?.这就是说,无论各个随机变量Xk(k?1,2,?)服从什么分布,只要满
?k?1?足定理的条件,那么它们的和?Xk当n很大时,就近似地服从正态分布.这就是为什么正态随
k?1n机变量在概率论中占有重要地位的一个基本原因.在很多问题中,所考虑的随机变量可以表示
成很多个独立的随机变量之和,例如,在任一指定时刻,一个城市的耗电量是大量用户耗电量的总和;一个物理实验的测量误差是由许多观察不到的、可加的微小误差所合成的,它们往往近似地服从正态分布.
例题选讲:
切比雪夫不等式
例1已知正常男性成人血液中, 每一毫升白细胞数平均是7300, 均方差是700. 利用切比雪夫不等式估计每毫升白细胞数在5200~9400之间的概率.
例2在每次试验中, 事件A发生的概率为0.75, 利用切比雪夫不等式求: 事件A出现的频率在0.74~0.76之间的概率至少为0.90? 切比雪夫大数定律
例3设{Xk}为相互独立的随机变量序列, 且
Xkp?2k122k?101?122k2k1, k?1,2,? 22k?1试证{Xk}服从大数定律.
辛钦大数定理
例4 设{Xk}为相互独立且同分布的随机变量序列, 并且Xk的概率分布为 P{Xk?2i?2lni}?2?i(i?1,2,?),试证{Xk}服从大数定律.
中心极限定理
例5 在一个罐子中,装有10个编号为0-9的同样的球,从罐中放回地抽取若干次,每次抽
39
?1,第k次取到号码0一个,并记下号码. 设 Xk??, k?1,2,?n问对序列{Xk}能否应用
0,否则?大数定律?
例6一盒同型号螺丝钉共有100个,已知该型号的螺丝钉的重量是一个随机变量,期望值是100g标准差是10g, 一盒螺丝钉的重量超过10.2kg的概率.
例7一船舶在某海区航行,已知每遭受一次波浪的冲击,纵摇角大于3?的概率为p?1/3, 若船舶遭受了90000次波浪冲击,问其中有29500~30500次纵摇角度大于3?的概率是多少? 例8 对于一个学校而言, 来参加家长会的家长人数是一个随机变量, 设一个学生无家长, 1名家长, 2名家长来参加会议的概率分别0.05, 0.8, 0.15. 若学校共有400名学生, 设各学生参加会议的家长数相互独立, 且服从同一分布.(1)求参加会议的家长数X超过450的概率; (2)求有1名家长来参加会议的学生数不多于340的概率.
例9(供电问题)某车间有200台车床, 在生产期间由于需要检修、调换刀具、变换位置及调换工作等常需停车. 设开工率为0.6,并设每台车床的工作是独立的, 且在开工时需电力1千瓦. 问应供应多少瓦电力就能以99.9%的概率保证该车间不会因供电不足而影响生产? 例10 设有1000人独立行动, 每个人能够按时进入掩蔽体的概率为0.9. 以95%概率估计, 在一次行动中:(1)至少有多少人能进入掩蔽体;(2)至多有多少人能进入掩蔽体.
例11设一大批产品中一级品率为10%, 现从中任取500件.(1) 分别用切比雪夫不等式估计和中心极限定理计算: 这500件中一级品的比例与10%之差的绝对值小于2%的概率;(2) 至少应取多少件才能使一级品的比例与10%之差的绝对值小于2%的把握大于95%?
用频率估计概率的误差
例12现从某厂生产的一批同型号电子元件中抽取395件, 由于次品率未知,需要通过次品的相对频率来估计, 这时估计的可靠性大于95% (1)求绝对误差?; (2)如果样品中有十分之一是次品, 应对p怎样估计?
李雅普诺夫定理
例13高尔顿钉板试验如图4-4-2是高尔顿钉板, 常常在赌博游戏中见到, 庄家常常在两边放置值钱的东西来吸引顾客, 现在可用中心极限定理来揭穿这个赌博中的奥秘.设n为钉子的?1,第i次碰球后小球从左边落下排数, 记随机变量Xi??易见, Xi服从两点分布:
??1第i次碰球后小球从右边落下Xipi1??11/21/2i?1,E(Xi)?0,D(Xi)?1.i?1,2,?设Yn表示第n次碰钉后小球的位置, 显然,
Yn??Xi, 由中心极限定理知Yn近似服从正态分布N(0,n), E(Yn)?0, D(Yn)?n.如图
4-4-2, 钉板有n?16层,则标准差??16?4,由正态分布的特征, 小球落入中间的概率远远大于落入两边的概率.
思考题
1. 证明马尔可夫 (Markow) 大数定律:若随机变量序列X1,X2,?,Xn,?满足马尔可夫条件: ?1?n?DX?i???0,n??n2??i?1?则对任意??0??1n?1n?limP??Xi???i????1其中n???nni?1??i?1??i?E(Xi),i?1,2,?.
2. 某地有甲、乙两个电影院竞争当地每天的1000名观众, 观众选择电影院是独立的和随机
40