统计学学习指导与习题
数估计)的反问题,因此其公式就是根据极限误差与平均误差之间的关系推导而来的。因为Δx=tμx,等式两边平方,即有Δx=tμx,在简单随机抽样情况之下,Δx=tσ/n ,从而有上述的公式。(2)对于成数的抽样估计,是非标志的方差σp=P(1-P),故只要将上述公式中的方差改为P(1-P)即可。(3)样本容量估计时,计算结果总是取整数,小数点无论是否达到0.5均应该进位,故本列中374.4与348.3均进位,分别成为375与349。(4)在样本容量确定时,允许误差或误差范围均是指极限误差Δ。
[例4]某市质量技术监督部门拟对市场上某类牛奶制品的质量(合格率)进行检查,要求在95%的可靠性之下(t=1.96),合格率的误差范围不超过1%。根据最近三次同类检查,这类产品的合格率分别为98.9%、98.2%、97.8%。问至少应该抽多少件产品进行检验?若允许误差扩大1倍,则应该抽取多少件进行检验? [解题过程]已知t=1.96,Δp=1%,P=97.8%
2
2
2
2
2
2
2
t2P(1?P)1.962?0.978?0.022样本容量n???826.6?827?件?22?p0.01当允许误差扩大1倍时,即Δp=2%,于是样本容量:
t2P(1?P)1.962?0.978?0.022n???206.7?207?件?22?p0.02[几点说明](1)本例是成数估计时的样本容量确定。虽然实际的质量检验肯定是采用不重复抽样的,但由于市场上该类产品数量未知,可视作无穷大,故采用重复抽样的样本容量公式。(2)本例的关键是公式中P的选择。题中提供了三次同类检查的合格率资料,但一般不能用三者平均数作为P。样本容量确定时通常采取“保守原则”,因此应该取“最大方差”,题中提供的三次调查合格率,其方差分别为98.9%(1-98.9%)=0.010879、98.2%(1-98.2%)=0.011784、97.8%(1-97.8%)=0.021516,故取P=97.8%时方差达到最大,据之计算得出的样本容量也最大,据之作出的调查估计也是“最保守”从而也是最可靠的。(3)但必须注意的是,此例表面上看是取三个合格率的最小者作为P,但切不可据之类推,以为永远是最小的那个比率。例如,本例若改为对“不合格率”的估计,则前三次调查的不合格率是1.1%、1.8%、2.2%,若错误地认为应该取三者中的小者,就会取P=1.1%,但据之计算的方差却不是最大而是最小。此时取P=2.2%才可达到“方差最大”。其实,P=50%时成数方差达到最大值,因此,应该取最接近50%的那个比率作为样本容量公式中的P。(4)对于例3资料,其实也存在着“最大方差”原则问题,即当资料中给出了近几次类似调查的样本方差,则也应该取其中最大者作为公式中的方差σ。(5)当同一次调查需要对两个以上的项目(如平均值与成数)进行估计时,应该分别计算这些项目的必要样本容量,然后取其中之大者作为最终确定的抽样单位数。
23
统计学学习指导与习题
[例5]对于简单随机重复抽样,在其它条件不变的情况之下,(1)抽样单位数(样本容量)分别增加1倍、3倍、减少25%、50%,则抽样平均误差分别如何变化;(2)反之,若抽样允许误差缩小20%、50%、扩大50%、100%,则抽样单位数(样本容量)应该如何变化? [解题过程](1)设改变要求之前的样本容量为n旧,平均误差记为μ旧,则当样本容量分别增加1倍、3倍、减少25%、50%时,相应的n将分别为:
n=2n旧、n=4n旧、n=0.75n旧、n=0.5n旧,相应抽样平均误差分别为:
???2n??22n旧?12?2n旧?0.7071?旧 即样本容量扩大一倍,平均误差减少29.29%。
???2n??24n旧1?2??0.5?旧2n旧 即样本容量扩大3倍,抽样平均误差减少50%。
???2n??20.75n旧?10.75?2n旧?1.1547?旧 即样本容量减少25%,抽样平均误差扩大15.47%。
???2n??20.5n旧?10.5?2n旧?1.4142?旧 即样本容量减少50%,抽样平均误差扩大41.42%。
(2)设改变要求之前的允许误差记为Δ旧,相应的样本容量记为n旧,则当抽样允许误差缩小20%、50%、扩大50%、100%,时,相应的Δ分别为:
Δ=0.8Δ旧,Δ=0.5Δ旧,Δ=1.5Δ旧,Δ=2Δ旧,,相应样本容量为:
t2?2t2?2n?2??1.5625n旧2??0.8?旧? 即允许误差减少20%,样本单位数应该扩大0.5625倍。
t2?2t2?2n?2??4n旧2??0.5?旧? 即允许误差减少一半,样本单位数应该扩大3倍。
24
统计学学习指导与习题
t2?2t2?2n?2??0.4444n旧2??1.5?旧? 即允许误差扩大50%,样本单位数可以减少55.56%。
t2?2t2?2n?2??0.25n旧2??2?旧? 即允许误差扩大1倍,样本单位数可以减少75%。
[几点说明](1)本题是测试学生对样本容量与抽样平均误差(或极限误差)之间数量关系掌握的熟练程度。因此,本题关键是搞清楚在重复简单随机抽样情况之下,样本容量与平均误差、极限误差之间的公式关系。(2)本题还必须正确理解统计学中 “扩大了”、“减少了”的真实含义,注意与“扩大到”、“减少到”之间的本质差别。“扩大了一倍”等价于“是原来的二倍”,“减少了20%”等价于“是原来的80%”,貌似简单,却总有不少初学者搞错,因此必须引以重视。
(六)最小平方法在回归分析和趋势预测中的应用
最小平方法,又称最小二乘法。其方法的计算依据是利用算术平均数的数学性质,在我们介绍算术平均数的数学性质时,有两条性质分别是:一、各个变量值与平均数的离差之和等于零,用表达式表示即
?(x?x)?0;二、各个变量值与平均数的离差平方之和为最小
2(x?x)值,用表达式表示为??最小值。这两条数学性质已证明过,我们把它们应用到
回归分析和趋势预测中来。回归分析和时间序列趋势预测中,主要是为求得回归方程或趋势方程,但在求得方程的参数时,就要用到上面的两条数学性质。
最小平方法的数学依据是实际值(观察值)与理论值(趋势值)的离差平方和为最小。据此来拟合回归方程或趋势方程。 1、利用最小平方法拟合直线回归方程
拟合直线回归方程的主要问题就在于估计待定参数a和b之值,而用最小平方法求出的回归直线是原有资料的“最佳”拟合直线。 假设直线回归方程为:
yc?a?bx,其中a是直线的截距,b是直线的斜率,称回归
系数。a和b都是待定参数。将给定的自变量x之值代入上述方程中,可求出估计的因变量
y之值。这个估计值不是一个确定的数值,而是y许多可能取值的平均数,所以用yc表示。
y当x取某一个值时,y有多个可能值。因此,将给定的x值代入方程后得出的c值,只能
25
统计学学习指导与习题
看作是一种平均数或期望值。配合直线方程的具体方法如下:
Q??(y?yc)2?最小值 (1)
用直线方程
yc?a?bx代入式(1)得:
(2)
Q??(y?a?bx)2?最小值 分别求Q关于a和Q关于b的偏导,并令它们等于0:
??Q??a??2(y?a?bx)(?1)?0??Q???2(y?a?bx)(?x)?0?b ?
整理后得出由下列两个方程式所组成的标准方程组:
??y?na?b?x?xy?a?x?b?x2?? (3)
根据已知的或样本的相应资料x、y值代入式(3),可求出a和b两个参数:
?n?xy??x?y?b??n?x2?(?x)2??y?b?x?a??nn ? (4)
只要把a和b两个参数代入
yc,就可得到直线回归方程yc?a?bx。并根据此方程在
自变量给定的条件下估计因变量的平均可能值。这里要说明的是回归系数b的含义,它表明自变量每增加(或减少)一个单位,因变量将平均增加(或减少) b个单位。 上述标准方程组也可从另外的角度理解和获得: 根据平均数的数学性质一(开头提到的),
可得:
?(y?y)?0。用ycc?a?bx代入。
?(y?a?bx)?0
整理后得:
26
统计学学习指导与习题
?y?na?b?x (5)
2 然后,在式(5)等式两边同时乘以x,又可得:
xy?a?x?b?x ? (6)
联列式(5)和式(6),即能得到解直线回归方程参数的标准方程组:
??y?na?b?x?xy?a?x?b?x2??
和式(3)一样再解a和b两个参数,求得直线回归方程。此方法也可推广到求解非直线
2y?a?bx?cxc回归方程。譬如二次曲线回归方程,。其中有三个待定系数,要设立三个
方程求解。用上述同样的思维,能得到如下的标准方程组:
?y?na?b?x?c?x2??23??xy?a?x?b?x?c?x?x2y?ax2?bx3?cx4??? (7) ?? 这样也能求解a、b、c三个参数。
在回归分析中,采用回归估计标准误这一指标来衡量样本观测值y对回归直线的离散程度。回归估计标准误,又称估计标准误差,它是衡量回归估计精确度高低或回归方程代表性大小的统计分析指标,用
Sy.x表示。
Sy.x越大,表示回归估计结果越不精确,回归直线方程
的代表性越差;反之,恰好相反。回归估计标准误的计算公式如下:
Sy.x??y2?a?y?b?xyn?2 (8)
2、利用最小平方法拟合直线趋势方程
在时间序列分析中,我们也常常利用最小平方法拟合直线趋势方程,直线趋势方程与直线回归方程基本原理相同,只是直线回归方程中的自变量被时间变量t所取代,方程中的两个待定系数也用同样的方法求得。
如果时间数列的一级增长量(即环比增长量)大致相等,则可拟合直线趋势方程。设直线趋势方程为:
yt?a?bt。
如上面介绍方法可得出求解a和b两个参数的标准方程组:
27