其中,小写字母表示与其样本均值的离差。 2.OLS估计量的方差与标准误
得到截距及偏回归系数的OLS估计量之后,就可以按照双变量模型的方法推导出这些估计量的方差及标准误。根据这些方差或标准误获知不同样本估计量的变异性。与双变量模型相同,需要标准误主要有两个目的:(1)建立真实参数的置信区间;(2)检验统计假设。
222?1X2?2?x3t?x3?x2t?2XX3?x2tx3t22?var?b1????? (4-10) 222?n??x2t?x3t???x2tx3t???se?b1??var?b1? (4-11)
var?b2???x?x?x22t23t223t???x2tx3t??2 (4-12)
se?b2??var?b2?var?b3???x?x?x22t23t223t???x2tx3t??2 (4-13)
se?b3??var?b3? (4-14)
在所有这些表达式中,?2表示总体误差项ut的(同)方差,这个未知方差的OLS估计量是:
??2?e?2in?3 (4-15)
?2的正平方根是估计值的标准误或称回归的标准误(即Y偏离估计回归线的标准差): ?????2 ?由于
?et??2??Yt?Yt?2,因此在计算
2μt。计算RSS的一个更简便的方法,即
?et时,首先要求Y22?et??yt?b2?ytx2t?b3?ytx3t
也就是说,一旦估计出偏斜率的值,就很容易求得
?e2t。
3.多元回归OLS估计量的性质
在古典线性回归模型的基本假定下,双变量模型的OLS估计量是最优线性无偏估计量。这个性质对于多元回归同样成立。因此,根据OLS估计的每一个回归系数都是线性的和无偏的——平均而言,它与真实值一致。在所有线性无偏估计量中,OLS估计量具有最小方差性,所以,OLS估计量比其他线性无偏估计量更准确地估计了真实的参数值。简言之,OLS估计量是有效的。
四、估计多元回归的拟合优度:多元判定系数R2
在双变量模型中,教材式(3-38)定义的r度量了样本回归直线(SRL)的拟合优度,即单个解释变量X对应变量Y变动的解释比例或解释百分比。r的概念可以推广到包含多个解释变量的回归模型。因此,在三变量模型中,我们用多元判定系数度量X2和X3对应变量Y变动的联合解释比例,用符号R表示;从概念上讲,它
222
与r类似。
与双变量模型相同,有如下恒等式:
2TSS=ESS+RSS
其中,TSS——应变量Y的总平方和(方和。
与双变量模型相同,R定义为
2;E;RSS——残差平SS——回归平方和(即解释平方和)?yt)
2R2?2ESS TSS即R是解释平方和与总平方和的比值;与双变量模型惟一不同的是,现在的ESS与多个解释变量有关。 可以证明:
ESS?b2?ytx2t?b3?ytx3t
前面已经证明:
RSS??yt?b2?ytx2t?b3?ytx3t
因此:
2R?22b2?ytx2t?b3?ytx3t?y2
t顺便指出,R的正平方根R称为多元相关系数,与双变量模型的r类似。r度量了Y与X的线性相关程度,
R度量了Y与所有解释变量的线性相关程度。虽然r可正可负,但R总取正值。但在实际中,很少用到R。
五、多元回归的假设检验
虽然R度量了估计回归直线的拟合优度,但是R本身却不能判定估计的回归系数是否统计显著,即是否显著不为零,要检验零假设H0:B2?0。
在双变量模型中,如果假定误差项u服从正态分布,则OLS估计量b1、b2服从正态分布。假定7已经规定了多元回归中的u服从均值为0,方差为?2的正态分布。在此假定以及其他基本假定下,可以证明b1,b2,b3均服从均值分别为B1,B2,B3的正态分布,式(4-10)、式(4-12)和式(4-13)分别给出了它们的方差。
22?2代替?2,则OLS估计量服从自由度为?n?3?的t分布,而如果用真实的但不可观察的?2的无偏估计量?不是正态分布。即
t?b1?B1~tn?3 (4-16)
se?b1?b2?B2~tn?3 (4-17)
se?b2?t?t?
b3?B3~tn?3 (4-18)
se?b3?
六、对偏回归系数进行假设检验 假定有如下假设:
H0:B2?0,H1:B2?0
在上述零假设下,可用显著性检验法或置信区间法去检验零假设是否成立。 1.显著性检验法
在显著性检验方法中,需要建立一个统计量,求其抽样分布,选择一个显著水平?,并决定在所选显著水平下检验统计量的临界值。然后将从样本得到的检验统计量与其临界值比较,如果统计量的值超过临界值,则拒绝零假设。还可以求得统计量的p值,如果p值小于显著水平?,则拒绝零假设。在大多情况下,由于真实的?2
?2去代替,因此一般使用t统计量t?未知,需要用?2的估计量?bj?Bjse?bj?。
2.假设检验的置信区间法
假设检验的置信区间法就是在给定的显著性水平下构造一个置信区间,然后看回归系数在原假设成立的条件下是否落在这个区间,如果回归系数落在这个区间则不拒绝原假设,否则就拒绝原假设。给定显著性水平?,构造Bj的1??的置信区间为bj?t?/2?sebj,bj?t?/2?sebj??????。
3.回归系数的联合显著性检验
回归系数的联合显著性检验就是对下面的零假设进行检验:
H0:B2?B3?0 (4-19)
这个零假设称为联合假设,即B2,B3联合或同时为零(而不是单独为零)。这个假设表明两个解释变量联合对应变量Y无影响,等同于
H0:R2?0 (4-20)
即两个解释变量对应变量变化的解释比例为零。因此,假设式(4-19)与假设式(4-20)是等价的,称为多元回归的总体显著性检验,即Y是否与X2,X3线性相关。
对形如式(4-19)的假设进行检验可以采用方差分析技术。对下面的恒等式:
TSS=ESS+RSS
即
22
?yt?b2?ytx2t?b3?ytx3t??et (4-21)
式(4-21)将TSS分解为两个部分,一部分(ESS)由回归模型来解释,另一部分(RSS)不能由模型解释。对TSS各个组成部分进行研究称为方差分析。
表4-1给出了方差分析表。
表4-1 三变量回归模型的方差分析表
注:MSS=平方和的均值。
如果满足CLRM基本假定(以及假定6),在零假设下:H0:B2?B3?0,可以证明变量:
(4-22)
服从分子自由度为2,分母自由度为?n?3?的F分布,如果回归模型有k个解释变量(包括截距),则F值的分子自由度为(k?1),分母自由度为?n?k?。
根据式(4-22)计算出F值,并在所选显著水平下(犯第一类错误的概率)将其与临界F值(分子自由度为2,分母自由度为?n?3?做比较。如果计算的F值超过临界F值,则拒绝零假设:所有的解释变量同时为零。如果F值不超过临界F值,则不能拒绝零假设:解释变量对应变量无任何影响。 4.F与R2之间的重要关系
判定系数R与方差分析中用到的F值之间有如下重要关系:
2F??1?R?/?n?k?2R2/?k?1? (4-23)
其中,n为观察值的个数,k为包括截距在内的解释变量的个数。
式(4-23)表明了F与R之间的关系。这两个统计量同方向变动。当R2?0(即Y与解释变量X不相关)时,F为0。R值越大,F值也越大。当R取其极限值1时,F值趋于无穷大。
因此,F检验(用于度量总体回归直线的显著性)也可用于检验R的显著性——R是否显著不为零。因此,对总体回归方程显著性的F检验(式(4-22))可以采用R的形式(式(4-23))。方差分析表4-1也可等价地表示为表4-2。
表4-2 R形式的方差分析表
2222222
七、从多元回归模型到双变量模型:设定误差 一般情况下,多元回归模型的回归系数与应变量分别对每个解释变量单独做回归建立双变量模型的回归系数不相同,只有在解释变量相互独立时,多元回归模型的回归系数才等于双变量模型的回归系数。因为多元回归模型中的回归系数是在保持其他解释变量不变的情况下,一个解释变量对应变量的净影响;而双变量模型是省略掉其他变量所做的回归,回归系数体现的是总效果。因此,在多元回归模型中省略重要的解释变量会导致(模型的)设定偏差或设定误差,更具体来说,导致了模型中遗漏相关变量的设定误差。
八、校正的判定系数 1.校正判定系数的概念
判定系数R的一个重要性质就是模型中解释变量的个数越多,R值就越大。因为在模型中增加解释变量,残差平方和至少不会增加,这就容易产生错觉,要使得R值变大,只需要在模型中增加解释变量的个数就可以
222
了,因此在多元回归模型中R不再是一个很好的判断拟和优度的指标。这就需要重新定义一个拟合优度的度量指标,它能根据模型中解释变量的个数进行调整。校正的判定系数R就是这样一个度量指标,用符号R表示。
222R?1??1?R2?2n?1 (4-24) n?k校正的判定系数R有如下性质:
(1)如果k?1,则R?R。即随着模型中解释变量个数的增加,校正判定系数R越来越小于未校正判定系数R,这似乎是对增加解释变量的“惩罚”。
(2)虽然未校正判定系数R总为正,但校正判定系数R可能为负。
2.利用校正的判定系数确定是否增加新的解释变量
在实践中,为了解释某个现象,往往面临着在若干解释变量间进行取舍的问题。通常的做法是:只要校正判定系数R值增加(即使R值小于R的值),就可以增加新的解释变量。可以证明:如果增加变量系数的t值大于1,R就会增加,这里的t值是在零假设“真实系数为零”下计算得到的。”
九、受限最小二乘
前面所用的最小二乘法都是在回归系数没有任何约束的情况下使用的,当回归系数受到一些约束时,例如在
22222222222H0:B2?B3?...?Bm?1?0的零假设下使用的的最小二乘法就是受限最小二乘法。对于双变量回归模型
Yi?B1?B2X2i?B3X3i?...?Bm?1Xm?1,i?ui (4-25)
在零假设H0:B2?B3?...?Bm?1?0下,回归模型为:
Yi?B1?ui (4-26)
回归模型(4-26)称为受限模型,因为它表示X不属于模型(即除截距外所有解释变量的回归系数都为零)。回归模型(4-25)称为非受限模型,因为它包含了所有相关变量。由于模型(4-26)是受限模型,所以当用OLS估计参数时,称为受限最小二乘法。由于模型(4-25)是非受限模型,所以当用OLS估计参数时,称为非受限最小二乘法。
为了检验约束条件是否成立,即是选择受限模型还是非受限模型,可以使用F统计量进行检验。可以证明,
F??1?Rur2?/?n?k??R2ur?Rr2?/m~Fm,n?k (4-27)
2服从分子自由度为m,分母自由度为?n?k?的F分布,其中Rr为受限模型得到的R,Rur为非受限模
22型得到的R,m为受限回归的限制个数,n为样本观察值的个数,k为非受限模型待估参数的个数(包括截距项)。如果从方程(4-27)估计的F值大于所选显著水平下的临界F值,则拒绝受限回归。在这种情形下,受限模型的约束是无效的。
4.2 课后习题详解
一、问 题 1.解释概念
2