?2??2是?2的估计量,其中,?e??2in?2 (3-8)
22?(Y?Y)是残差平方和,即的真实值与估计值差的平方和,eY?ii。 ?in?2称为自由度,可以简单地看做是独立观察值的个数。
一旦计算出ei,就很容易求得
?e2i,顺便指出,
????2 (3-9) ??(??2的正平方根)称为回归标准误,即Y值偏离估计回归线的标准差。回归的标准误常用于度量估计回??值越小,Y的实际值越接近根据回归模型得到的估计值。 归线的拟合优度。?
三、OLS估计量的性质 1.OLS估计量的性质
如果满足古典线性回归模型的基本假定,则在所有线性估计量中,OLS估计量具有最小方差性,即OLS估计是最优线性无偏估计量(BLUE)。
OLS估计量具有如下性质:
(1)b1和b2是线性估计量,即它们是随机变量Y的线性函数。
(2)b1和b2是无偏估计量;即E?b1??B1,E?b2??B2。因此,平均而言,b1和b2与其真实值B1和B2一致。
?2??2;即误差方差的OLS估计量是无偏的。平均而言,误差方差的估计值收敛于其真实值。 (3)E?(4)b1和b2是有效估计量。即var?b1?小于B1的任意一个线性无偏估计量的方差,var?b2?小于B2的任意一个线性无偏估计量的方差。因此,与其他能够得到真实参数无偏估计量的方法相比,OLS法更准确地估计了B1和B2。
由此可见,OLS估计量具有许多理想的统计性质。正因为如此,在回归分析中,OLS才会得到广泛应用。 2.蒙特卡洛试验
OLS估计量理论上是无偏的,可以通过蒙特卡洛试验验证。假定有如下信息:
??Yi?B1?B2Xi?ui ???????1.5?2.0Xi?ui
(0,4)其中,ui~N。即已知真实的截距和斜率系数分别为1.5和2.0,随机误差服从均值为0,方差为4
的正态分布。现假定X有10个给定值:1,2,3,4,5,6,7,8,9,10。
利用这些信息,可进行如下分析。利用统计软件,从N?0,4?正态分布中生成10个ui值。根据给定的B1和
B2,以及10个X值和生成的10个ui值,利用上面的方程可以得到10个Y值,记为试验或样本1。再根据正
态分布表,生成另外10个ui值,得到另外10个Y值,记为样本2。按此方式,得到21个样本。
?2。因此,可得到21个不同的b1、b2和??2。 对每个样本进行回归,得到b1、b2以及?
?2分别为1.4526、1.9665和4.4743,而相应的真实值分别为1.5、2.0和4。 计算出平均的b1、b2和?从这个试验可以得出:如果反复运用最小二乘法,则平均地看,估计值将等于(总体参数)真实值。即OLS
估计量是无偏的。如果增加抽样实验的次数,则会得到更接近于真实值的估计值。
四、OLS估计量的抽样分布或概率分布
为了推导OLS估计量b1和b2的抽样分布,需要在CLMR基本假定上再增加一条假定。
假定7:在总体回归函数Yi?B1?B2Xi?ui中,误差项ui服从均值为0,方差为B2的正态分布。即
ui~N(0,?2) (3-10)
1.中心极限定理
中心极限定理:随着变量个数的无限增加,独立同分布随机变量之和近似服从正态分布。
因为误差项ui代表了未纳入回归模型的其他所有因素的影响。因为在这些影响因素中,每种因素对Y的影响都很微弱。如果所有这些影响因素都是随机的,用u代表所有这些影响因素之和,那么根据中心极限定理,可以假定误差项服从正态分布。之前已经假定了ui的均值为0,方差为?2(满足同方差性假定),因此得到式(3-10)。
2.参数b1和b2的分布
因为Yi和ui具有相同的分布,而b1和b2都是关于Yi的线性函数,由正态分布的性质可知,b1和b2也是服从如下的正态分布的,
b1~NB1,?b2
1b2五、假设检验
22b2??~N?B,??
在双变量回归模型Yi?B1?B2Xi?ui中,为了检验X对Y是否真的有影响,就需要检验回归系数B2是否为零,因此就需要建立原假设H0:B2?0。如果零假设为真,就没有必要把X纳入模型了。因此,如果X确实属于模型,则拒绝零假设H0,接受备择假设H1,比如说B2?0,即斜率系数不为零,可正可负。
根据式(3-19),b2服从均值为B2,方差为?参数进行假设检验。
1.检验H0:B2?0,H1:B2?0置信区间法
由于b2服从正态分布,则变量Z服从标准正态分布,即
2?x2i的正态分布。那么,可以选择两种方法对B2和B1的
Z?b2?B2b2?B2?~N?0,1? (3-11)
2se?b2??/?xi?给定显著性水平?,可以构造B2的?1???的置信区间?b2?z?/2?????,如果在零,b2?z?/2??xi2?xi2????
假设B2?0条件下,0落入这个区间,那么就不拒绝原假设H0:B2?0;如果0不落在这个区间,就拒绝原假设,认为X对Y有影响。
?代替式(3-11)中的?,?2来估计它。但是真实的?2一般式未知的,因此需要根据式(3-8)给出的?如果用?则式(3-11)的右边服从自由度为?n?2?的t分布,而不是标准正态分布,此时B2的置信区间为
??b2?t?/2?????。 ,b2?t?/?222??xi?xi???注:B2的?1???的置信区间并不是说这个区间包含真实参数B2的概率为?1???,因为B2要么落在这个区间要么不落在这个区间,概率为1或者0,?1???的置信区间是说不断抽取样本建立置信区间,在众多的置信区间里,有?1???的区间包含了真实参数B2。
2.假设检验的显著性检验法
这种假设检验方法涉及两个重要概念检验统计量和零假设下检验统计量的抽样分布。其核心思想是根据从样
?2代替,因此 本数据求得的检验统计量的值决定接受或拒绝零假设。在真实的?2未知的情况下,用?t?服从自由度为?n?2?的t分布。如果令
b2?B2
se?b2?*H0:B2?B2
其中,B2是B2的某个给定数值(例如,B2=0),则根据样本数据很容易求得
**b2?B2? t?se?b2?即t统计量等于上式右边各项都是已知的,因此,可用计算出的t值作为检验统计量,它服从自由度为?n?2?的t分布。在给定的显著性水平下,查t分布表得到临界值t?/2,如果t?t?/2,则拒绝原假设,否则不拒绝。
在具体进行t检验时,需要知道:
(1)对于双变量模型,自由度为?n?2?,对于k个解释变量的回归模型,自由度为?n?k?1?; (2)在经验分析中,常用的显著水平?有1%、5%或10%。为了避免选择显著水平的随意性,通常求出P值,如果计算的P值充分小,则拒绝零假设;
(3)可用单边或双边检验(参见表D-2及图D-7)。
六、拟合回归直线的优度:判定系数r
根据t检验,估计的斜率和截距都是统计显著的,这说明样本回归函数很好地拟合了样本数据。当然,并非
2?都为0;为了判断估计的回归线拟合真实Y每一个Y值都准确地落在了估计的PRF上,即并非所有的ei?Yi?Yi
值的优劣程度,需要计算判定系数,用符号r2表示。
1.总平方和的分解 因为,
??e Yi?Yii把上式恒等变化,得:
?Y?Y???Y??Y???Y?Y??
iiii?Y?Y?为Y的变异,?Y??Y?为由X的变异所解释的部分,?Y?Y??为未解释部分或残差的变异。
iiiii用小写字母表示均值的离差,得
?i?ei yi?y?,即真实Y的均值等于估计Y的均值,因此e?0,或写为 由于Y?Yyi?b2xi?ei
?i?b2xi。(注:y)
对上式两边同时平方再求和,经过简单数学变换,得
?y或等价地,
2i?i??ei ??y2222?yi?b22?xi??ei (3-12)
各种平方和定义如下:
2?y??y2i2=总平方和?TSS?,真实Y值围绕其均值Y的总变异。
i??Y)的变异,也称为回归平方和(由解释变量解=解释平方和?ESS?,估计的Y值围绕其均值(Y释的部分)。
?e2i=残差平方和?RSS?,即Y变异未被解释的部分。
则式(3-12)可简化为
TSS=ESS+RSS (3-13)
式(3-13)表明,Y值与其均值的总离差可以分解为两部分:一部分归于回归线,另一部分归于随机因素,因为并不是所有的真实观察值Y都落在拟合直线上,参见下图。
2.判定系数r2
如果选择的SRF很好地拟合了样本数据,则ESS远大于RSS。如果所有真实的Y值都落在拟合的SRF上,则ESS等于TSS,RSS为0;另一方面,如果SRF拟合得不好,则RSS远大于ESS。如果X不能解释Y的变异,则ESS为0,而RSS等于TSS。当然,这是极端情形。一般的情形是:ESS和RSS均不为零,如果ESS远大于RSS,则SRF在很大程度上解释了Y的变异;如果RSS远大于ESS,则SRF只能部分解释Y的变异。把式(3-13)的两边同除以TSS,得
1=定义,
ESSRSS (3-14) +TSSTSSESS (3-15) TSSr2=称r2为(样本)判定系数,通常用来度量回归线的拟合优度。用文字表述为,判定系数度量了回归模型对Y变异的解释比例(或百分比)。
r2有两个重要性质:
(1)非负性,因为ESS与RSS都是平方和,都是非负的;
(2)0?r2?1,因为部分?ESS?不可能大于整体?TSS?。若r?1,则表示“完全拟合”,即线性模型完全
2解释Y的变异。若r2?0,则表示Y与X之间无任何关系。
3.r2的计算公式
根据式(3-15),式(3-14)可改写为
RSS2?ei1?r??r? 2TSS?yi22因此,
r24.判定系数r与相关系数r
2e??1??y22ii
样本相关系数r度量了两个变量X与Y之间的线性相关程度,r可写为:
r???Xi?????xy?X?X??Y?Y??x?yi?XYi?Y2iii222
ii相关系数也能够通过判定系数r计算得到
2r??r2 即在双变量回归模型中,相关系数的平方等于判定系数。
七、回归分析结果的报告
回归分析结果的报告有多种形式。在没有使用统计软件之前,回归结果的报告通常采用下面的形式: