第三章 一元线性回归模型
一、预备知识 (一)相关概念
对于一个双变量总体(yi,xi),若由基础理论,变量x和变量y之间存在因果关系,或x的变异可用来解释y的变异。为检验两变量间因果关系是否存在、度量自变量x对因变量y影响的强弱与显著性以及利用解释变量x去预测因变量
y,引入一元回归分析这一工具。
将给定xi条件下yi的均值
E(yi|xi)??0??1xi (3.1) 定义为总体回归函数(Population Regression Function,PRF)。定义
yi?E(yi|xi)为误差项(error term),记为?i,即?i?yi?E(yi|xi),这样yi?E(yi|xi)??i,或
yi??0??1xi??i (3.2) (3.2)式称为总体回归模型或者随机总体回归函数。其中,x称为解释变量(explanatory variable)或自变量(independent variable);y称为被解释变量(explained variable)或因变量(dependent variable);误差项?解释了因变量的变动中不能完全被自变量所解释的部分。误差项的构成包括以下四个部分:
(1)未纳入模型变量的影响 (2)数据的测量误差
(3)基础理论方程具有与回归方程不同的函数形式,比如自变量与因变量之间可能是非线性关系
(4)纯随机和不可预料的事件。
在总体回归模型(3.2)中参数?0,?1是未知的,?i是不可观察的,统计计量分析的目标之一就是估计模型的未知参数。给定一组随机样本
(xi,yi),i?1,2,?,n,对(3.1)式进行估计,若E(yi|xi),?0,?1的估计量分别记为yi,?0,?1,则定义3.3式为样本回归函数
yi??0??1xi (i?1,2,?,n) (3.3)
注意,样本回归函数随着样本的不同而不同,也就是说?0,?1是随机变量,它们的随机性是由于yi的随机性(同一个xi可能对应不同的yi)与x的变异共同引起的。定义yi?yi为残差项(residual term),记为ei,即ei?yi?yi,这样
yi?yi?ei,或
^^^^^^^^^^^ yi??0??1xi?ei (i?1,2,?,n) (3.4)
^^(3.4)式称为样本回归模型或者随机样本回归函数。样本回归模型中残差项ei可视为总体回归模型中误差项?i的估计量。 (二)参数估计:普通最小二乘法
如何估计总体参数?0,?1的估计量?0,?1,或如何获得样本回归函数呢?在回归分析中,使用最广泛的方法是最小二乘法,一般称为普通最小二乘法(Ordinary Least Squares,OLS)。OLS求解未知参数?0,?1的估计量?0,?1,使残差平方和最小。即
Minimize ?e??(yi?yi)??(yi??0??1xi)2 (3.5)
2i2i?1i?1i?1nn^n^^1
^^^^求解(3.5)式可得
^ ?1??(xi?1nni?x)(yi?y)i?(xi?1 ,?0?y??1x (3.6)
?x)2^^1n1n其中,x??xi,y??yi。
ni?1ni?1(三)古典线性回归模型
统计推断除了包括参数估计外还包括假设检验,在根据样本回归函数检验假设时,需要对误差项?i的生成过程做一些假定。
假定1 回归模型是参数线性的,但可以不是变量线性的。 假定2 解释变量xi与随机误差项?i不相关。即
cov(xi,?i)?0。
如果解释变量xi是非随机的,则该假设自动满足。 假定3 零均值假定。即
E(?i)?0
假定4 同方差假定。即
var(?i)??2
假定5 无自相关假定。即两个误差项之间不相关
cov(?i,?j)?0 i?j
假定6 回归模型是正确设定的。 假定7 正态性假定。即
1
之所以称为普通最小二乘法,是因为还有一种方法称为广义最小二乘法,普通最小二乘法是广义最小二乘法的特例。
?i~N(0,?2)
满足以上假定的回归模型称为古典线性回归模型(Classical Line Regression Model,CLRM)。 (四)高斯-马尔科夫定理
如果古典线性回归模型的基本假定成立,则OLS估计是最优线性无偏估计量(Best Linear Unbiased Estimators,BLUE)。 (五)预测原理
回归分析的目的之一是利用回归模型预测因变量。比如,金融决策经常涉及一个长期的资源承诺(a long-term commitment of resources), 决策的收益将取决于将来发生的事情。
假设双变量总体的回归模型为(3.2),即
yi??0??1xi??i (3.2) 在一组随机样本(yi,xi),i?1,2,?,n下,利用OLS求得样本回归函数为(3.3) yi??0??1xi (i?1,2,?,n) (3.3) 给定样本外一点xf,则因变量yf的点预测为
yf??0??1xf (3.7) 点预测yf的标准误为
^^^^^^^1 se(yf)??1??(xf?x)2n^^?(xi?1ni ?x)2 (3.8)
因变量yf的置信度为1??的区间预测为
[yf?t?2(n?2)se(yf), yf?t?2(n?2)se(yf)] (3.9)
^^^^
二、案例
[案例1] 经济形势对人们工作意愿的影响
根据劳动经济学理论,经济形势对人们工作意愿的影响存在两个互相独立的效应:受挫工人效应和增加工人效应。用失业率度量(UNR)经济形势,用劳动力参与率(LFPR)度量人们的工作意愿。受挫工人假说认为当经济形势恶化时,许多失业工人就业意愿降低,放弃寻找工作并退出劳动力市场,从而劳动力参与率下降;增加工人假说认为当经济形势恶化时,许多尚未进入劳动力市场的后备工人,比如带孩子的母亲,可能会由于养家的人失去工作而决定进入劳动力市场,即使这些工作的报酬很低,只要可以弥补由于养家的人失去工作而造成的损失即可,从而劳动参与率上升。