到目前为止,仅考虑了双变量回归模型,或称简单回归模型。即应变量仅是一个解释变量的函数。通过双变量模型介绍了回归分析的基本思想。很容易将回归的概念推广到应变量是多个解释变量函数的情形。
E(Y)?B1?B2X2i?B3X3i?...?BkXki (2-9)
注:E?Y??EYX2i,X3i,...,Xki
式(2-9)就是多元线性回归的一个例子。回归方程中包含了不止一个的自变量或解释变量。多元回归函数的随机形式(即随机PRF)表示为:
??Yi?B1?B2X2i?B3X3i?...?BkXki?ui
?E?Y??ui (2-10)
由于随机误差项u的存在,个体值不同于组均值。即使在多元回归分析中,也需引入误差项,因为不能把所有影响因素都纳入模型。
式(2-9)和式(2-10)都是参数线性的,因此,它们都是线性回归模型。而进入模型的解释变量不需要是线性的。
八、参数估计:普通最小二乘法 1.普通最小二乘法
虽然有若干不同的方法可获得SRF(即真实PRF的估计量),但在回归分析中,使用最广泛的方法是最小二乘法,一般称为普通最小二乘法。最小二乘原理如下:
对于双变量PRF式(2-2):
Yi?B1?B2Xi?ui
由于不能直接观察PRF,所以用下面的SRF来估计它:
Yi?b1?b2Xi?ei
因而,
ei=实际的Yi-估计的Yi
? ?Yi?Yi?Yi?b1?b2Xi [利用式(2-3)]
上式表明:残差是Y的真实值与估计值之差,而后者可以根据式(2-3)得到。估计PRF最好的方法是,选
b2,择B1、B2的估计量b1、b2,使得残差ei尽可能小。普通最小二乘法就是要选择参数b1、使得残差平方和
最小。
用数学公式表示为:
?eiMin?ei??2?? Yi?Y2?2???Yi?b1?b2Xi? (2-11)
从式(2-11)可以看出,一旦给出Y和X的样本值,RSS就是估计量b1、b2的函数。选择不同的b1、b2,就能够得到不同的残差e,进而得到不同的RSS值。普通最小二乘法选择的是使RSS最小的估计值。
通过求解下面的两个联立方程得到使式(2-11)中RSS最小化的b1、b2值。
?Y?nb?b?Xi12i (2-12)
?YXii?b1?Xi?b2?Xi2 (2-13)
其中,n为样本容量,这些联立方程称为(最小二乘的)正规方程。
在式(2-12)和式(2-13)中,参数b是未知的,变量Y和X的和、平方和、交叉乘积和是已知的。求解联
立方程(运用代数运算),求得b1、b2。
b1?Y?b2X (2-14)
它是总体截距B1的估计量。样本截距就是Y的样本均值减去估计的斜率系数乘以X的样本均值。
b2xy??X?X??Y?Y??XY?nXY? (2-15) ???x??X?nX??X?X?iiiii22i22ii它是总体斜率B2的估计量。注意:
xi?(Xi?X),yi?(Yi?Y)
式(2-14)和式(2-15)给出的估计量称为0LS估计量(OLS estimators),因为它们是通过OLS法得到的。
2.普通最小二乘估计量的一些重要性质
(1)用OLS法得出的样本回归线经过样本均值点,即
Y?b1?b2X (2-16)
(2)残差的均值e??e/n?总为0。可以利用这条性质检验计算是否准确。
i(3)对残差与解释变量的积求和,其值为零;即这两个变量不相关。
?eXii?0 (2-17)
这个性质也可用来检查最小二乘法计算结果。
?(估计的Yi)的积求和,其值为0;即(4)对残差与Yi
?eY?为0。
ii2.2 课后习题详解
一、问 题
1.解释概念
(1)总体回归函数(PRF); (2)样本回归函数(SRF); (3)随机总体回归函数; (4)线性回归模型; (5)随机误差项?ui?; (6)残差项?ei?;
(7)条件期望; (8)非条件期望;
(9)回归系数或回归参数; (10)回归系数的估计量。 答:(1)总体回归函数反映了被解释变量的均值同一个或多个解释变量之间的关系。 (2)样本回归函数是总体回归函数的近似。
(3)从总体上表明了单个Y同解释变量和随机干扰项之间的关系。 (4)回归参数为线性?B?的回归模型。
(5)它代表了与被解释变量Y有关但未被纳入模型变量的影响。每一个随机误差项对于Y的影响都是非常小的,且是随机的。随机误差项的均值为零。
(6)它是随机误差项的近似。
(7)它为在解释变量X给定条件下Y的条件期望,可以通过X给定条件下Y的条件(概率)分布得到。 (8)非条件期望是在不考虑其他随机变量取值情况时,某个随机变量的期望值。它可以通过该随机变量的非条件分布或边缘分布得到。
(9)线性回归模型中的B参数称为回归系数或回归参数。
(10)回归系数估计量(bs)说明了如何通过样本数据来计算回归系数(Bs),计算出的回归系数的值称为样本回归估计值。
2.随机总体回归函数与随机样本回归函数有何区别?
答:随机样本回归函数从所抽取样本的角度说明了被解释变量Yi同解释变量Xi及残差ei之间的关系。而总体回归函数则是从总体的角度说明了被解释变量Yi同解释变量Xi及随机误差项ui之间的关系。
3.讨论:“既然不能观察到总体回归函数,为什么还要研究它呢?”
答:就像经济理论中的完全竞争模型一样,总体回归函数也是一个理论化的、理想化的模型,在现实中很难得到。但是这样一个理想化的模型有助于我们把握所研究问题的本质。
4.判断正误并说明理由。
(1)随机误差项ui与残差项ei是一回事。
(2)总体回归函数给出了与自变量每个取值相对应的应变量的值。 (3)线性回归模型意味着模型变量是线性的。
(4)在线性回归模型中,解释变量是因,应变量是果。 (5)随机变量的条件均值与非条件均值是一回事。
(6)式(2-2)中的回归系数B是随机变量,但式(2-4)中的回归系数b是参数。 (7)式(2-1)中的斜率B2度量了X的单位变动引起的Y的倾斜度。
(8)实践中双变量回归模型没有什么用,因为应变量的变化不可能仅由一个解释变量来解释。 答:(1)错误,残差ei是随机误差项ui的一个近似(估计值)。
(2)错误,总体回归函数给出了在解释变量给定条件下被解释变量的条件均值。
(3)错误,线性回归模型是指所建立的模型中的回归系数为线性,而其中的解释变量不要求一定为线性的。 (4)错误,通常情况下,解释变量与被解释变量之间的因果关系是由经济理论决定的,而不是由回归模型决定的。
(5)错误,只有X和Y独立时,E?Y/X?和E?Y?才相等。
(6)错误,b是随机变量,而B是参数。
(7)错误,它度量了X每变动一单位Y的均值的变化量。
(8)不一定,实际上,有很多经济现象可以通过两变量模型来解释,例如在资产组合理论中通常会以某一证券的回报率为被解释变量,以股票市场指数(如S&P500指数)为解释变量进行回归。回归结果中斜率的估计值就是在资产组合理论中得到广泛运用的?系数。
(9)正确。
5.下面两者之间有什么关系?
(1)B1和b1 (2)B2和b2 (3)ui和ei 上述哪些量可以观察得到?如何观察得到? 答:(1)b1是B1的回归估计量。 (2)b2是B2的回归估计量。 (3)ei是ui的估计量。
在现实中,我们无法观测到B1、B2和ui,但是只要得到一组观测数据,就可以通过b1、b2和ei得到它们的估计值。
6.能否把教材式(2-22)改写成X对Y的函数?如何解释变换后的方程? 答:通过简单的代数变换,可得
Xt?2.5?2.5Yt
以实际产出为应变量,失业率为自变量进行回归便可以得到奥肯定律回归系数的估计值。
7.下表列出了若干对自变量与应变量。对每一对变量,它们之间的关系如何?是正的?负的?还是无法确定?也就是说,其斜率是正还是负,或都不是?说明理由。
应变量 (a)GDP (b)个人储蓄 (c)小麦产出 (d)美国国防开支 (e)棒球明星本垒打的次数 自变量 利率 利率 降雨量 苏联国防开支 年薪 应变量 (f)总统声誉 (g)学生第一年GPA分数 (h)学生经济计量学成绩 (i)日本汽车的进口量 自变量 任职时间 S.A.T分数 统计学成绩 美国人均国民收入 答:(a)这取决于高利率水平对构成GDP的各部分(居民消费、投资、政府消费和进出口)的影响。例如,在其他条件不变的前提下,投资同利率之间应是负相关的。
(b)斜率为正,在其他条件不变的情况下,利率水平越高,人们储蓄的欲望越大。 (c)一般情况下,斜率为正。
(d)国际形势不发生重大改变的情况下,斜率为正。 (e)斜率可能为正。
(f)斜率可能为负,民众对总统越熟悉,对总统产生厌恶的可能性越大。 (g)斜率可能为正。
(h)斜率为正,统计学是计量经济学的基础。
(i)斜率为正,当收人增加时,可自由支配的收入也增加,从而导致对较为昂贵汽车的需求上升,而大部分日本汽车都较为昂贵,因此人们对日本汽车的需求会上升。通常情况下,这一类商品的收入弹性为正,且大于1。
二、习 题
8.判别下列模型是否为线性回归模型。
(1)Yi?B1?B2?1/Xi?。 (2)Yi?B1?B2lnXi??i。 (3)lnYi?B1?B2Xi??i。
(4)lnYi?B1?B2lnXi??i。 (5)Yi?B1?B2B3Xi??i。
3(6)Yi?B1?B2Xi??i。
注:自然对数表示以e为底的常用对数。 答:(1)是;(2)是;(3)是;(4)是;(5)不是;(6)不是。
9.表2-1给出了每周家庭的消费支出Y(美元)与每周家庭收入X(美元)的数据。
表2-1 每周消费支出与每周收入的假想数据 每周收入(美元)(X) 80 100 120 140 160 每周消费支出(美元)(Y) 每周收入 (美元)(X) 180 200 220 240 260 每周消费支出(美元)(X) 110,115,120,130,135,140 120,136,140,144,145 135,137,140,152,157,160,162 137,145,155,165,175,189 150,152,175,178,180,185,191 55,60,65,70,75 65,70,74,80,85,88 79,84,90,94,98 80,93,95,103,108,113,115 102,107,110,116,118,125 (1)对每一收入水平,计算平均的消费支出E(Y|Xi),即条件期望值。 (2)以收入为横轴,消费支出为纵轴作散点图。 (3)在该散点图上,做出(1)中的条件均值点。
(4)你认为X与Y之间,X与Y的均值之间的关系如何? (5)写出总体回归函数及样本回归函数。 (6)总体回归函数是线性的还是非线性的? 答:(1)条件期望如下表:
(2)、(3)略。
(4)Y的均值随X的增加而增加,但Y的个别观测值不一定随X的增加而增加。 (5)PRF:Yi?B1?B2Xi?ui,SRF:Yi?b1?b2Xi?ei。 (6)从散点图可知总体回归函数是线性的。
10.根据上题中给出的数据,对每个X,随机抽取一个Y,结果如下: 70 65 90 95 Y 100 120 140 X 80 (1)以Y为纵轴,X为横轴作图。 (2)Y与X之间是怎样的关系? (3)求样本回归函数?写出计算步骤。 (4)在同一个图中,做出SRF和PRF。 (5)SRF与PRF相同吗?为什么?
110 160 115 180 120 200 140 220 155 240 150 260