14.表4-7(参见网上教材)给出了64个国家婴儿死亡率(CM)、女性文盲率(FLR)、人均GNP(PGNP)和总生育率(TFR)的数据。
(1)先验地预期CM和各个变量之间的关系。 (2)做CM对FLR的回归。
(3)做CM对FLR和PGNP的回归。
(4)做CM对FLR,PGNP和TFR的回归,并给出ANOVA表。 (5)根据各种回归结果,选择哪个模型?为什么?
(6)如果回归模型(4)是正确的模型,但却估计了(1)或(2)或(3),会有什么后果? (7)假定做回归(2),如何决定增加变量PGNP和TFR?使用了哪种检验?给出必要的计算结果。 答:(1)CM应与FLR和PGNP负相关,但同TFR正相关。 (2)EViews的回归结果如下:
(3)回归结果如下:
(4)将TFR加入到模型中有:
可以通过R来计算方差分析表中所需变量的值,并在此基础上建立方差分析表。 (5)问题(4)中的模型要更好,因为该模型中所有变量系数的符号都符合预期, 每一个变量的回归系数都是显著的(其相应的p值很小),且对于截面数据来讲。该模型的R2也算是相当高
2了。
(6)这会使(1)(2)(3)中的模型均犯有设定偏误的错误,即模型中遗漏了某个相关解释变量,这样会造成模型的估计量不一致。关于这方面的具体知识我们将在第7章中讨论。
2(7)在当前的例子中,无约束条件下回归的可决系数Rur为0.7474。有约束条件下回归的可决系数R2为0.6696,约束条件的个数为2((2)中的模型排除了两个变量(PGNP和TFP)),通过
F??1?R?/?n?k?2ur?R2ur?Rr2?/m~Fm,n?k,有
F??0.7474?0.6696?/2?0.03890?9.2399
?1?0.7474?/?64?6?0.00421自由度为(2,60),F统计量在统计上是显著的(相应自由度下显著性水平为1%的临界值为4.98),这意味着,PGDP和TFP都应保留在模型中。
15.利用教材式(4-23)回答如下问题: R2 n k R2
0.83 0.55 0.33 0.12 50 18 16 1200 6 9 12 32 - - - R2和R之间的关系如何?
答:下表中的最后一列数字为调整后的R:
22
可见。R既取决于样本数量,也取决于模型中解释变量个数。如果样本容量较小,而解释变量的个数相对较大,则R会比(未修正的)R小很多,正如第二个例子所显示的那样。另外,如第三个例子所示,R甚至有可能为负值。
16.计算教材例4-3中的F值。如果F值是显著的,则意味着什么?
答:通过式F?2222?1?R?/?n?k?2R2/?k?1?可知
F?0.689/4?8.3079
?1?0.689?/15自由度为(4,15)。该统计量在显著性水平为1%时是显著的,所以可以拒绝R2?0的零假设。
17.建立教材例4-2中的ANOVA表,并检验R2?0(??1%)。
答:通过例题中计算的R的值来计算ANOVA表中各变量的值然后列出方差分析表。
18.根据表2-12(参考网上教材)给出的数据,回答以下问题:
(1)建立一个多元回归模型,解释MBA毕业生的平均初职工资,并写出回归结果。
(2)如果模型中包括了GPA和GMAT这两个解释变量,先验地,可能会遇到什么问题?为什么?
(3)如果学费变量的系数为正,并且是统计显著的,是否意味着进入最昂贵的商业学校学习是值得的。学费这个变量代替了什么?
(4)假定做GMAT分数对GPA的回归分析,并且发现两变量之间显著正相关,那么你对多重共线性有何看法?
(5)对(1)建立ANOVA表,并检验假设,所有偏回归系数均为零。
(6)用R值对(5)建立ANOVA表。
答:(1)首先考虑以下回归模型,其中平均起薪(ASP)为被解释变量,回归结果如下
22
可见,GPA、学费和入学等级的回归系数在0.1%的显著性水平下都是显著的,且其均对平均起薪有正向影响。毕业生的受雇用率也对起薪有正向影响,即对某学校毕业生的需求量越大,该学校毕业生的平均起薪越高。模型的R也是相当高的。
(2)因为GPA和GMAT可能存在共线性问题,如果像(1)中那样将两个变量都包含在模型中,二者的回归系数有可能都是不显著的。上述的回归结果也的确如此。
(3)如果学费为教学质量的替代变量的话,那么在其他条件不变的前提下,学费越高,ASP也应越高。(1)中的回归结果也支持了上述结论。
(4)将GMAT作为被解释变量,GPA作为解释变量进行回归,结果如下:
2
从回归结果中可知,GMAT和GPA之间的确存在共线性问题。
(5)运用Excel软件进行方差分析,结果如下(Excel软件并不自动报告ANOVA过程的结果):
Source of variation SS Regression Residual Total df MSS 2075281617 39748297.13 F ρ-value 10376408086 5 1709176777 43 12085584863 48 52.21057924 3.576E-17 可见,p值几乎为零,因此可以认为尽管某些解释变量之间存在共线性,这些系数在总体上是不为零的。 (6)依照表4-2的格式,我们有:
Source of variation Regression SS 0.8586 df 5 Mss 0.8586??yi2?5F ρ-value 52.21 0.0000 Residual Total 2(1-0.8586) 43 48 ?1?0.8586???y2i2? 43?yi 2 其中
?yi?550977068808.00。此结论与之前所得结论相同。
19.图4-1给出了教材例4-4的正态概率图。
图4-1 例4-4的正态概率图 AD=安德森-达林统计量
(1)根据图4-1,能否判定教材式(4-62)中的误差项服从正态分布?为什么?
(2)观察到的安德森-达林(Anderson-Darling)A2值0.468是统计显著的吗?如果是,有什么意义?如果不是,能够得出什么结论?
(3)根据给出的数据,能否确定误差项的均值与方差。 答:(1)其近似地服从正态分布,图中的残差大致勾勒出一条直线,其可能与正态分布有所偏差,但不会对回归结果产生太大的影响。
(2)不显著,Anderson-DarlingA2值大于或等于0.468的p值约为0.23。这也支持了(1)中的结论,误差项是服从正态分布的。更多关于正态概率图的讨论见第3章。
(3)均值为0,方差为0.2575(该数值等于残差平方和除以n?3?25,回归过程中共运用了表1-1中的28个样本值)。由于误差留存的问题,输出结果可能与书中所呈现的结果存在些许差异。
20.受限最小二乘(RLS)。如果受限和非受限回归中的应变量不相同,可以根据如下变形的F检验
RSSr?RSSur?/m?F?~Fm,n?k
RSSur/?n?k?m——限制个数;其中,RSSr——受限回归的残差平方和;RSSur——非受限回归的残差平方和;
?n?k?——非受限回归的自由度。
答:下表呈现了用于计算的所有原始数据:
上述表中模型的总离差平方和为4803756.7。
注:上述表格中的RSS可以很容易地从EViews报表中得到。
比较没有解释变量的第一个模型RSSr?4803756.7和包含所有解释变量的模型RSSur?525462.2的输出结果,可计算F统计量的值:
F?
?4803756.7?525462.2?/2?2139147.25?118.058
18119.38?525462.2?/?32?3?
21.参考习题5。
(1)利用受限最小二乘法判断模型是否应该引入人口这个变量。
(2)把Educ和GDP同除以Pop得到人均Educ和人均GDP。做人均Educ对人均GDP的回归,并与教材例4-5的结果进行比较。从中得到什么结论?
答:(1)比较没有包含population的模型RSSr?74658917.2和包含了population的 模型RSSur?43364.140的输出结果,可计算F统计量为
74658917.2?43364140?/131294777.2?F???25.2586
43364140/38?31238975.43????该F值较大,且其p值接近于0,因此我们可以认为两个模型之间存在显著差异,人口的确对模型有显著影响。
(2)新的回归结果如下
percapEduci??67.166?0.0584percapGDPse??46.257?t???1.452?p??0.155?2?0.004??16.019??0.000?
R2?0.8770R?0.8736F?256.611F为F统计量。
该模型对人均教育变化程度的解释力有所降低,但是总的来讲,该模型同例4.5中的回归模型相似。而且在两个模型中,截距项的回归系数不显著。
22.表4-8(参见网上教材)中的变量摘自《洛杉矾2008年的查格美食指南》,涉及被调查餐厅的四类数据:食物、风格、服务和单餐平均价格。
(1)建立一个多元回归模型,用食物、风格和服务三个变量预测价格。所有的解释变量各自都是统计显著的吗?
(2)正态分布图说明了什么问题?
(3)根据回归模型的残差以及价格的拟合值做散点图,残差图呈现出常方差吗? 答:(1)回归结果如下:
Pricei??40.3952?1.1928Food?1.753Decor?1.1135Service?0.1594?t???15.2672??7.4838?p?value??0.000??0.000?2se??2.6458??0.1004??17.4722??0.000??0.1929??5.7716??0.000?
R2?0.4929;R?0.4916,F?401.0392,p?value?F??0.000因为所有的p值都为0.000,因此3个解释变量的回归系数在统计上都是显著的。 (2)正态分布图显示其基本符合正态分布残差的散点图如下: