有变量,如het(age married children)),LR检验原假设为同方差。
多值选择模型
个体面临的选择有时是多值的,因此可能需要使用到多项probit或多项logit,或者在有某项条件时需要用到条件logit,还有在不随方案而变的多项logit模型和解释变量随方案而变的条件logit模型混合的logit模型。
举例来说,问卷调查将受访者职业分为五类(OCC),解释变量为是否白人、受教育年限、工龄,解释变量都依赖于个体而不依赖于方案,因此使用多项logit或多项probit回归:
进行多项logit回归:
上述结果说明白人更不可能选择服务业或工匠;是否白人对选择蓝领或白领没显著影响。。。
排序与计数模型
1、 泊松回归:被解释变量只能取非负整数,即0,1,2….,这时常用泊松回归。
Poisson y x1 x2 x3,r irr
Poisson y x1 x2 x3,r exposure(x1) Poisson y x1 x2 x3,r offset(x1)
其中,r为稳健标准误,irr为显示发生率比,exposure表示把inx1作为解释变量并使其系数为1,offset表示将x1作为解释变量并使其系数为1.
2、 负二项回归:泊松回归的局限是泊松分布的期望与方差一定相等,但如果被解释变量的
方差明显大于期望,即存在过度分散,这时候可以使用负二项回归。 Nbreg y x1 x2 x3,r exposure(x1)
Nbreg y x1 x2 x3,r dispersion(constant) offset(x1) 其中dispersion(constant)表示使用NB1模型。
3、 零膨胀泊松回归与负二项回归:如计数数据中包含大量0值,则可以使用零膨胀泊松回
归或零膨胀负二项回归。如果vuong统计量很大为正数,则应该使用零膨胀泊松回归,如果统计量很小为负数,则使用零膨胀负二项回归。 Zip y x1 x2 x3,inflate(varlist) vuong(零膨胀泊松回归)
Zinb y x1 x2 x3,inflate(varlist) vuong(零膨胀负二项回归),其中inflate(varlist)不可缺少列出所有变量。
如果研究者只关注参数的估计值,则泊松回归。 Stata举例:
被解释变量narr86(1986年被逮捕的次数),被解释变量为计数数据,尽管如此,还是使用OLS回归进行观察:
R的平方为0.07,但大多数解释变量都显著,下面进行泊松回归,并使用稳健标准误:
(nolog)表示不显示迭代记录。上俩图可以看出虽然OLS和泊松的系数相差很大,但两者并不具有可比性,为方便比较,计算泊松回归的平均边际效应:
可以看出,泊松模型的平均边际效应与OLS的回归系数很接近,为便于解释系数,下面计算发生率比:
可以看出黑人被逮捕次数比白人多93.6%。此外使用泊松回归的前提之一是被解释变量的期望与方差相等,因此考察被解释变量的统计特征:
结果显示样本方差几乎是样本均值的两倍,为放松此假定进行负二项回归(NB2):
上图中alpha的置信区间为0.7-1.24,因此可在5%的显著性水平下拒绝过度分散参数