第9讲离散选择模型之二元结果模型
参考书目:
1.Long, J. S., and J. Freese. 2006. Regression Models for Categorical Dependent Variables Using Stata. 2nd ed. CollegeStation, TX: Stata Press
教学视频:
Logistic regression, part 1: Binary predictors Logistic regression, part 2: Continuous predictors Logistic regression, part 3: Factor variables
一、离散被解释变量的例子
二元结果模型:考研或不考研;就业或待业;买房或不买房;买保险或不买保险;贷款申请被批准或拒绝;出国或不出国;回国或不回国;战争或和平;医药实验中的生或死。
多元结果模型:对不同交通方式的选择(走路、骑车、坐车上班);对不同职业的选择。
这类模型被称为“离散选择模型”(discrete choice model)。考虑到离散被解释变量的特点,通常不宜用OLS进行回归。假设个体只有两种选择,比如 y=1 (考研)或 y=0 (不考研)。是否考研,取决于研究生毕业后的预期收入、个人兴趣、本科毕业后直接就业的收入前景等。所有解释变量都包括在向量x中。
1
二、二元结果模型的微观基础
对于二元选择行为,可通过“潜变量”(latent variable)概括该行为的净收益(收益减去成本)。
如果净收益大于0,则选择做;否则,选择不做。
y*=x′β + ε
其中,净收益y*为潜变量,不可观测。选择规则为 y=1,若y*>0 y=0,若y*≤0
如果ε为正态分布,则为Probit;如果ε为逻辑分布,则为Logit。
logistic — Logistic regression, reporting odds ratios (Logistic回归,报告优势比/比值比)
对于Logit模型,记p= P(y =1|x ) ,则1-P= P(y =0|x )。
p /(1-p) 称为“几率比/优势比/比值比”(odds ratio)。那么什么是几率比?
2
举例说明,假设在检验药物疗效的随机实验中,“y =1 ”表示“生”,“y =0 ”表示“死”;则几率比为2意味着存活的概率是死亡概率的两倍。
命令语法:
logisticdepvarindepvars [if] [in] [weight] [,options]
命令logistic拟合logistic回归模型,其中depvar是一个0/1变量(更准确地说,是一个0/非0变量)。logistic显示的估计结果是优势比;要想查看系数,运行logistic后,输入logit。 一、概述
logistic替代logit命令,通常是拟合最大似然logit模型的首选方法。Stata使用logit和logistic意味着同样的事情:最大似然估计。并且两种命令会得到相同的结果。logistic命令通常优于logit命令,原因是logistic提供优势比而不是系数的估计结果。
对于logistic回归的介绍,请参阅Lemeshow&Hosmer(2005),Pagano&Gauvreau (2000,470–487),或Pampel (2000);一个完整的,非数学的讨论,请参阅Kleinbaum& Klein (2010);一个更深入的讨论,请参阅Hosmer, Lemeshow, & Sturdivant (2013)。Gould (2000)讨论了关于logistic回归的解释。Dupont (2009)和Hilbe (2009)用Stata实例讨论了logistic回归。Vittinghoff et al. (2012)重点讨论了模型设定问题。
Stata有一系列命令用来估计二分类或多分类因变量模型。Long和Freese (2014)专门论述了如何使用Stata拟合此类模型。下面是一些常用估计命令的列表。help estimation commands提供了Stata全部估计命令的完整列表。
asclogit asmprobit asroprobit binreg
[R] [R] [R] [R] 麦克法登离散选择模型(McFadden’s choice) 多项式probit模型 排序probit模型 二项式的广义线性模型 3
biprobit blogit bprobit clogit cloglog exlogistic glm glogit gprobit heckoprobit heckprobit hetprobit ivprobit logit mecloglog meglm melogit meprobit mlogit mprobit nlogit ologit oprobit probit rologit scobit slogit svy: cmd xtcloglog xtgee xtlogit xtologit xtoprobit xtprobit
[R] [R] [R] [R] [R] [R] [R] [R] [R] [R] [R] [R] [R] [R] [ME] [ME] [ME] [ME] [R] [R] [R] [R] [R] [R] [R] [R] [R] [SVY] svy estimation [XT] [XT] [XT] [XT] [XT] [XT] 二元probit模型 分组数据的logit模型 分组数据的probit模型 条件(固定效应)logistic回归 互补重对数模型 精确logistic回归 广义线性模型 分组数据的加权最小二乘logistic回归 分组数据的加权最小二乘probit回归 有序probit的样本选择模型 probit的样本选择模型 异方差probit模型 具有连续内生变量的probit模型 Logistic回归分析,报告系数 多层次混合效应互补双对数回归 多层次混合效应广义线性模型 多层次混合效应logistic回归 多层次混合效应probit回归 多分类因变量logistic回归 多分类因变量probit回归 嵌套logit回归 有序logistic回归 有序probit回归 Probit回归 有序秩logistic回归 Skewed logistic regression Stereotype logistic regression 命令的svy版 随机效应和总体平均cloglog模型 GEE 总体平均广义线性模型 固定效应、随机效应和总体平均logit模型 随机效应有序logistic模型 随机效应有序probit模型 随机效应和总体平均probit模型 例:估计决定美国妇女就业与否的二元结果模型。数据集包括以下变量:虚拟变量work(1=就业),age(年龄),虚拟变量married(1=已婚),children(子女数),
4