多分类Logit分析
Contents
1 背景....................................................................................................................................... 4 2 理论....................................................................................................................................... 4 3 操作....................................................................................................................................... 5 4 SPSSAU输出结果 ................................................................................................................ 5 5文字分析 ................................................................................................................................ 6 6 剖析....................................................................................................................................... 8
在研究X对于Y的影响关系时,如果Y为定类数据,比如是否愿意购买,是否愿意推荐,出行方式偏好,总统候选人选择偏好等。当Y为定类数据时,则应该使用Logistic回归分析,而具体来看,logistic回归可以划分为二元logistic回归分析,或者多分类logistic回归分析。二者即有相同之处,也有不同的地方。主要区别在于Y的选项个数。
项 二元Logistic回归 特征 举例 其它 Y为定类且选项仅是否愿意购买(愿Y的数字个数仅22个 意用1表示,不愿个,且数字只能为0意用0表示) 和1 多分类Logistic回Y为定类且选项大总统候选人偏好 归 于2个 (特朗普、希拉里、卢比奥)
需要特别注意的地方在于:
Logistic回归时,因变量Y值为定类数据,因而需要有对照参考项。如果是二元Logistic回归,默认以数字0作为参考项【通常数字0表示不愿意,不喜欢,不会等】;如果是多分类logistic回归,则SPSSAU默认以第一项【即数字最小的那项】作为参考项。
如果希望改变对照项,可使用数据编码功能先编码后再分析。同时针对定类数据,
SPSSAU建议先进行数据标签设置,便于系统输出带“标签”的智能文字分析。
多分类logistic回归(也称作多元logistic回归,多项Logit等),对于多分类logistic回归建模,通常需要分析信息包括:基本信息描述,模型检验判断或者对比,模型结果汇总。SPSSAU分别输出三个表格。
SPSSAU分析结果表格示例如下:
多分类Logistic回归分析基本汇总 名称 选项 特朗普 希拉里 总统候选人选择 卢比奥 总计 上表格对于模型的因变量进行基本统计。
多分类Logistic回归模型检验 卡方值 91.573 df 6 p 0.000 AIC值 3625.256 BIC值 3669.427 -2LLNULL值 3700.829 -2LLF值 3609.256 908 1847 49.16% 100.0 频数 661 278 百分比 35.79% 15.05% 上表格是模型检验判断或者相关模型对比指标等,其中P值用于验证模型是否有意义;AIC或BIC值用于对比不同模型的优劣。
多分类Logistic回归分析结果汇总 希拉里 回归系数 标准误 Z值 性别(男) 年龄 学历 截距 0.309 -0.437 -0.065 0.081 0.145 P值 OR值 OR值95%CI(L) OR值95%CI(U) 1.025 0.561 0.829 0.700 1.810 0.744 1.058 1.682 2.127 0.033 1.362 0.072 -6.076 0.000 0.646 0.062 -1.053 0.292 0.937 0.224 0.364 0.716 1.085 卢比奥 回归系数 标准误 Z值 性别(男) -0.436 P值 OR值 OR值95%CI(L) OR值95%CI(U) 0.527 0.793 0.104 -4.192 0.000 0.647
多分类Logistic回归分析结果汇总 年龄 学历 截距 0.076 -0.002 0.312 0.050 1.516 0.130 1.079 0.978 0.917 0.977 1.191 1.085 1.910 0.043 -0.054 0.957 0.998 0.171 1.826 0.068 1.366 McFadden R方:0.025 上表格是模型结果汇总表格,也是最核心的表格。具体关于多分类Logistic回归的剖析,请参考下面的案例解析。