第十章 logitic回归
本章导读:
    Logitic回归模型是离散选择模型之一,属于多重变数分析范畴,是社会学、生物统计学、临床、数量心理学、市场营销、会计与财务等实证分析的常用方法。
   
10.1 logit模型和原理
Logistic回归分析是对因变量为定性变量的回归分析。它是一种非线性模型。其基本特点是:因变量必须是二分类变量,若令因变量为y,则常用y=1表示“yes”,y=0表示“no”。[在发放股利与不发放股利的研究中,分别表示发放和不发放股利的公司]。自变量可以为虚拟变量也可以为连续变量。从模型的角度出发,不妨把事件发生的情况定义为y=1,事件未发生的情况定义为0,这样取值为0、1的因变量可以写作:
我们可以采用多种方法对取值为0、1的因变量进行分析。通常以P表示事件发生的概率(事件未发生的概率为1-P),并把P看作自变量x的线性函数。由于y是0-1型Bernoulli分布,因此有如下分布:
P=P(y=1|x):自变量为x时y=1的概率,即发放现金股利公司的概率
1-P=P(y=0|x):自变量为x时y=0的概率,即不发放现金股利公司的概率
事件发生和不发生的概率比成为发生比,即相对风险,表现为.因为是以
对数形式出现的,故该发生比为对数发生比(log odds),表现为。对数发生比也是事件发生概率P的一个特定函数,通过logistic转换,该函数可以写成logistic回归的logit模型:
  Logit 一方面表达出它是事件发生概率P的转换单位;另一方面,它作为回归的因变量就可以自己与自变量之间的依存关系保持传统回归模式。
根据离散型随即变量期望值的定义,可得:
E(y)=1(P)+0(1-P)=P
进而得到
因此,从以上分析可以看出,当因变量的取值为0、1时,均值总是代表给定自变量时y=1的概率。虽然这是从简单线性回归分析而得,但也适合复杂的多元回归函数情况。
β0为常数项,β1β2,…,βk分别为k个自变量的回归系数。
因此,logistic模型为:
10.2 模型的stata程序
    Stata有两个命令可进行二元logistic回归分析:logit和logistic。其分析的结果的实质是一样的。但输出的结果的表现形式有所不同。前者提供参数估计,后者提供发生比。
Logit命令:
Logit 因变量 变量1 变量2… 变量m
/*二元非线性回归的基本命令,输出回归系数*/
Logistic命令:
logistic  因变量  变量1  变量2… 变量m
/*二元非线性回归的基本命令,输出发生比*/
lfit
/* lfit 是模型适定性诊断命令*/
clogit  因变量  变量1  变量2… 变量m,strata(配对编号变量)  [or]
/* clogit是条件logistic回归命令*/
10.3关于股利政策的logit模型及解释
use E:\stata\logit.dta
/*打开stata数据集*/
(1)logit命令
. logit cashdum  roa td size lagcashdum growth cg12 first
Iteration 0:  log likelihood =  -753.6759
oddsIteration 1:  log likelihood = -464.64549
Iteration 2:  log likelihood = -413.47149
Iteration 3:  log likelihood = -384.32824
Iteration 4:  log likelihood = -376.73079
Iteration 5:  log likelihood = -376.20593
Iteration 6:  log likelihood = -376.20303
Logistic regression                              Number of obs  =      1116
                                                  LR chi2(7)      =    754.95
                                                  Prob > chi2    =    0.0000
Log likelihood = -376.20303                      Pseudo R2      =    0.5008
------------------------------------------------------------------------------
    cashdum |      Coef.  Std. Err.      z    P>|z|    [95% Conf. Interval]
-------------+----------------------------------------------------------------
        roa |  36.27163  3.999394    9.07  0.000    28.43296    44.11029
          td |  -.3322466  .4976051    -0.67  0.504    -1.307535    .6430414
      size |  .1079257  .0839493    1.29  0.199    -.0566119    .2724633
  lagcashdum |  2.815261  .2006755    14.03  0.000    2.421944    3.208578
      growth |  .4252429  .2686294    1.58  0.113    -.1012611    .9517469
        cg12 |  .1585007  .0477705    3.32  0.001    .0648722    .2521292
      first |  1.665727  .5831852    2.86  0.004    .5227054    2.80875
      _cons |  -6.445765  1.332788    -4.84  0.000    -9.057982  -3.833548
这里,log likelihood即对数似然值,乘以2即为-2LL,是模型的估计方法。在进行逐步回归时,通过比较不同模型的-2LL,判断模型的拟合程度。取值越小,模型的适应性越好;取值越大,模型的效果越差。
Number of obs 是我们所使用的样本量。
LR chi2(7)即为卡方检验统计量,也就是回归模型无效假设(即所有协变量的发生比均为1)
所对应的似然比检验量,其中的(7)为自由度,Prob > chi2是模型无效假设检验对应的P值。这两个指标与线性回归的F统计量和其P值的功能大体一致。0.0000数值表明,该模型是显著的。
另一个统计量Pseudo R2是伪决定系数R2。虽不完全等于R2,但大致提供模型中自变量对因变量变异的解释能力。
Coef.是每个自变量对应的系数估计。在logistic回归分析中,该系数为对数;Std.Err即系数对应的标准误;OLS通过t检验来判断自变量对因变量的影响是否显著,logistic模型使用z检验来达到该目的。因此,z是单个系数检验的统计量;P>|z|是系数检验的P值;最后两列为系数95%的置信区间。
二元logit回归分析中系数的解释与多元线性回归分析中回归系数的解释并无不同,βi表示,xi改变一个单位时,logitP的平均变化量。
Logit 回归中的常数项(β0)表示,在不接触任何潜在危险(或保护因素)条件下,因变量发生与不发生的概率之比的对数值。Logit回归中的回归系数(βi)表示,某一自变量改变一单位
时,因变量发生与不发生时间的概率之比的对数变化值,即发生比(Odds Ratio)的对数值。
由于系数为对数,故不能像线性回归那样将其直接解释为自变量对因变量的影响程度。只有将其转换为风险比后,系数才更有明确的意义。比如,分析结果显示,size(单位为千元)的回归系数为0.11。但我们不能将系数解释为size每增加一单位,发放股利的概率增加11%。事实上,我们并不知道规模对股利发放概率的影响程度,虽然我们知道其影响性质和显著水平。就变量lagcashdum来说,上期发放股利的公司的概率高于上期不发放股利的公司,但我们并不知道二者之间的差别有多大。
当自变量为连续性变量时(如size),e(βi)表示xi增加一个计量单位的对数比;当自变量为二分类变量时(如:lagcashdum),发生/是=1,不发生/否=0,则logistic回归中的系数即为是/否的对数值。若上面的系数转化为风险比(Odds Ratio),则可直接比较组间差异以及自变量对因变量的影响程度。转化公式为:
(2)logistic命令
Stata另外一个命令可以直接输出风险比:
. logistic cashdum  roa td size2 lagcashdum growth  cg12 first
Logistic regression                              Number of obs  =      1116
                                                  LR chi2(7)      =    754.95
                                                  Prob > chi2    =    0.0000
Log likelihood = -376.20303                      Pseudo R2      =    0.5008

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。