第十章_logit回归--688IT编程网

第十章 logitic回归

本章导读：

Logitic回归模型是离散选择模型之一，属于多重变数分析范畴，是社会学、生物统计学、临床、数量心理学、市场营销、会计与财务等实证分析的常用方法。

10.1 logit模型和原理

Logistic回归分析是对因变量为定性变量的回归分析。它是一种非线性模型。其基本特点是：因变量必须是二分类变量，若令因变量为y，则常用y=1表示“yes”，y=0表示“no”。[在发放股利与不发放股利的研究中，分别表示发放和不发放股利的公司]。自变量可以为虚拟变量也可以为连续变量。从模型的角度出发，不妨把事件发生的情况定义为y=1，事件未发生的情况定义为0，这样取值为0、1的因变量可以写作：

我们可以采用多种方法对取值为0、1的因变量进行分析。通常以P表示事件发生的概率（事件未发生的概率为1-P），并把P看作自变量x的线性函数。由于y是0-1型Bernoulli分布，因此有如下分布：

P=P（y=1|x）：自变量为x时y=1的概率，即发放现金股利公司的概率

1-P=P（y=0|x）：自变量为x时y=0的概率，即不发放现金股利公司的概率

事件发生和不发生的概率比成为发生比，即相对风险，表现为.因为是以

对数形式出现的，故该发生比为对数发生比（log odds），表现为。对数发生比也是事件发生概率P的一个特定函数，通过logistic转换，该函数可以写成logistic回归的logit模型：

Logit 一方面表达出它是事件发生概率P的转换单位；另一方面，它作为回归的因变量就可以自己与自变量之间的依存关系保持传统回归模式。

根据离散型随即变量期望值的定义，可得：

E(y)=1(P)+0(1-P)=P

进而得到

因此，从以上分析可以看出，当因变量的取值为0、1时，均值总是代表给定自变量时y=1的概率。虽然这是从简单线性回归分析而得，但也适合复杂的多元回归函数情况。

β0为常数项，β1，β2，…，βk分别为k个自变量的回归系数。

因此，logistic模型为：

10.2 模型的stata程序

Stata有两个命令可进行二元logistic回归分析：logit和logistic。其分析的结果的实质是一样的。但输出的结果的表现形式有所不同。前者提供参数估计，后者提供发生比。

Logit命令：

Logit 因变量变量1 变量2… 变量m

/*二元非线性回归的基本命令，输出回归系数*/

Logistic命令：

logistic 因变量变量1 变量2… 变量m

/*二元非线性回归的基本命令，输出发生比*/

lfit

/* lfit 是模型适定性诊断命令*/

clogit 因变量变量1 变量2… 变量m，strata(配对编号变量) [or]

/* clogit是条件logistic回归命令*/

10.3关于股利政策的logit模型及解释

use E:\stata\logit.dta

/*打开stata数据集*/

（1）logit命令

. logit cashdum roa td size lagcashdum growth cg12 first

Iteration 0: log likelihood = -753.6759

oddsIteration 1: log likelihood = -464.64549

Iteration 2: log likelihood = -413.47149

Iteration 3: log likelihood = -384.32824

Iteration 4: log likelihood = -376.73079

Iteration 5: log likelihood = -376.20593

Iteration 6: log likelihood = -376.20303

Logistic regression Number of obs = 1116

LR chi2(7) = 754.95

Prob > chi2 = 0.0000

Log likelihood = -376.20303 Pseudo R2 = 0.5008

------------------------------------------------------------------------------

cashdum | Coef. Std. Err. z P>|z| [95% Conf. Interval]

-------------+----------------------------------------------------------------

roa | 36.27163 3.999394 9.07 0.000 28.43296 44.11029

td | -.3322466 .4976051 -0.67 0.504 -1.307535 .6430414

size | .1079257 .0839493 1.29 0.199 -.0566119 .2724633

lagcashdum | 2.815261 .2006755 14.03 0.000 2.421944 3.208578

growth | .4252429 .2686294 1.58 0.113 -.1012611 .9517469

cg12 | .1585007 .0477705 3.32 0.001 .0648722 .2521292

first | 1.665727 .5831852 2.86 0.004 .5227054 2.80875

_cons | -6.445765 1.332788 -4.84 0.000 -9.057982 -3.833548

这里，log likelihood即对数似然值，乘以2即为-2LL，是模型的估计方法。在进行逐步回归时，通过比较不同模型的-2LL，判断模型的拟合程度。取值越小，模型的适应性越好；取值越大，模型的效果越差。

Number of obs 是我们所使用的样本量。

LR chi2(7)即为卡方检验统计量，也就是回归模型无效假设（即所有协变量的发生比均为1）

所对应的似然比检验量，其中的(7)为自由度，Prob > chi2是模型无效假设检验对应的P值。这两个指标与线性回归的F统计量和其P值的功能大体一致。0.0000数值表明，该模型是显著的。

另一个统计量Pseudo R2是伪决定系数R2。虽不完全等于R2,但大致提供模型中自变量对因变量变异的解释能力。

Coef.是每个自变量对应的系数估计。在logistic回归分析中，该系数为对数；Std.Err即系数对应的标准误；OLS通过t检验来判断自变量对因变量的影响是否显著，logistic模型使用z检验来达到该目的。因此，z是单个系数检验的统计量；P>|z|是系数检验的P值；最后两列为系数95%的置信区间。

二元logit回归分析中系数的解释与多元线性回归分析中回归系数的解释并无不同，βi表示，xi改变一个单位时，logitP的平均变化量。

Logit 回归中的常数项(β0)表示，在不接触任何潜在危险（或保护因素）条件下，因变量发生与不发生的概率之比的对数值。Logit回归中的回归系数（βi）表示，某一自变量改变一单位

时，因变量发生与不发生时间的概率之比的对数变化值，即发生比（Odds Ratio）的对数值。

由于系数为对数，故不能像线性回归那样将其直接解释为自变量对因变量的影响程度。只有将其转换为风险比后，系数才更有明确的意义。比如，分析结果显示，size（单位为千元）的回归系数为0.11。但我们不能将系数解释为size每增加一单位，发放股利的概率增加11%。事实上，我们并不知道规模对股利发放概率的影响程度，虽然我们知道其影响性质和显著水平。就变量lagcashdum来说，上期发放股利的公司的概率高于上期不发放股利的公司，但我们并不知道二者之间的差别有多大。

当自变量为连续性变量时（如size），e（βi）表示xi增加一个计量单位的对数比；当自变量为二分类变量时（如：lagcashdum），发生/是=1，不发生/否=0，则logistic回归中的系数即为是/否的对数值。若上面的系数转化为风险比（Odds Ratio），则可直接比较组间差异以及自变量对因变量的影响程度。转化公式为：

（2）logistic命令

Stata另外一个命令可以直接输出风险比：

. logistic cashdum roa td size2 lagcashdum growth cg12 first

Logistic regression Number of obs = 1116

LR chi2(7) = 754.95

Prob > chi2 = 0.0000

Log likelihood = -376.20303 Pseudo R2 = 0.5008

688IT编程网

第十章_logit回归

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

第十章_logit回归

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式