SAS学习系列26.Logistic回归--688IT编程网

26. Logistic回归

（一）Logistic回归

一、原理

二元或多元线性回归的因变量都是连续型变量，若因变量是分类变量（例如：患病与不患病；不重要、重要、非常重要），就需要用Logistic回归。

Logistic回归分析可以从统计意义上估计出在其它自变量固定不变的情况下，每个自变量对因变量取某个值的概率的数值影响大小。

Logistic回归模型有“条件”与“非条件”之分，前者适用于配对病例对照资料的分析，后者适用于队列研究或非配对的病例-对照研究成组资料的分析。

对于二分类因变量，y=1表示事件发生；y=0表示事件不发生。事件发生的条件概率P{ y=1 | xi } 与 xi 之间是非线性关系，通常是单调的，即随着xi 的增加/减少，P{ y=1 | xi } 也增加/减少。

Logistic函数F(x)=，图形如下图所示：

该函数值域在(0,1)之间，x趋于-∞时，F(x)趋于0；x趋于+∞时，F(x)趋于1. 正好适合描述概率P{ y=1 | xi }. 例如，某因素x导致患病与否：x在某一水平段内变化时，对患病概率的影响较大；而在x较低或较高时对患病概率影响都不大。

记事件发生的条件概率P{ y=1 | xi } = pi，则

pi = =

记事件不发生的条件概率为

1- pi =

则在条件xi下，事件发生概率与事件不发生概率之比为

称为事件的发生比，简记为odds. 对odds取自然对数得到

上式左边（对数发生比）记为Logit(y), 称为y的Logit变换。可见变换之后的Logit(y)就可以用线性回归，计算出回归系数α和β值。

若分类因变量y与多个自变量xi有关，则变换后Logit(y)可由多元线性回归：

或

二、回归参数的解释

1. 三个名词

发生比（odds）= =

例如，事件发生概率为0.6，不发生概率为0.4，则发生比为1.5（发生比>1，表示事件更可能发生）。

发生比率（OR）= = = =

即主对角线乘积/副对角线乘积，也称为交叉积比率，优势比。例如，

说明：大于1（小于1）的发生比率，表明事件发生的可能性会提高（降低），或自变量对事件概率有正（负）的作用；发生比率为1表示变量对事件概率无作用。

相对风险（RR）= =

用来进行两组概率之间的比较。当p1= p2时，相对风险为1，表明两组在事件发生方面没有差别。

2. 连续型自变量回归参数的解释

截距α ：基准发生比的对数，即当Logistic回归模型中没有任何自变量时（除常量外，所有自变量都取0值）所产生的发生比。

由于理解发生比，比理解对数发生比更容易，故将Logistic回归模型改写为：

odds = =

若βk>0（βk<0），则>1（<1）, 即xk每增加一个单位值时发生比会相应增加（减少）；若βk=0，则=1, 那么xk不论怎样变化发生比都不会变化。

反映了自变量xk增加一个单位时发生比所变化的倍数，即(xk+1)时的发生比与原发生比【(xk)时】之比。自变量xk每变化一个单位，发生比率的变化率为

注：由于βk是自变量xkodds的偏系数估计，故称为调整发生比率（AOR）的估计。实际中，往往更关心的不是自变量变化1个单位，而是变化一段水平b-a个单位，例如年龄每增加5岁，此时调整发生比率为

AOR =

3. 二分类自变量回归参数的解释

二分类变量，例如性别，取值可以用0或1编码，也称为标志变量或虚拟变量。

若xk为取值0或1的二分类变量，则有

两式作差得

可见βk就是在控制其它变量条件下，xk=1与xk=0的对数发生比的差；也即是发生比率的对数，即调整发生比率的估计可表示为

注意，发生比率是，而不是两者概率比

4. 多分类变量的处理与回归参数的解释

当分类自变量多于两个类别时，需要建立一组虚拟变量来代表类型的归属性质。若一个分类变量包括m个类别，则可以产生m个相应的虚拟变量，但建模需要的虚拟变量的数目为m-1. 省略的那个类别作为参照类。

例如，年龄是有序变量，按年龄段分为四个类别：x<40，40≤x<50，50≤x<60, x≥60.

设置3个虚拟变量Age1表示40≤x<50（属于该年龄段则Age1=1，否则Age1=0）；Age2表示50≤x<60（属于该年龄段则Age2=1，否则Age2=0）；Age3 表示x≥60（属于该年龄段则Age3=1，否则Age3=0）；另一个不指定虚拟变量的x<40作为参照类（Age1，Age2，Age3都为0；哪一类作为参照类是随意的，取决于偏好或解释的方便）。

则模型为

同二分类变量时一样，β1代表40≤x<50与参照类（Age0: x<40）在因变量上的差别，故

β1 = ln(odds)Age1 vs Age0

且40≤x<50对 x<40的发生比率为.

注：（1）名义变量直接就是分类变量；连续变量也可以改为分类变量，例如考试成绩按分数段分为高、中、低三档。

（2）另外，也可采用效应变量编码，三种取值：-1, 0(参照类), 1.

（3）用SAS中CLASS语句指定分类变量，可以自动进行效应编码，作为一组变量纳入模型，并对每一类别单独做显著性检验。

5. 用概率解释自变量的作用

688IT编程网

SAS学习系列26.Logistic回归

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

SAS学习系列26.Logistic回归

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式