Logistic回归模型
1 Logistic回归模型的基本知识
1.1 Logistic模型简介
主要应用在研究某些现象发生的概率,比如股票涨还是跌,公司成功或失败的概率,以及讨论概率与那些因素有关。显然作为概率值,一定有,因此很难用线性模型描述概率与自变量的关系,另外如果接近两个极端值,此时一般方法难以较好地反映p的微小变化。为此在构建与自变量关系的模型时,变换一下思路,不直接研究,而是研究的一个严格单调函数,并要求在接近两端值时对其微小变化很敏感。于是Logit变换被提出来:
odds (1)
其中当从时,从,这个变化范围在模型数据处理上带来很大的方便,解决了上述面临的难题。另外从函数的变形可得如下等价的公式:
(2)
模型(2)的基本要求是,因变量(y)是个二元变量,仅取0或1两个值,而因变量取1的概率就是模型要研究的对象。而,其中表示影响的第个因素,它可以是定性变量也可以是定量变量,。为此模型(2)可以表述成:
(3)
显然,故上述模型表明是的线性函数。此时我们称满足上面条件的回归方程为Logistic线性回归。
Logistic线性回归的主要问题是不能用普通的回归方式来分析模型,一方面离散变量的误差形式服从伯努利分布而非正态分布,即没有正态性假设前提;二是二值变量方差不是常数,有异方差性。不同于多元线性回归的最小二乘估计法则(残差平方和最小),Logistic变换的非线性特征采用极大似然估计的方法寻求最佳的回归系数。因此评价模型的拟合度的标准变为似然值而非离差平方和。
定义1 称事件发生与不发生的概率比为 优势比(比数比 odds ratio 简称OR),形式上表示为
OR= (4)
定义2 Logistic回归模型是通过极大似然估计法得到的,故模型好坏的评价准则有似然值来表征,称
-2为估计值的拟合似然度,该值越小越好,如果模型完全拟合,则似然值为1,而拟合似然度达到最小,值为0。其中表示的对数似然函数值。
定义3 记为估计值的方差-协方差矩阵,为的标准差矩阵,则称
(5)
为的Wald统计量,在大样本时,近似服从分布,通过它实现对系数的显著性检验。
定义4 假定方程中只有常数项,即各变量的系数均为0,此时称
(6)
为方程的显著性似然统计量,在大样本时,近似服从分布。
1.2 Logistic模型的分类及主要问题
根据研究设计的不同,Logistic回归通常分为成组资料的非条件Logistic回归和配对资料的条件Logistic回归两种大类。还兼具两分类和多分类之分,分组与未分组之分,有序与无序变量之分。具体如下:
两分类非条件Logistic回归:分组数据的Logistic回归,未分组数据的Logistic回归;
多分类非条件Logistic回归:无序变量Logistic回归,无序变量Logistic回归;
条件Logistic回归:1:1型、1:M型和M:N型Logistic回归。
关于Logistic回归,主要研究的内容包括:
1.模型参数的估计及检验
2.变量模型化及自变量的选择
3.模型评价和预测问题
4.模型应用
2Logistic模型的参数估计及算法实现
2.1 两分类分组数据非条件Logistic回归
因变量(反应变量)分为两类,取值有两种,设事件发生记为y=1,不发生记为 y=0,设自变量是分组数据,取有限的几个值;研究事件发生的概率与自变量的关系,其Logistic回归方程为:
或
例2.1.1 分组数据[1] 在一次住房展销会上,与房地产商签订初步购房意向书的有n=325人,在随后的3个月时间内,只有一部分顾客购买了房屋。购买房屋的顾客记为1,否则记为0。以顾客的年家庭收入(万元)作为自变量,对数据统计后如表2.1.1所示,建立Logistic回归模型。
表2.1.1 购房分组数据
序号 | 年家庭收入X(万元) | 签订意 向人数 | 实际购 买人数 |
1 | 1.5 | 25 | 8 |
2 | 2.5 | 32 | 13 |
3 | 3.5 | 58 | 26 |
4 | 4.5 | 52 | 22 |
5 | 5.5 | 43 | 20 |
6 | 6.5 | 39 | 22 |
7 | 7.5 | 28 | 16 |
8 | 8.5 | 21 | 12 |
9 | 9.5 | 15 | 10 |
例2.1.2 药物疗效数据[2] 为考察某药物疗效,随机抽取220例病人并分配到组和对照组,组采用药物,对照组采用安慰剂。一段时间后观察病人的疗效,得到表2.1.2数据。设y为疗效指标(y=1 有效,y=0无效),为组指标(1为组,0为对照组),为年龄组指标(1为>45岁,0为其他)。
表2.1.2 药物疗效数据
序号 | 分组 | 年龄分组 | 有疗效 | 无效 | 合计 |
1 | 1 | 1 | 32 | 18 | 50 |
2 | 1 | 0 | 40 | 20 | 60 |
3 | 0 | 1 | 21 | 31 | 52 |
4 | 0 | 0 | 18 | 40 | 58 |
上述两个例子数据都是经过统计加工后的分组数据,对此类数据进行Logistic回归,首先要明确应变量对应事件的发生概率如何确定和进行Logit变换,其次才能建立Logistic回归。为便于数据处理,我们将此类数据的格式作个约定,排列格式为(组序号,自变量,该组事件发生数,该组总例数)。
表2.1.3 分组数据的标准格式
表2.1.1 改造表 |
表2.1.2 改造表 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
经过改造后,可得我们关心的事件的发生的频率为 。其中为分组数,然后作Logit变换,即。变换后的数据,形式上已经可以采用一般的线性回归的处理方式来估计回归参数了。此时方程变为:
当然这样处理并没有解决异方差性,当较大时,的近似方差为:
(7)
所以选择权重 ,最后采用加权最小二乘法估计参数。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论