Logit模型原理
Logit模型
一次选择行为通常会包含以下几种要素:
(1)决策者(Decision Maker),即做出选择行为的主体;即使面对相同的备选方案集,不同的决策者也会做出不一样的选择,这也是为什么在调查、收集用户/消费者的选择行为的
数据时需要收集受访者的个人社会经济状况的资料的原因。
(2)备选方案集(Alternatives),通常会有多个方案供决策者选择;所谓的备选方案就是供决策者选择的一个选择集。例如应急接驳时乘客的出行方式选择主要有:备用公交、平行公交、地铁绕行。在实际情况中,针对不同的个体,其实际所面临的选择域可能并不一致。3个不同的选择集的概念:
通用方案集(Universal Choice Set)
可行方案集(Feasible Choice Set)
实际考虑的方案集(Consideration Choice Set)
(3)各个方案的属性(Attributes of Alternatives)。每一种影响方案选择的因素称之为一个属性(Attributes);选择结果的除了受到决策者的个人属性的影响以外,每一个选择项(即“方案”)的自身属性也会影响到选择的结果。这一点很容易理解。在出行方式选择的案例中,选择的结果除了受到出行者的个人属性(收入、工作类型等)的因素影响以外,人们在选择的时候还会考虑每一种出行方式的不同方面的属性特征,包括每一种出行方式的费用
(Cost)、时间(Travel Time)、舒适性(Comfort)、安全性(Safety)、可靠性(Reliability)等等。不同的方案属性描述了各个方案在不同的维度上可以提供给人们的效用(Utility)。我们可以将“效用”理解为“人们在某个维度上所获得的满意程度”。人们在进行选择的时候考虑的是各个方案在所有的属性维度上的总和——“效用最大化”也是最为常见的决策准则。
在离散选择模型中,如果令等号的左边表示“决策者i选择某个方案j的概率 “P”,等号的右边为“决策者的个人属性”和“方案属性”的函数。基于此,离散选择模型可以抽象的表示为:
(个体i选择方案j) = f(决策者i的个人属性,方案j的属性)
方案属性会受到不同的政策措施的影响。
(4)决策准则(Decision Rules)。不同的决策者在做出方案选择时的行为准则不尽然相同。仍然以上面“选择餐厅”的例子予以说明:有人在选择餐厅时可能会比较的“随意”——随便挑一家即可;而有的人可能会综合利用各种信息资源(如“大众点评”App)做出一个对自己最为有利的选择。不一样的决策准则会导致不同的选择结果。从研究/建模的角度来说,随机
型决策方式的问题在于,每次决策的结果可能不一致——这样无法解释哪些因素会影响选择的结果,也不能预测下一次面对同样的情形时决策者会做出什么样的选择。常见的理性的决策方式(Rational Choice Behavior)有:优势准则、下线准则、多重排序准则、效用最大化准则。
对于效用最大化原则,效用最大化,即满意程度最大化。对于出行方式而言,费用越低,出行时间越短,安全性越高,舒适性越好,该方式的效用就越高。考虑备用公交i、平行公交j、地铁绕行k这三种出行方式的选择,假设所考虑的属性包括四个维度:K={k1,k2,k3}={费用,时间,安全性,舒适性}。
选择备用公交所获得的效用可以表示为:
Ui=β1*X+β2*X+β3*X
β表示权重。
离散选择模型的划分有多种方法。根据备选方案集中备选方案的数量可以将离散选择模型分为二项选择模型(Binomial choice models)和多项选择模型(Multinomial choice mode
ls)。顾名思义,二项选择模型是指备选方案集中仅有两个选项,如{“是”,“否”},{“买”,“不买”},{“受伤”,“未受伤”},{“感染”,“未感染”} 等等。二项选择模型是学习其它离散选择模型的基础,后文会予以详细介绍。多项选择模型中的方案数量为3个或3个以上,如购买车辆时选择 {“品牌1”、“品牌2”、“品牌3”};交通事故的严重等级{“仅财产损失”、“受伤”、“死亡”} 等等。
另外,按照备选方案的特征也可以将离散选择模型划分为“无序离散选择模型(Unordered DCM)”和“有序离散选择模型(Ordered DCM)”两大类。对于交通事故的严重等级来说,“死亡”比“受伤”更严重,“受伤”比“仅财产损失”更严重——因变量是一种有序的数据结构。而对于购买汽车品牌而言,“品牌1”、“品牌2”、“品牌3”之间并无等级差别,使用无序离散选择模型对其进行建模即可。另外,按照备选方案的特征也可以将离散选择模型划分为“无序离散选择模型(Unordered DCM)”和“有序离散选择模型(Ordered DCM)”两大类。
在统计学里,概率(Probability)和Odds都是用来描述某件事情发生的可能性的。概率描述的是某事件A出现的次数与所有结果出现的次数之比。公式表示:
Odds指的是事件发生的概率与事件不发生的概率之比。公式表示为:
也就是说,事件A的Odds 等于 事件A出现的次数 和 其它(非A)事件出现的次数之比;相比之下,事件A的概率 等于 事件A出现的次数 与 所有事件的次数之比。Odds的对数称之为Logit。
从概率,这就是一个Logit变换。实际上,所谓 Logit 模型可以理解成 Log-it(即 it 的自然对数——这里的 it 指的就是Odds)。与概率不同,Logit的一个很重要的特性就是没有上下限——这就给建模带来极大方便。
odds等号的左边就是胜率的对数,右边则是自变量的线性组合。变形后得到:
or
从概率角度可以看出:
(1)在 Logit 模型中,自变量和概率的关系是非线性的。β0控制曲线中点(下图中的*)的位置;β1控制曲线的斜率。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论