逻辑回归模型(LogisticRegression,LR)基础
逻辑回归(Logistic Regression, LR)模型其实仅在线性回归的基础上,套⽤了⼀个逻辑函数,但也就由于这个逻辑函数,使得逻辑回归模型成为了机器学习领域⼀颗耀眼的明星,更是计算⼴告学的核⼼。本⽂主要详述逻辑回归模型的基础,⾄于逻辑回归模型的优化、逻辑回归与计算⼴告学等,请关注后续⽂章。
1 逻辑回归模型
回归是⼀种极易理解的模型,就相当于y=f(x),表明⾃变量x与因变量y的关系。最常见问题有如医⽣治病时的望、闻、问、切,之后判定病⼈是否⽣病或⽣了什么病,其中的望闻问切就是获取⾃变量x,即特征数据,判断是否⽣病就相当于获取因变量y,即预测分类。
最简单的回归是线性回归,在此借⽤Andrew NG的讲义,有如图1.a所⽰,X为数据点——肿瘤的⼤⼩,Y为观测值——是否是恶性肿瘤。通过构建线性回归模型,如hθ(x)所⽰,构建线性回归模型后,即可以根据肿瘤⼤⼩,预测是否为恶性肿瘤hθ(x)≥.05为恶性,hθ(x)<0.5为良性。
图1 线性回归⽰例
然⽽线性回归的鲁棒性很差,例如在图1.b的数据集上建⽴回归,因最右边噪点的存在,使回归模型在训练集上表现都很差。这主要是由于线性回归在整个实数域内敏感度⼀致,⽽分类范围,需要在[0,1]。逻辑回
归就是⼀种减⼩预测范围,将预测值限定为[0,1]间的⼀种回归模型,其回归⽅程与回归曲线如图2所⽰。逻辑曲线在z=0时,⼗分敏感,在z>>0或z<<0处,都不敏感,将预测值限定为(0,1)。
图2 逻辑⽅程与逻辑曲线
逻辑回归其实仅为在线性回归的基础上,套⽤了⼀个逻辑函数,但也就由于这个逻辑函数,逻辑回归成为了机器学习领域⼀颗耀眼的明星,更是计算⼴告学的核⼼。对于多元逻辑回归,可⽤如下公式似合分类,其中公式(4)的变换,将在逻辑回归模型参数估计时,化简公式带来很多益处,y={0,1}为分类结果。
clip_image006
对于训练数据集,特征数据x={x1, x2, … , x m}和对应的分类数据y={y1, y2, … , y m}。构建逻辑回归模型f(θ),最典型的构建⽅法便是应⽤。⾸先,对于单个样本,其后验概率为:
那么,极⼤似然函数为:
log似然是:
2 梯度下降
由第1节可知,求逻辑回归模型f(θ),等价于:
采⽤梯度下降法:
从⽽迭代θ⾄收敛即可:
3 模型评估
对于LR分类模型的评估,常⽤AUC来评估,关于AUC的更多定义与介绍,可见参考⽂献2,在此只介绍⼀种极简单的计算与理解⽅法。对于下图的分类:
对于训练集的分类,训练⽅法1和训练⽅法2分类正确率都为80%,但明显可以感觉到训练⽅法1要⽐训练⽅法2好。因为训练⽅法1中,5和6两数据分类错误,但这两个数据位于分类⾯附近,⽽训练⽅法2中,将10和1两个数据分类错误,但这两个数据均离分类⾯较远。
AUC正是衡量分类正确度的⽅法,将训练集中的label看两类{0,1}的分类问题,分类⽬标是将预测结果尽量将两者分开。将每个0和1看成⼀个pair关系,团中的训练集共有5*5=25个pair关系,只有将所有pair关系⼀⾄时,分类结果才是最好的,⽽auc为1。在训练⽅法1中,与10相关的pair关系完全正确,同样9、8、7的pair关系也完全正确,但对于6,其pair关系(6,5)关系错误,⽽与4、3、2、1的关系正确,故其auc为(25-1)/25=0.96;对于分类⽅法2,其6、7、8、9的pair关系,均有⼀个错误,即(6,1)、(7,1)、(8,1)、(9,1),对于数据点10,其正任何数据点的pair关系,都错误,即(10,1)、(10,2)、(10,3)、(10,4)、(10,5),故⽅法2的auc为(25-4-5)/25=0.64,因⽽正如直观所见,分类⽅法1要优于分类⽅法2。
4 演算⼿稿
附演算⼿稿如下:
参考⽂献:
正则化逻辑回归模型1  Andrew NG. Logistic Regression Classification 2
----

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。