机器学习之逻辑回归和softmax回归及代码示例--688IT编程网

机器学习之逻辑回归和softmax 回归及代码⽰例

⼀、逻辑回归

在机器学习之线性回归中，我们可使⽤梯度下降梯度下降的⽅法得到⼀个映射函数映射函数来去贴近样本点，这个函数是对连续值的⼀个预测。

⽽逻辑回归是解决分类问题的⼀个算法，我们可以通过这个算法得到⼀个映射函数，其中为特征向量，，为预测的结果。在逻辑回归这⾥，标签为⼀个离散值。

⼆、判定边界

当将训练集的样本以其各个特征为坐标轴在图中进⾏绘制时，通常可以到某⼀个判定边界去将样本点进⾏分类。例如：

线性判定边界

线性判定边界：⾮线性判定边界

⾮线性判定边界：在图中，样本的标记类型有两种类型，⼀种为正样本，另⼀种为负样本，样本的特征和为坐标轴。根据样本的特征值，可将样本绘制在图上。

在图中，可到某个判定边界来对不同标签的样本进⾏划分。根据这个判定边界，我们可以知道哪些样本是正样本，哪些样本为负样本。

因此我们可以通过学习得到⼀个⽅程来表⽰判定边界，即判定边界为的点集。（可以看作是等⾼超平⾯等⾼超平⾯）

其中，为保留中的常数项，令特征向量。

为使得我们的边界可以⾮线性化，对于特征可以为特征的⾼次幂或相互的乘积。

对于位于判定边界上的样本，其特征向量可使得。因此，判定边界是满⾜的特征向量表⽰的点的集合。

三、⼆分类和sigmoid 函数

在上⾯，可以通过到⼀个判定边界来区别样本的标签，得到⼀个⽅程来表⽰判定边界。

对于⼆分类问题

⼆分类问题，即样本标签的类型只有两种类型。当样本标记的类型只有两种时，其中⼀类的样本点在判定边界的⼀边，其会有，⽽另⼀类的样本会在判定边界的另⼀边，会有。

当样本点离判定边界越远时，的绝对值越⼤于0，这时样本的标签是某种类型的概率会很⼤，可能会等于1；当样本点离判定边界越近时，的接近0，样本的标签是某种类型的概率会在0.5左右。

因此，我们可以将函数转换为⼀种概率函数，通过概率来判断样本的标签是某⼀种类型的概率会是多少。⽽这种转换可以使⽤ sigmoid 函数函数来实现：

h θ(X)(X)h θf ：X →y f ：X →y X X X={x0,x1,x2,…,xn}X ={,,,…,}x 0x 1x 2x n y y y y x0x 0x1x 1E θ(X)=0(X)=0E θE θ(X)=0(X)=0E θE θ(X)=XT θ

(X)=θE θX T θ={θ0,θ1,θ2,...,θn}θ={,,,...,}θ0θ1θ2θn E θ(X)=0(X)=0E θX={1,x1,x2,…,xn}X ={1,,,…,}x 1x 2x n xi x i X X E θ(X)=0(X)=0E θE θ(X)=0(X)=0E θX X E θ(X)=0(X)=0E θE θ(X)>0(X)>0E θE θ(X)<0(X)<0E θE θ(X)(X)E θE θ(X)(X)E θE θ(X)(X)E θg(z)=11+e−z g(z)=11+e −z

sigmoid 函数图像

函数图像如下：从sigmoid 函数图像可看出：当z 为0左右时，函数值为0.5左右；z 越⼤于0时，函数值越⼤于0.5越收敛于1；z 越⼩于0时，函数值越⼩于0.5越收敛于0。

因此，sigmoid 函数可适⽤于在⼆分类问题中将函数转换为概率函数。

当时，样本标记的类型为某⼀类型的概率会⼤于0.5；当时，样本标记的类型为某⼀类型的概率会⼩于0.5；当约等于 0时，样本标记的类型为某⼀类型的概率会在0.5左右。

在⼆分类问题中，可以到逻辑回归函数，判定边界

可看作时的等⾼线。

四、损失函数

由上⾯，到了⼆分类问题中的⼀个逻辑回归函数。

在逻辑回归函数中，特征向量系数是未知的，需要从样本中学习得来的。当从样本中学习得到⼀个特征向量系数时，怎么知道它对应的函数的预测能⼒会更好？判断更准确？因此，需要⼀个损失函数来表⽰逻辑回归函数的好坏程度。

1. 定义

在⼆分类问题中，若⽤的值表⽰正样本的概率正样本的概率，且，需要的损失函数应该是这样的：

1. 当样本标签的类型是正类型时，若该样本对应的值为1时，即为正类型的概率为1，这时候损失函数

值应为0；若该样本对应的值为0.0001时，即为正样本的概率为0.0001，这时候损失函数值应该是⼀个很⼤的值。

2. 当样本标记的类型是负类型时，若该样本对应的值为0时，即为正样本的概率为0，这时损失函数值应为0；若该样本对应的值为0.9999时，即为正样本的概率为0.9999，这时候损失函数值应该是⼀个很⼤的值。

因此⼆分类问题中，为满⾜这种需求，对于单个样本来说，其损失函数损失函数可以表⽰为：

（的值表⽰正样本的概率）

其中 y = 1 表⽰样本为正样本，y = 0 表⽰样本为负样本。

结合起来的写法：

上式的代价函数也称作：交叉熵代价函数交叉熵代价函数

对于训练集所有样本来说，共同造成的损失函数的均值可以表⽰为：

将 Cost 函数代⼊中：

对于样本来说，其标记y 为1 （正样本）或为 0（负样本），对于预测概率函数来说，预测到样

E θ(X)(X)E θE θ(X)>0(X)>0E θE θ(X)<0(X)<0E θE θ(X)(X)E θh θ(X)=sigmoid( E θ(X) )(X)=sigmoid( (X) )

h θE θh θ(X)=0.5(X)=0.5h θθθθθh θ(X)(X)h θh θ(X)(X)h θh θ(X)(X)h θh θ(X)∈(0,1)(X)∈(0,1)h θh θ(X)(X)h θh θ(X)(X)h θh θ(X)(X)h θh θ(X)(X)h θh θ(X)(X)h θJ θ(X)(X)J θJ θ(X)(X)J θh θ(X)(X)h θ

本为正样本的概率值在0到1之间。

2. 极⼤似然估计

上述的损失函数也可以通过极⼤似然估计极⼤似然估计来求得：以的值表⽰正样本的概率正样本的概率，且以 y = 1 表⽰正样本，y = 0 表⽰负样本，则有：

合并上述两个式⼦则有：

对m 个样本，求极⼤似然估计：

取对数似然估计：

对数似然取极值（极⼤值）时的 θ 取值便是我们想要的，因此需要对⽬标函数进⾏最⼤化，即相当于对上述的进⾏最⼩化：。

3. 正则化

同时，当预测概率函数过拟合，会导致⾼次项的特征向量系数过⼤（因为为

分清每个样本点的类型时会使得它⾜够的扭曲，这种扭曲通常由⾼次项的特征向量系数造成）。因此，为防⽌过拟合可以添加正则化项，即在损失函数的后⾯加个“尾巴”。

添加L2正则化项后的损失函数表⽰为：

五、最⼩化损失函数

在上⾯得到了⼆分类问题的逻辑回归的损失函数。为达到不错的分类效果，需要对损失函数进⾏最⼩化。

与线性回归相类似的是，这⾥的损失函数也是⼀个凸函数，因此，可以通过梯度下降法梯度下降法来得到合适的特性系数向量Θ。

同样，上式中的a 为学习率（下⼭步长）。将上式的偏导展开，可得：

⾮正则化的损失函数的偏导：

含正则化项的损失函数的偏导：

(X)

θJ θ(X)(X)J θh θ(X)(X)h θP(y=1|x;θ)=h θ(x)P(y=0|x;θ)=1−h θ(x)P (y =1|x;θ)P (y =0|x;θ)=(x)h θ=1−(x)

h θp(y | x;θ)=(h θ(x))y(1−h θ(x))1−y p (y | x;θ)=((x))h θy (1−(x))

h θ1−y L(θ)=∏i=1mp(yi|xi;θ)=∏i=1m(h θ(xi))yi(1−h θ(xi))1−yi L(θ)=p (|;θ)

∏i=1m y i x i =∏i=1m (())h θx i y i (1−())

h θx i 1−y i

l(θ)=logL(θ)=∑i=1myilogh θ(xi)+(1−yi)log(1−h θ(xi))

l(θ)=log L(θ)

=log ()+(1−)log(1−())

∑i=1m y i h θx i y i h θx i h θ(X)=11+e−XT θ

(X)=h θ1

1+e −θX T l(θ)l(θ)J(θ)J(θ)l(θ)=−J(θ)l(θ)=−J(θ)h θ(X)(X)h θθi θi E θ(X)=0(X)=0E θJ θ(X)(X)J θ

其中 λ 为正则化的强度。

同线性回归般，可以通过学习率a 对特征系数向量中的元素不断进⾏迭代，直到元素值收敛到某⼀值即可，这时可以得到损失函数较⼩时的特征向量系数Θ。

六、从⼆分类过渡到多分类

在上⾯，我们主要使⽤逻辑回归解决⼆分类的问题，那对于多分类的问题，也可以⽤逻辑回归来解决？

1. one vs rest

由于概率函数 h Θ(X) 所表⽰的是样本标记为某⼀类型的概率，但可以将⼀对⼀（⼆分类）扩展为⼀对多（one vs rest ）：

1. 将类型class1看作正样本，其他类型全部看作负样本，然后我们就可以得到样本标记类型为该类型的

概率p1；

2. 然后再将另外类型class2看作正样本，其他类型全部看作负样本，同理得到p2；正则化解决过拟合

3. 以此循环，我们可以得到该待预测样本的标记类型分别为类型class i 时的概率pi ，最后我们取pi 中最⼤的那个概率对应的样本标记类型作为我们的待预测样本类型。

2. softmax 函数

使⽤softmax 函数

函数构造模型解决多分类问题。softmax 回归分类器需要学习的函数为：

其中 k 个类别的个数，

和为第 i 个类别对应的权重向量和偏移标量。其中可看作样本 X 的标签为第 j 个类别的概率，且有

。与 logistic 回归不同的是，softmax 回归分类模型会有多个的输出，且输出个数与类别个数相等，输出为样本 X 为各个类别的概率，最后对样本进⾏预测的类型为概率最⾼的那个类别。

我们需要通过学习得到和，因此建⽴⽬标损失函数为：

上式的代价函数也称作：对数似然代价函数对数似然代价函数。

在⼆分类的情况下，对数似然代价函数可以转化为交叉熵代价函数。

其中 m 为训练集样本的个数，k 为类别的个数，为⽰性函数，当

为真时，

函数值为 1 ，否则为 0 ，即样本类别正确时，函数值才为 1 。

利⽤对数的性质，将损失函数展开有：继续展开：

通过梯度下降法最⼩化损失函数和链式偏导，使⽤对求偏导：化简可得：

再次化简可有：

log(ab)=log(a)−log(b)log()=log(a)−log(b)a b

因此由梯度下降法进⾏迭代：

同理通过梯度下降法最⼩化损失函数也可以得到的最优值。

同逻辑回归⼀样，可以给损失函数加上正则化项。

3. 选择的⽅案

当标签类别之间是互斥时，适合选择softmax回归分类器；当标签类别之间不完全互斥时，适合选择建⽴多个独⽴的logistic回归分类器。

4. tensorflow代码⽰例：

使⽤softmax回归对sklearn中的digit⼿写数据进⾏分类

688IT编程网

机器学习之逻辑回归和softmax回归及代码示例

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

机器学习之逻辑回归和softmax回归及代码示例

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式