机器学习——线性回归
一.线性模型评价指标
在开始线性回归模型前,先介绍一下线性模型的几个统计指标。
下面是参数说明:
MSE (Mean Squared Error 平均平方误差)
MSE=1m∑i=1m(y(i)y^(i))2
RMSE (Root Mean Squared Error 平均平方误差的平方根)

RMSE=1m∑i=1m(y(i)y^(i))2
MAE (Mean Absolute Error 平均绝对值误差)

MAE=1m∑i=1m|y(i)y^(i)|
R^2 决定系数
用来表示模型拟合性的分值,值越高表示模型的拟合程度越高
oTSS:所有样本数据与均值的差异,是方差的m倍; y¯=1m∑i=1my(i)

TSS=∑i=1m(y(i)y¯)2
oRSS:样本数据误差的平方和,是MSE的倍。

RSS=∑i=1m(y(i)y^(i))2
则 R2 :
R2=1RSSTSS ,          R∈[0,1]
二.一元线性回归
了解了评价模型的评价指标后就可开始一元线性回归模型的学习了。
1.基本形式
一元线性回归模型是最简单的机器学习模型,其形式如下:
y^=ax+b
2.模型求解
其求解过程也很简单:
b^=∑i=1nxiyinxy¯∑i=1nxi2nx¯2a=y¯b^x¯
详细推导过程太多了,等有缘再写吧。
三.多元线性回归
1.基本形式
给定有d个属性描述的示例X=(x_1;x_2;...;x_d),其中x_i是X在第i个属性上的取值,线性模型试图学得:
f(x)=ωbx1+ω2x2+...+ωdxd+b
一般向量形式写成:
f(x)=ωTX+b
其中 ω(ω1;ω2;...ωd),ω 和b学得了之后,模型就确定了。正则化是最小化策略的实现
2.模型求解
给定数据集 D={(xi,yi)}i=1m , 使得MSE最小化的过程就是实现一元线性回归模型的过程,即
(w,b)=argmin(w,b)∑i=1m(f(xi)yi)2                =argmin(w,b)∑i=1m(yiωxb)2
求解 (ω,b) 的方法叫做最小二乘法。线性回归中最小二乘法就是试图学得一条直线,使所有样本点到该直线上得欧式距离和最小, 它是基于MSE最小化来进行模型求解的方法。记 E=1m∑i=1m(y(i)y^(i))2 ,求解 ω, b使 E(ω,b) 最小化的过程,称为线性回归的最小二乘“参数估计”。
分别对 ω,b 求偏导:
E(ω,b)ω=2(ω∑i=1mxi2∑i=1m(yib)xi)        (1)E(ω,b)b=2(mb∑i=1m(yiωxi))                (2)
然后分别令(1)和(2)式为0,可得到\omega和b的最优闭式解(解析解):
ω=∑i=1myi(xix¯)∑i=1mxi21m∑i=1m(xi)2=∑i=1m(xix¯)(yiy¯)∑i=1m(xix¯)2 
b=1m∑i=1m(yiωxi)
为便于讨论,我们把\omega和X吸收进向量行式,相应的,把数据集D表示成为 m×(d+1) 大小的矩阵,其中每行相当于一个示例,改行前d个元素对应于示例的d个属性值,最后一个元素恒置为1,即:
X=(2d1⋮⋮⋮⋱⋮d1)=(x1T1x2T1⋮⋮xmT1)
再把标记也写成向量形式 y=(y1;y2;...;ym) ,有:
ω^=argminw^(y^Xω^)T(yXω^)
令 对Eω^=(y^Xω^)T(yXω^),对ω^ 求导得到
Eω^ω=2XT(Xω^y)
当 XTX 为满秩矩阵或正定矩阵式,令上式为0可得:
ω^=(XTX)1XTy
令 xi^=(xi;1); 则最终学得的多元线性回归模型为:
f(xi^)=xi^(XTX)1XTy
但是现实任务中X^TX在很多时候都与不是满秩矩阵,一般有大量的变量,甚至超过了样例数,导致X的列数多于行数,那么X^TX就不满足满秩的条件了,此时可以接触多个 ω^ ,具体要选择哪一个就需要引入正则化

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。