一文让你彻底搞懂最小二乘法(超详细推导)
要解决的问题
在工程应用中,我们经常会用一组观测数据去估计模型的参数,模型是我们根据先验知识定下的。比如我们有一组观测数据 ( x i , y i ) (x_i,y_i) (xi,yi)(一维),通过一些数据分析我们猜测 y y y x x x之间存在线性关系,那么我们的模型就可以定为: f ( x ) = k x + b f(x)=kx+b f(x)=kx+b
这个模型只有两个参数,所以理论上,我们只需要观测两组数据建立两个方程,即可解出两个未知数。类似的,假如模型有 n n n个参数,我们只需要观测 n n n组数据就可求出参数,换句话说,在这种情况下,模型的参数是唯一确定解。
但是在实际应用中,由于我们的观测会存在误差(偶然误差、系统误差等),所以我们总会做多余观测。比如在上述例子中,尽管只有两个参数,但是我们可能会观测 n n n组数据 ( x 1 , y 1 ) . . , ( x n , y n ) (x_1, y_1)..,(x_n, y_n) (x1,y1)..,(xn,yn),这会导致我们无法到一条直线经过所有的点,也就是说,方程无确定解。
于是这就是我们要解决的问题:虽然没有确定解,但是我们能不能求出近似解,使得模型能在各个观测点上达到“最佳“拟合。那么“最佳”的准则是什么?可以是所有观测点到直线的距离和最小,也可以是所有观测点到直线的误差(真实值-理论值)绝对值和最小,也可以是其它,如果是你面临这个问题你会怎么做?
早在19世纪,勒让德就认为让“误差的平方和最小”估计出来的模型是最接近真实情形的。
为什么是误差平方而不是另一个?就连欧拉和拉普拉斯都没能成功回答这个问题。后来高斯建立了一套误差分析理论,从而证明了系统在误差平方和最小的条件下是最优的。证明这个理论并不难。我写了另一篇关于最小二乘法原理理解的博客。相信你了解后会对最小二乘法有更深的理解。
按照勒让德的最佳原则,于是就是求: L = ∑ i = 1 n ( y i − f ( x ) ) 2 L=\sum_{i=1}^{n}\left(y_i-f(x)\right)^{2} L=i=1n(yif(x))2这个目标函数取得最小值时的函数参数,这就是最小二乘法的思想,所谓“二乘”就是平方的意思。从这里我们可以看到,最小二乘法其实就是用来做函数拟合的一种思想。
至于具体参数怎么取,那就是另一个问题了。理论上,工程上可以采用导数法、几何法和梯度下降法。下面就以最常用的线性回归为例进行推导和理解。
线性回归
线性回归应用广泛,因为它相对简单,可以直接导出解析解,而且很多非线性问题也可以转化为线性问题来求解。甚至很多人认为最小二乘法指的是线性回归,其实不是。最小二乘法是一种思路,可以拟合任何函数。线性回归只是比较简单常用的函数之一,所以最小二乘法基本会以它为例。
接下来我会用矩阵的方法推导,然后用几何的方法帮助你理解最小二乘法的几何意义。
矩阵解法
线性回归定义为: h θ ( x 1 , x 2 , … x n − 1 ) = θ 0 + θ 1 x 1 + … + θ n − 1 x n − 1 h_{\theta}\left(x_{1}, x_{2}, \ldots x_{n-1}\right)=\theta_{0}+\theta_{1} x_{1}+\ldots+\theta_{n-1} x_{n-1} hθ(x1,x2,xn1)=θ0+θ1x1++θn1xn1 θ \theta θ为参数)假设现在有 m m m个样本,每个样本有 n − 1 n-1 n1维特征,将所有样本点代入模
型中得: h 1 = θ 0 + θ 1 x 1 , 1 + θ 2 x 1 , 2 + … + θ n − 1 x 1 , n − 1 h 2 = θ 0 + θ 1 x 2 , 1 + θ 2 x 2 , 2 + … + θ n − 1 x 2 , n − 1 ⋮ h m = θ 0 + θ 1 x m , 1 + θ 2 x m , 2 + … + θ n − 1 x m , n − 1 \begin{array}{l} h_{1}=\theta_{0}+\theta_{1} x_{1,1}+\theta_{2} x_{1,2}+\ldots+\theta_{n-1} x_{1,n-1} \\ h_{2}=\theta_{0}+\theta_{1} x_{2,1}+\theta_{2} x_{2,2}+\ldots+\theta_{n-1} x_{2,n-1}\\ \vdots \\ h_{m}=\theta_{0}+\theta_{1} x_{m, 1}+\theta_{2} x_{m, 2}+\ldots+\theta_{n-1} x_{m, n-1} \end{array} h1=θ0+θ1x1,1+θ2x1,2++θn1x1,n1h2=θ0+θ1x2,1+θ2x2,2++θn1x2,n1hm=θ0+θ1xm,1+θ2xm,2++θn1xm,n1​​为方便用矩阵表示,我们令 x 0 = 1 x_0=1 x0=1,于是上述方程可以用矩阵表示为: h = X θ \mathbf{h}=\mathbf{X} \theta h=Xθ其中, h \mathbf{h} h为mx1的向量, 代表模型的理论值, θ \theta θ 为nx1的向量, X X X为mxn维的矩阵, m m m代表样本的个数, n n n代表样本的特征数,于是目标损失函数用矩阵表示为: J ( θ ) = ∥ h − Y ∥ 2 = ∥ X θ − Y ∥ 2 = ( X θ − Y ) T ( X θ − Y ) J(\theta)=\|\mathbf{h}-\mathbf{Y}\|^2 =\|\mathbf{X}\theta-\mathbf{Y}\|^2= (\mathbf{X} \theta-\mathbf{Y})^{T}(\mathbf{X} \theta-\mathbf{Y}) J(θ)=hY2=XθY2=(XθY)T(XθY)其中 Y \mathbf{Y} Y是样本的输出向量, 维度为mx1。
根据高数知识我们知道函数取得极值就是导数为0的地方,所以我们只需要对损失函数求导令其等于0就可以解出 θ \theta θ。矩阵求导属于矩阵微积分的内容,我也是现学的(…,这里先介绍两个用到的公式: ∂ x T a ∂ x = ∂ a T x ∂ x = a \frac{\partial x^{T} a}{\partial x}=\frac{\partial a^{T} x}{\partial x}=a xxTa=xaTx=a ∂ x T A x ∂ x = A x + A T x \frac{\partial x^{T} A x}{\partial x}=A x+A^{T} x xxTAx=Ax+ATx如果矩阵A是对称的: A x + A T x = 2 A x A x+A^{T} x=2 A x Ax+ATx=2Ax对目标函数化简: J ( θ ) = θ T X T X θ − θ T X T Y − Y T X θ + Y T Y J(\theta)=\theta^{T} X^{T} X \theta-\theta^{T} X^{T}Y-Y^{T} X\theta+Y^{T} Y J(θ)=θTXTθTXTYYT+YTY求导令其等于0: ∂ ∂ θ J ( θ ) = 2 X T X θ − 2 X T Y = 0 \frac{\partial}{\partial \theta} J(\theta)=2X^{T} X \theta-2X^TY=0 θJ(θ)=2XT2XTY正则化最小二乘问题=0解得 θ = ( X T X ) − 1 X T Y \theta=\left(X^{T}X\right)^{-1} X^{T}Y θ=(XTX)−1XTY,经过推导我们得到了 θ \theta θ的解析解,现在只要给了数据,我们就可以带入解析解中直接算出 θ \theta θ
几何意义
几何意义会直观的帮助你理解最小二乘法究竟在干什么。首先先来解释一下矩阵乘法的几何
意义,对于一个方程组 A x Ax Ax,我们可以看做是 x x x对矩阵 A A A的列向量的线性组合,比如:
{ 1 × x 1 + x 2 = 3 − 1 × x 1 + x 2 = 1 ⇔ [ 1 1 − 1 1 ] [ x 1 x 2 ] = [ 3 1 ] ⇔ A × x = b \left\{\begin{array}{l} 1 \times x_{1}+x_{2}=3 \\ -1 \times x_{1}+x_{2}=1 \end{array} \Leftrightarrow\left[\begin{array}{ll} 1 & 1 \\ -1 & 1 \end{array}\right]\left[\begin{array}{l} x_{1} \\ x_{2} \end{array}\right]=\left[\begin{array}{l} 3 \\ 1 \end{array}\right] \Leftrightarrow A \times x=b\right. {1×x1+x2=3−1×x1+x2=1[1−111][x1x2​​]=[31]A×x=b可以看作: [ 1 − 1 ] × x 1 + [ 1 1 ] × x 2 = [ 3 1 ] ⇔ a 1 × x 1 + a 2 × x 2 = b \left[\begin{array}{c} 1 \\ -1 \end{array}\right] \times x_{1}+\left[\begin{array}{c} 1 \\ 1 \end{array}\right] \times x_{2}=\left[\begin{array}{l} 3 \\ 1 \end{array}\right] \Leftrightarrow a_{1} \times x_{1}+a_{2} \times x_{2}=b [1−1]×x1+[11]×x2=[31]a1×x1+a2×x2=b画在坐标轴上可以看到,向量 b \mathbf{b} b其实就是向量 a 1 \mathbf{a_1} a1 a 2 \mathbf{a_2} a2的线性组合,因为他们都是在一个平面上,显然是有解的。但是如文章开头所说,由于存在观测误差,我们往往会做多余观测,比如要拟合一次方程 y = k x + b y=k x+b y=kx+b,我们可能观测了三个点(0,2),(1,2),(2,3),写成矩阵形式如下(为表述方便,用x1代替k,x2代替b ): { 1 × x
1 + x 2 = 2 0 × x 1 + x 2 = 2 2 × x 1 + x 2 = 3 ⇔ [ 1 1 0 1 2 1 ] [ x 1 x 2 ] = [ 2 2 3 ] ⇔ A × x = b \left\{\begin{array}{l} 1 \times x_{1}+x_{2}=2 \\ 0 \times x_{1}+x_{2}=2 \\ 2 \times x_{1}+x_{2}=3 \end{array} \Leftrightarrow\left[\begin{array}{ll} 1 & 1 \\ 0 & 1 \\ 2 & 1 \end{array}\right]\left[\begin{array}{l} x_{1} \\ x_{2} \end{array}\right]=\left[\begin{array}{l} 2 \\ 2 \\ 3 \end{array}\right] \Leftrightarrow A \times x=b\right. ⎩⎨⎧1×x1+x2=20×x1+x2=22×x1+x2=3⎣⎡102111⎦⎤[x1x2​​]=⎣⎡223⎦⎤A×x=b表示成线性组合的方式: [ 1 0 2 ] × x 1 + [ 1 1 1 ] × x 2 = [ 2 2 3 ] ⇔ a 1 × x 1 + a 2 × x 2 = b \left[\begin{array}{l} 1 \\ 0 \\ 2 \end{array}\right] \times x_{1}+\left[\begin{array}{l} 1 \\ 1 \\ 1 \end{array}\right] \times x_{2}=\left[\begin{array}{l} 2 \\ 2 \\ 3 \end{array}\right] \Leftrightarrow a_{1} \times x_{1}+a_{2} \times x_{2}=b ⎣⎡102⎦⎤×x1+⎣⎡111⎦⎤×x2=⎣⎡223⎦⎤a1×x1+a2×x2=b

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。