常见的七种回归技术
字数2478 阅读443 评论1 喜欢2
介绍
根据受欢迎程度,线性回归和逻辑回归经常是我们做预测模型时,且第一个学习的算法。但是如果认为回归就两个算法,就大错特错了。事实上我们有许多类型的回归方法可以去建模。每一个算法都有其重要性和特殊性。
内容
1.什么是回归分析?
2.我们为什么要使用回归分析?
3.回归有哪些类型 ?
4.线性回归
5.逻辑回归
6.多项式回归
7.逐步回归
8.岭回归
9.Lasso回归
10.ElasticNet回归
什么是回归分析?
回归分析是研究自变量和因变量之间关系的一种预测模型技术。这些技术应用于预测,时间序列模型和到变量之间关系。例如可以通过回归去研究超速与交通事故发生次数的关系。
我们为什么要用回归分析?
这里有一些使用回归分析的好处:它指示出自变量与因变量之间的显著关系;它指示出多个自变量对因变量的影响。回归分析允许我们比较不同尺度的变量,例如:价格改变的影响和宣传活动的次数。这些好处可以帮助市场研究者/数据分析师去除和评价用于建立预测模型里面的变量。
回归有哪些类型?
我们有很多种回归方法用预测。这些技术可通过三种方法分类:自变量的个数、因变量的类型和回归线的形状。
1.线性回归
线性回归可谓是世界上最知名的建模方法之一,也是应该是我们第一个接触的模型。在模型中,因变量是连续型的,自变量可以使连续型或离散型的,回归线是线性的。
线性回归用最适直线(回归线)去建立因变量Y和一个或多个自变量X之间的关系。可以用公式来表示:
Y=a+b*X+e
a为截距,b为回归线的斜率,e是误差项。
简单线性回归与多元线性回归的差别在于:多元线性回归有多个(>1)自变量,而简单线性回归只有一个自变量。到现在我们的问题就是:如何到那条回归线?
我们可以通过最小二乘法把这个问题解决。其实最小二乘法就是线性回归模型的损失函数,只要把损失函数做到最小时得出的参数,才是我们最需要的参数。
我们一般用决定系数(R方)去评价模型的表现。
重点:
1.自变量与因变量之间必须要有线性关系。
2.多重共线性、自相关和异方差对多元线性回归的影响很大。
3.线性回归对异常值非常敏感,其能严重影响回归线,最终影响预测值。
4.在多元的自变量中,我们可以通过前进法,后退法和逐步法去选择最显著的自变量。
2.逻辑回归
逻辑回归是用来到事件成功或事件失败的概率。当我们的因变量是二分类(0/1,True/False,Yes/No)时我们应该使用逻辑回归。
正则化最小二乘问题重点:
1.在分类问题中使用的非常多。
2.逻辑回归因其应用非线性log转换方法,使得其不需要自变量与因变量之间有线性关系。
3.为防止过拟合和低拟合,我们应该确保每个变量是显著的。应该使用逐步回归方法去估计逻辑回归。
4.逻辑回归需要大样本量,因为最大似然估计在低样本量的情况下表现不好。
5.要求没有共线性。
6.如果因变量是序数型的,则称为序数型逻辑回归。
7.如果因变量有多个,则称为多项逻辑回归。
3.多项式回归
写在前面:多项式回归在回归问题中占特殊的地位,因为任何函数至少在一个比较小的邻域
内可用多项式任意逼近,因此通常在比较复杂的实际问题中,可以不问与诸因素的确切关系如何,而用多项式回归(当然首先应试用最简单的一次多项式即线性回归)进行分析和计算
如果一个回归,它的自变量指数超过1,则称为多项式回归。可以用公式表示:
y = a + b * x^2
在这个回归技术中,最适的线不是一条直线,而是一条曲线。
重点:
1.很多情况下,我们为了降低误差,经常会抵制不了使用多项式回归的诱惑,但事实是,我们经常会造成过拟合。所以要经常的把数据可视化,观察数据与模型的拟合程度。
2.特别是要看曲线的结尾部分,看它的形状和趋势是否有意义。高的多项式往往会产生特别古怪的预测值。
4.逐步回归
当我们要处理多个自变量时,我们就需要这个回归方法。在这个方法中选择变量都是通过自动过程实现的,不需要人的干预。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论