线性分类算法举例
1.用于回归的线性模型
线性模型也广泛应用于分类问题,预测公式如下:
这个公式看起来与线性回归公式非常相似,但是我们没有返回特征的加权求和,而是为预测设置了阈值(0)。如果函数值小于0,我们就预测类别-1;若函数值大于0,我们就预测类别+1。
对于用于回归的线性模型,输出y是特征的线性函数,是直线,平面或者超平面(对于更高维的数据集)
对于用于分类的线性模型,决策边界是输入的线性函数。
换句话说,(二元)线性分类器是利用直线,平面或者超平面来分开两个类别的分类器。
学习线性模型有很多算法,这些算法的区别在于以下两点:
系数和截距的特定组合对训练数据拟合好坏的度量方法;
是否使用正则化,以及使用哪种正则化方法。
最常见的两种线性分类算法是**Logistic回归**(logistic regression)和线性支持向量机(linear support vector machine,线性SVM)
我们将LogisticRegression和LinearSVC模型应用到forge数据集,并将线性模型到的决策边界可视化:
图为 线性SVM和Logistic回归在forge数据集上的决策边界
在这张图中,forge数据集的第一个特征位于x轴,第二个特征位于y轴,与前面相同。
位于黑线上方的新数据点被划为类别1,而在黑线下方的数据点会被划为类别0。l1正则化的作用
两个模型都得到了相似的决策边界,都默认使用L2正则化
对于LogisticRegression和LinearSCV,决定正则化强度的权衡参数叫做C。
C值越大,对应正则化越弱,也就是说,参数C的值较大,那么两个模型将尽可能将训练集拟合到最好;如果C的值较小,那么模型更强调是系数w接近于0.
参数C的作用还有另一个有趣之处。较小的C可以让算法尽量适应“大多数”数据点,而较大的C值更强调每个数据点都分类正确的重要性。
在左图中,C的值最小,对应强正则化;大部分属于类别0的点都位于底部,大部分属于类别1的点都位于顶部。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。