4.2 惩罚线性回归:对线性回归进行正则化以获得最优性能115
4.1.5 稀疏解
稀疏解意味着模型中的许多系数等于0,这也意味着在线预测时,相乘以及相加的次数会减少。更重要的是,稀疏模型(非0的系数较少)更容易解释,即更容易看到模型中的哪些属性在驱动着预测结果。
4.1.6 问题本身可能需要线性模型
最后一个使用惩罚线性回归的原因是线性模型可能是解决方案本身的需要。保险支付可以作为需要线性模型的一个例子,其中合同往往包含支付公式,而公式本身又包含变量以及系数。如果使用集成模型,其中每棵树有一千个参数、整体包含数千棵树,那么这样的模型几乎不可能用文字解释清楚。医药测试是另一个需要使用线性形式进行统计推断的例子。
4.1.7 什么时候使用集成方法
不使用惩罚线性回归的主要原因是使用其他技术可能获得更好的性能,比如集成方法。正如第3章指出的,集成方法对复杂问题(如极度不规则的决策曲面)或者可以利用大量数据进行求解的问题性能表现最佳。此外,集成方法在度量变量重要性时,可以生成更多关于属性与预测结果关系的信息。例如,集成方法会发现2阶甚至更高阶的重要性信息,即哪些变量组合的重要性大于单独对这些变量的重要性加和。这
些信息可以在惩罚线性回归的基础上进一步提升性能。第6章会详细介绍这一点。
4.2 惩罚线性回归:对线性回归进行正则化以获得最优性能
正如第3章所讨论的,本书解决了一类称作函数逼近的问题。训练模型的起始点是包含大量样本的数据集。每个实例包含结果以及大量用于预测结果的属性。第3章给出了一个简单的例子。表4-1为一个稍微修改的例子。
表4-1 样例训练集
因为表4-1中的输出是实数值,所以该问题是一个回归问题。性别属性(特征1)只能取 2个值,所以该属性为类别属性(或者方面)属性。其他2个属性是数值属性。函数逼近的目标是:构建一个从属性到输出的函数;在某种意义下最小化错误。第3章讨
>正则化可理解为一种罚函数法
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论