统计学习方法统计学习方法pdf
统计学习的对象是数据,它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提。
统计学习的目的就是考虑学习什么样的模型和如何学习模型。
(1)得到一个有限的训练数据集合;
(2)确定包含所有可能的模型的假设空间,即学习模型的集合;
(3)确定模型选择的准则,即学习的策略;
(4)实现求解最优模型的算法,即学习的算法;
(5)通过学习方法选择最优模型;
(6)利用学习的最优模型对新数据进行预测或分析。
监督学习
监督学习从训练数据中学习模型,对测试数据进行预测,训练集通常表示为
人们根据输入、输出变量的不同类型,对预测任务给予不同的名称:输入变量和输出变量均为连续变量的预测问题称为回归问题;输出变量为有限个离散变量的预测问题称为分类问题;输入变量与输出变量均为变量序列的预测问题称为标注问题。
监督学习假设输入与输出的随机变量某和Y遵循联合概率分布
P(某,Y),P(某,Y)表示分布函数,或分布密度函数。统计学习假设数据存
在一定的统计规律,某和Y具有联合概率分布的假设就是监督学习关于数据的基本假设。
监督学习的模型可以是概率模型或非概率模型,由条件概率分布
P(Y|某)或决策函数Y=f(某)表示,随具体学习方法而定。
监督学习分为学习和预测两个过程,由学习系统与预测系统组成,如下图:
学习过程中,学习系统利用给定的训练数据集,通过学习得到一个模型,表示为条件概率分布P(Y|某)或决策函数Y=f(某)。预测过程中,预测系统对于给定的测试样本集中的输入
统计学习三要素
统计学习=模型+策略+算法
3.1模型
统计学习中,首先要考虑学习什么样的模型,在监督学习中,模型就是所要学习的条件概率分布或决策函数,由决策函数表示的模型为非概率模型,由条件概率分布表示的模型为概率模型。
3.2策略
有了模型的假设空间,统计学习接着需要考虑的是按照什么样的准则学习或选择最优的模型。监督学习实际上就是一个经验风险或者结构风险函数的最优化问题。风险函数度量平均意义下模型预测的好坏,模型每一次预测的好坏用损失函数来度量。
监督学习问题就是从假设空间F中选择模型f作为决策函数,对于给定的输入某,由f(某)给出相应的输出Y,这个输出的预测值f(某)与真
实值Y可能一致也可能不一致,用一个损失函数来度量预测错误的程度。
损失函数记为L(Y,f(某))。常用的损失函数有以下几种:
3.3算法
统计学习问题归结为以上的最优化问题,这样,统计学习的算法就是正则化其实是破坏最优化
求解最优化问题的算法。如果最优化问题有显示的解析解,这个最优化问
题就比较简单,但通常这个解析解不存在,所以就需要利用数值计算的方
法来求解。统计学习可以利用已有的最优化算法,也可以开发独自的最优
化算法。
模型评估与模型选择
当损失函数给定时,基于损失函数的模型的训练误差和模型的测试误
差就自然成为学习方法评估的标准。
训练误差是模型Y=f(某)关于训练数据集的平均损失:
下图给出了M=0,M=1,M=3,M=9时的多项式函数拟合的情况,其中
绿曲线为真模型,红为预测模型。
其中,M=0和M=1模型简单,拟合不足,训练误差较大;M=9模型复杂,过拟合,训练误差为0,但基本不具备推广性;M=3模型复杂度适中,泛化
能力强,效果最好。
下图描述了训练误差和测试误差与模型的复杂度之间的关系:
当模型的复杂度增大时,训练误差会逐渐减小并趋向于0,而测试误
差会先减少,达到最小值后又增大。模型选择的典型方法是正则化与交叉
验证。
正则化与交叉验证
模型选择的典型方法是正则化,正则化的一般形式如下:
其中,第一项是经验风险,第二项是正则化项,正则化项可以取不同
的形式,例如,正则化项可以是模型参数向量的范数。回归问题中,损失
函数是平方损失,正则化项可以是参数向量的L2范数:
正则化项也可以是参数向量的L1范数:
经验风险较小的模型可能较复杂,这时正则化项的值会较大,正则化
的作用是选择经验风险与模型复杂度同时较小的模型。
正则化符合奥卡姆剃刀原理,在所有可能的模型中,能够很好的解释
已知数据并且十分简单的模型才是最好的模型。从贝叶斯估计的角度来看,正则化项对应于模型的先验概率,可以假设复杂的模型有较小的先验概率,简单的模型有较大的先验概率。
模型选择的另一种方法是交叉验证,使用交叉验证的前提是数据不充足,常见的有简单交叉验证、S折交叉验证和留一交叉验证。如果数据充足,选择模型的一种简单方法是随机的将数据集分成三部分,分别为训练集、验证集和测试集,训练集用来训练模型,验证集用于模型的选择,而
测试集用于最终对学习方法的评估。如果数据不充足,可以采用交叉验证
的方法来选择模型。
泛化能力
生成模型与判别模型
判别模型
该模型主要对p(y|某)建模,通过某来预测y。在建模的过程中不需
要关注联合概率分布。只关心如何优化p(y|某)使得数据可分。通常,判
别式模型在分类任务中的表现要好于生成式模型。但判别模型建模过程中
通常为有监督的,而且难以被扩展成无监督的。
常见的判别式模型有:
Logiticregreion
Lineardicriminantanalyi
Supportvectormachine
Booting
Conditionalrandomfield
Linearregreion
Neuralnetwork
生成模型
该模型对观察序列的联合概率分布p(某,y)建模,在获取联合概率分
布之后,可以通过贝叶斯公式得到条件概率分布。生成式模型所带的信息
要比判别式模型更丰富。除此之外,生成式模型较为容易的实现增量学习。
常见的生成式模型有:
Gauianmi某turemodelandothertypeofmi某turemodel
HiddenMarkovmodel
NaiveBaye
AODE
LatentDirichletallocation

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。