统计学习⽅法第⼀章
⼀、统计学习三要素
1.模型:要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。例如:假设决策函数是输⼊变量的线性函数,那么模型的假设空间就是所有这些线性函数构成的函数集合,此时为⽆穷个。
这也就是为什么说:条件概率分布P(y|x)和函数y=f(x)可以相互转换。
条件概率分布最⼤化后得到函数:决策准则是最⼤可能性时,决策函数⾃然取条件概率的最⼤值。
函数归⼀化后得到条件概率分布:决策函数归⼀化之后满⾜概率公理,当然可以看作条件概率。决策函数的定义域通常是有限点集。
2. 策略:统计学习的⽬的是从假设空间中选取最优模型,需要损失函数和风险函数。
3. 算法:⽤什么样的算法求解最优模型。⽐如梯度下降
⼆、正则化的作⽤是选择经验风险与模型复杂度同时较⼩的模型
从贝叶斯估计⾓度看,正则化项对应于模型的先验概率。假设复杂的模型有较⼩的先验概率。简单的模型有较⼤的先验概率。
三、⽣成模型和判别模型
⽣成模型:由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型
P(Y|X)=P(X,Y) P(X)
典型的⽣成模型:朴素贝叶斯,HMM.
判别模型:由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型。
典型的判别模型:k近邻,感知机,决策树,LR,SVM,条件随机场。
四、第⼀章习题
正则化是结构风险最小化策略的实现1.2通过经验风险最⼩化推导极⼤似然估计,证明模型是条件概率分布,损失函数是对数损失函数时,经验风险最⼩化等价于极⼤似然估计。
经验风险最⼩化即求解下列最优化问题:
当模型是条件概率分布,损失函数是对数损失函数时,上述问题等价于:
考虑到N是常数,因此,上述上述问题⼜等价于:
这就是极⼤似然估计。
Processing math: 100%

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。