在线学习算法的一致性分析概论
1统计学习理论的发展历史及数学基础
统计学习理论是机器学习的一个重要分支,它为人们系统地研究小样本情况下机器学习问题提供有力的理论基础。它的统计推理规则不仅考虑了对渐近性能的要求,而且希望在现有有限信息的条件下得到最优结果。
统计学习理论的基本内容诞生于20世纪六、七十年代,到90年代中期发展到比较成熟。从六、七十年代开始,Vapnik等人致力于此方面研究,90年代中期,Vapnik等又提出了用于模式识别的支持向量机(SVM)见参考文献[1]、[2],还产生了经验风险最小化原则(Empirical Risk Minimizing,ERM)的理论,解决不适定问题(ill-posed problem)的理论,算法复杂度的思想等,此时统计学习理论获得了最大的发展。
机器核学习的假设空间一般采用再生核Hilbert空间。T Evgeniou,M Pontil和T Poggio说明了调控网络建构和支持向量机是解决学习问题的技巧,特别是由稀疏数据逼近多维函数的回归问
题。
一般情况下对最小二乘正则化学习算法的一致性进行研究,一致性就是比较接近的程度。其主要思想就是将误差划分为逼近误差和样本误差。逼近误差主要依赖于假设空间的选择,与样本无关,一般用逼近理论解决;样本误差的估计却是一致性分析的主要工作,常常涉及覆盖数,Markov链,样本间的相关性处理等,这里主要研究正则化在线学习算法。
2正则化在线学习算法的一致性分析
2.1正则化在线学习算法
正则化在线学习算法,又是一种递归算法。再生核Hilbert空间的在线学习算法为=-((()-)+),满足:(1)对每一(,)的选取是一致独立同分布,且依赖于;(2)正则化参数≥0;(3)步长>0。
可以看出在线学习算法的是取值于再生核Hilbert空间上的随机变量且依赖于(),即∈{,:1≤≤},上面的集合为再生核Hilbert空间的一个有限维子空间。
2.4 完全在线学习算法
哪种正则化方式具有稀疏性对于完全在线学习算法,它是基于Tikhonov正则化机制,以凸损失函数和再生核Hilbert空间为背景,关键是在每一步学习中,正则化参数改变,而以往的半在线算法的正则化参数是固定的,将由正则化参数的变化引起的误差称为漂移误差,同时利用在误差估计分析中损失函数的凸性是来证明算法的一致性。
2.5 最小二乘在线梯度下降算法
对于再生核Hilbert空间中的最小二乘在线梯度下降算法,其无正则化项,即=0。我们主要利用经典的容量无关方法导出误差界和收敛结果,虽然没有确定的再生核Hilbert空间正则项,但是通过选择合适的步长,也能够得到较好的误差收敛速度。利用 和的性质估计‖-‖=()-(),选取两种不同形式的步长,一种是普通的多项式衰退系列形式{ =(),∈}, ∈(0,1),第二种为{ = :∈}, = ()依赖于迭代步数,因此 ()在学习速度 和迭代步数之间有一个权衡,它的选择保证了算法的收敛,分析的关键点为一般误差和积累的样本误差的权值关系。
3 总结
在线学习算法是一种新产生的算法,对于不同的抽样背景,我们有不同的证明算法一致性的方法。但是当样本是弱相关的情况下,证明一致性便增加了很大的难度,尤其是涉及到关于样本点求期望时,所以以上我们所讨论的正则化在线学习算法的共同点是都选取一致独立同分布的样本序列来推导误差界。
参考文献:
[1] V Vapnik.The Nature of Statistical Learning Theory[M].New York:Springer,1995.
[2] V Vapnik.Statistical Learning Theory[M].John Wiley & Sons,1998.
[3] T Evgeniou,M Pontil,T Poggio.Regularization networks and support vector machines [J].Advances in Computational Mathmatics,2000(13):1-50.
[4] F Cucker,D X Zhou.Learning Theory: An Approximation Theory Viewpoint[M].Cam-bridge University Press,2007.
[5] H W Sun,Q Wu.Application of integral operator for regularized least square regression[J].Mathematical and Computer Modelling,2009,49(1):276-285.
[6] E De Vito,A Caponnetto,L Rosasco.Model selection for regularized least squares algorithm in learning theory,Found.Comput.Math.2005(5):59-85.
[7] T Zhang.Leave-one-out bounds for kernel methods[J].Neural Computation,2003,15(6):1397-1437.
[8] Q Wu,Y M Ying,D X Zhou.Learning rates of least-square regularized regression[J].Foundation of Computational Mathematics,2006,6(2):171-192.
[9] S Smale,D X Zhou.Learning theory estimates via integral operators and their approximations[J].Constructive Approximation,2007,26(2):153-172.
[10] S Smale,D X Zhou.Shannon sampling and function reconstruction from point values[J].Bulletin of the American Mathematical Society,2004(41):279-305.
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论