1 人工神经网络概述
人工神经网络(Artificial Neural Networks, ANNs)作为机器学习领域非常经典和实用的学习算法,在很多应用领域已经得到了广泛应用. 1943年, W.S. McCulloch和W. Pitts开创性的提出了一种服从兴奋和抑制变化的M-P模型.1969年, M. Minsky等人在充分考虑已有的神经网络系统的优劣点之后,在撰写的《Perceptron》中指出了已有感知器在处理一些具体问题中的不足之处. J. J.Hopfield在其构建的网络模型中引入了“计算能量”概念,并且对构建网络进行了稳定性分析,极大地推进了神经计算的发展.如今,人工神经网络已经有自组织映射、反馈网络和Hopfield网络等近40种模型,每种网络模型都有着各自的特点.人工神经网络的研究已经得到许多学者的广泛关注,作为人工智能和机器学习的一个重要的组成部分,相应的网络结构和优化算法也日趋完善.
人工神经网络是利用仿生学原理构建的用于信息处理的数学模型,能够很好的模拟大脑神经系统的信息传播机制.该网络模型是按照一定的规律由许多隐层节点(神经元)相互连接而成,通过神经元相互作用的动态过程来完成信息处理.每个节点处均设置有一个加和器和一个激活函数(Activation Function),相邻隐层之间的节点通过权值(连接权)连接.这种网络通过增加隐层数和每层神经元个数来提高网络复杂程度,并通过调整相应的连接权值来达到处理信息的目的.在大
多数网络模型中,节点间的权值是借助特定的优化算法,通过迭代的方式来最终确定的.网络的迭代通常是在达到一定的训练精度或者一定的迭代次数上限时终止.于此同时,网络的连接权值也最终确定,该过程也可以认为是构造的人工神经网络的“记忆”过程.这样就达到了用网络参数学习的方法来模拟给定样本输入和输出之间的潜在规律的效果,然后利用已得到的网络对该类型的其它数据进行预测,也称之为网络的泛化过程.
以下列举了神经网络的几个特征:
(1)自适应和自组织能力:在网络参数的优化过程中,通过特定的算法来调节连接权,从而达到学习样本输入和输出之间潜在关系的目的,并利用训练得到的网络,对同类型的测试样本输出进行预测.
(2)泛化能力:如果选取的训练样本分布比较均匀,并且数量足够.一般情况下,得到的网络就有很好的预测能力和泛化效果.
(3)非线性映射能力:在其他的经典方法中,处理复杂问题(特别是已知信息量较少的情况下)时,效果欠佳.而神经网络中,特别是在选取适当的激活函数的情况下,可以再对未知的样本输入和输出之间潜在关系没有太多了解的情况下,达到很好的稳定的泛化效果.
正则化是结构风险最小化策略的实现(4)高度并行性:该特点并未得到所有学者的肯定,但是人工神经网络是利用仿生学原理,从生物神经系统的信息传播机制抽象得到的数学模型.人在日常生活中可以同时去做许多事,从模拟的层面来讲,高度并行性也应该能够在人工神经网络的工作机制中得到体现.
2 ELM 算法概述
由于传统的人工神经网络中,网络的隐层节点参数是通过一定的迭代算法进行多次优化并最终确定的。这些迭代步骤往往会使参数的训练过程占用大量的时间,并且,例如BP算法很容易产生局部最优解,从而使网络训练过程的效率得不到保证。为增强构建网络的整体性能, 2004年南洋理工大学黄广斌Huang G.B.副教授等人提出了ELM算法。极限学习机(ELM Extreme Learning Machine)是一种快速的的单隐层神经网络(SLFN)训练算法(见注释1示意图)。该算法的特点是在网络参数的确定过程中,隐层节点参数(见注释2)随机选取,在训练过程中无需调节,只需要设置隐含层神经元的个数,便可以获得唯一的最优解;而网络的外权(即输出权值)是通过最小化平方损失函数得到的最小二乘解(最终化归成求解一个矩阵的 Moore-Penrose 广义逆(见注释7)问题).这样网络参数的确定过程中无需任何迭代步骤,从而大大降低了网络参数的调节时间。与传统的训练方法相比,该方法具有学习速度快、泛化性能好等优点。(鲁棒极限学习机算法见注释3)
该网络在近几年已经得到了广泛关注.
(黄广斌其他描述,见注释4;5)
以下介绍ELM算法的网络结构和工作原理.
针对训练数据样本(x, t), 具有 L 个隐层神经元的单隐层前向神经网络的输出函数表达式为:
其中ai和bi为隐层节点参数, βi表示连接第j个隐层和网络输出之间的外权,G(ai, bi, x) 表示第 j 个隐层对应于样本 x 的隐层节点输出. 针对加法型的隐层节点,G(ai, bi, x) 的表达式为
其中 g : R → R 为激活函数, ai· x 代表内权向量 ai和样本x在 Rn中的内积.针对RBF(径向基函数神经网络)型的隐层节点, G(ai, bi, x) 的表达式为
其中 g : R → R 为激活函数. ai和bi (bi> 0) 分别表示第 i 个径向基函数 (RBF) 节点的中心和影响因子.
考虑N个互异的数据样本 {(xi, ti)}Ni=1⊂ Rn× Rm,如果以个具有L个隐层神经元的单隐层神经网络可以以零误差逼近这N个互异的数据样本,也就是说,存在ai, bi和 βi, i = 1, · · · , L, 使得
公式(1.4)可以简记为
其中
H叫做隐层输出矩阵,相应的第i列表示第i隐层元对应于输入x1, x2, · · · , xN的输出量,第j行表示所有的隐层元对应于输入xj的输出量.
然而,在多数情况下,由于隐层节点个数远小于互异的训练样本个数(L ≪ N).从而使得构建的具有L个隐层神经元的单隐层神经网络以零误差逼近这N个互异的数据样本难以实现,对应于训练样本的网络输出和实际输出之间的误差也随之产生.在这种情况下,公式(1.5)可以改写为
其中
定义平方损失函数
公式(1.7)可以写成如下表达式:
则网络参数的训练问题转化为最小化平方损失函数的问题,也就是说,寻最小二乘解 βˆ, 使得
其中 || · || 表示 2 范数(见注释6). 在隐层输出为列满秩的情况下, 利用 Moore-penrose 广义逆(见注释7)可以得到

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。