第22卷第1期海军航空工程学院学报
Vol.22No.12007年1月
JOURNAL OF NAVAL AERONAUTICAL ENGINEERING INSTITUTE Jan.2007
收稿日期:2006-08-23
作者简介:曲东才(1964-),男,副教授,博士.
增强神经网络辨识模型泛化能力的研究
曲东才
(海军航空工程学院控制工程系,山东烟台,264001)
要:神经网络(Art ifi cial Neural Net work ,ANN )辨识模型的泛化能力是其最主要的性能之一,增强A NN
模型的泛化能力也是近年来国内外有关专家学者研究的重点问题。大量研究表明,A NN 模型泛化能力的改善与很多因素相关联,其中恰当的性能指标函数设计是一个重要影响因素。文中在分析常见的基于均方误差最小原则的性能指标函数基础上,通过加入ANN 辨识模型权值间的延迟信息,进而获得一种改进型性能指标函数。通过仿真,验证了所设计的改进型性能指标函数对增强ANN 辨识模型的泛化能力是有效的。关键词:神经网络;辨识模型;泛化能力;性能指标函数;仿真中图分类号:TP 183
文献标识码:A
0引言
神经网络(Artificial Neural Network ,ANN )辨识模型泛化能力(Generalization Abi lity )的基本涵义是指经过学习后的ANN 辨识模型,对不包括在训练样本集(但具有同一分布形式)中的测试样本或工作样本仍具有正确反应能力,即在采用少量训练样本对ANN 模型训练后,ANN 模型便可对未经训练的测试或工作样本数据给出正确输出,或其输出能满足求解问题的精度要求[1]。
由于未经学习和训练的样本数据总是大量存在的,因此ANN 模型泛化能力的强弱变得尤为重要。对系统辨识和智能控制系统来讲,一个泛化能力良好的ANN 辨识模型对提高系统辨识及智能控制系统设计具有重要意义。可以说,没有泛化能力或泛化能力较弱的ANN 模型没有任何使用价值。因此近年来,就如何提高ANN 模型泛化能力问题也成为国内外有关专家学者研究的重点问题之一,并取得了一些研究进展。
但综合起来,所得到的大部分成果都局限于定性分析的理论层面[1]。实际上,ANN 辨识模型泛化能力的强弱与许多因素有关,是个非常复杂的问题。本文主要从性能指标函数形式的设计上进行重点研究,并给出一些定量仿真结果,供有关人员参考。
1泛化能力与其结构、训练方法及性能指标
函数关系分析
对ANN 模型的训练不是简单的让其记忆已学习过的训练样本,主要是通过训练样本的学习,使其发现和恢复其隐含在训练样本中的有关环境本身的内在规律性,从而可对测试或工作样本给出正确输出。要达到该目的,必须对影响ANN 泛化能力的主要因素,诸如ANN 模型的结构形式、训练方法、性能指标函数的设计及其复杂度、训练样本的数量和质量、初始权值等问题进行深入研究。目前对这些问题的研究成果大多停留在定性分析层面,定量研究较少
[1-5]
现仅对ANN 模型的泛化能力与其网络结构、训练方法及性能指标函数的设计关系作简要分析。ANN 模型泛化能力与网络结构密切相关,若ANN 模型的结构参数大小远小于训练样本集,则发生样本过拟合(
Overfitting )的机会可能变小,这对提高网络泛化能力是有利的。相反,若训练样本过多,将增加ANN 学习系统噪声的概率,如采用常用的均方误差最小的性能指标来训练网络,并过分追求训练集内的误差最小化,则ANN 会记住某些噪声或个别特例,出现过拟合现象,而未能学到真正的系统规律,从而降低网络的泛化能力。遗憾的是至今并没有一种成熟理论来指导如何设计具有合适参
海军航空工程学院学报2007年第1期110
数规模的网络结构,大多是基于所解决问题的难易程度,依靠经验试凑,或通过设计某种性能指标函数,进行仿真,从中选择误差较小的网络结构[1-3,5-6]。
采用一种合适的ANN模型训练方法对提高其泛化能力也是有效的。如采用“正则化法”、“最优停止训练法”(或称“提前停止训练法”)[7-9]等训练方法对网络进行训练,则可提高ANN模型泛化能力。目前通常设计基于均方误差最小的性能指标函数,该函数体现了期望响应与实际响应之间的距离,但由于从有限样本中恢复一个函数的解实际上有无穷多个,即该问题通常是不适定的(Ill-Posed),而“正则化法”就是在标准误差项基础上,增加一个限制逼近函数复杂性的正则化项。该正则化项将在保持学习精度的前提下,对网络结构进行合理简化,进而提高网络泛化能力。通过贝叶斯分析,从先验分布角度看,在赋予权值参数的性能指标函数以先验概率意义后,其最小化等同于权值参数后验概率的最大化[10]。常用的正则化项形式与ANN权值的先验分布的对应关系通常采用Gaussian、Laplace、Cauchy分布等来描述,
而这些先验分布,分析和描述复杂,计算量较大,且是否满足实际分布规律还要根据具体问题具体分析。
“最优停止训练法”的基本思想是:首先将样本集合理分成训练样本集和验证样本集或测试集(测试集可选),然后采用训练样本集对ANN进行训练,并使某种性能指标函数最小,而验证样本集用于在ANN训练时对其监控。在ANN训练初始阶段,一般验证误差会随着训练误差减小而减小,但如果ANN模型开始进入过度训练时,验证误差就会逐渐增大,当验证误差增大到一定程度时,ANN模型训练提前停止,这时训练函数返回当验证误差取最小值时的ANN模型。“最优停止训练法”实际上是一种隐式的正则化法[11,12],它倾向于设计低复杂性网络,可提高ANN模型的泛化能力。该训练方法的关键是确定合适的停止训练点,因此要合理划分训练样本集和验证样本集,但其合理性不易控制。目前其样本集一般通过仿真方法来划分,其合理性采用计算的测试与验证误差来评价。若测试误差与验证误差分别达到最小值时的训练步数差别很大,或两者曲线变化趋势差别较大,则说明样本集划分不合理。此外,“最优停止训练法”需采用尽可能涵盖整个过程的训练样本来对ANN进行训练,同时要选择有代表性的样本测试集进行测试,对具有多变量的、未知的、可变的非线性系统,显然这些工作的完成存在较大困难。
2改进型性能指标函数设计
通过对现有的ANN训练算法分析发现,在训练ANN时,绝大多数算法是通过寻优搜索方向及优化步长,
使基于某种误差最小的性能指标函数取得极小值,如在多层前向网络(BP MFN,Mu ltilayer Feed forward Network)模型中广泛应用的BP算法,其BP MFN模型的函数逼近功能的实现,实际就是通过对BP MFN模型进行训练,建立了一个从训练样本集到网络权值空间的映射,实现q
p
Z的映射,其中]}
,
,1
)(
),
(
{[P
i
i y
i u
Z P=
=是指定的训练样本集,q是网络权值集合q的预测值。即BP算法的基本策略就是使某种形式的误差函数极小化,大多是基于式(1)的均方误差函数最小原则:
==
-
=
N
i
N
i
L
p
i
p
i
p
L
T
y
d
N
Z
J
11
)
)(
(
)
())
(
(
2
1
)
,
(q,(1)式中:)()()(
)
(t
y
d L
p
i
p
i
、分别是在第p个训练模式下ANN输出层第i个输出神经元的期望输出和实际输出;N L是网络输出层神经元数目;N为总的训练样本数。
在经过某种最小化迭代规则,如式(2):
)
(
)
(
)
(
)1
(i
i
i
i s
h
q
q+
正则化可以产生稀疏权值=
+,(2)式中:)(i
q为当前迭代的权值空间;)(i s为搜索方向;
)(i
h为搜索步长。
得到最优的网络权值集,如式(3):
)
,(
min
arg P
P
Z
J q
q
q
=。(3)虽然ANN模型在均方误差最小原则下,对训练样本数据得到了较好拟合,但对没有训练的测试或
工作样本集的拟合性能并不都很理想,有时甚至误差还很大,即其泛化能力还有待提高。为此,基于使网络结构参数尽可能简化的考虑,如在现有性能指标函数基础上,加入一个合适的权值间延迟信息,即增加一个小的权值延迟时间e,那么相当于给大量的不同量值的网络权值进行了加权,这样会使某些冗余权值通过延迟信息的加权后,得到衰减变小,进而得到剪除,从而使网络结构获得精简和优化,而结构精简和优化的网络模型,其泛化能力必然得到提高。
实际上,也可认为这是给输入样本集间接加入了一种噪声,而在输入噪声标准差较小时,等价于
总第91期曲东才:增强神经网络辨识模型泛化能力的研究
111
ANN 结构设计的正则化方法[13
,14]
(正则化系数与
噪声标准差有关),其产生的附加惩罚项将产生平滑效应,进而避免过拟合,而产生光滑的输入输出曲线。可见加入网络权值间延迟信息,可提高网络泛化能力
[4,5,15]
。为此,通过对原有网络性能指标函
数进行改进,得到增加权值间延迟信息的改进型性能指标函数,其形式如式(4)所示:
,eq q q T
1)()()(T )()()(21))(())((21),(N
t y d t y d N Z J N
i L P i P i L P i P i P P +--=
=(4)
式中:N 为总的训练样本数;e 为网络权值参数间的延迟时间,可取对角矩阵,e=aI 。
测试误差是评价ANN 模型泛化能力的一种重要量化指标,但如没有一个可用的测试集时,那么可直接采用训练集的FPE (Final Prediction Error estimate )估计,即泛化误差FPE 估计。
如测试集可用,那么其F PE 估计也可提供ANN 泛化能力的重要信息。当性能指标函数采用没有正则化的式(1)形式时,可用式(5)对泛化误差FPE 估计进行仿真计算。反之,则采用式(6)对FPE 估计进行仿真计算
[16]
。)(W J N N J F P E m
m
-+=
(5))(22
11
W J N N J FPE h h h -++=
(6)
这里:
++=
--111)1
)()(()1)()((e e h N
W R W R N W R W R tr (7)+=-12)1
)()((e h N W R W R tr 。(8)
式中:W 为网络权值;m 为网络总权值参数;N 为样本总数;h 1和h 2是有效的网络参数,且h 1h 2;
)(W R 为近似Hessian 矩阵;tr 为取其矩阵的迹。
=--=
N
N L P i
P i
L P i
P i
t y d t y d N
W J 1
)
()()
(T )
()()
())(())((21)(。(9)
与FPE 估计相比,基于CV (Cross Valid ation )改进算法的留一测试法,即抽样估计LOO (Leave-one-out es timate ),可提供更精确的ANN 泛化能力估计。LOO 采用式(10)进行仿真计算[5
,17]
==
-)})(),({\,(min arg )(21
1t y t u Z W W W J N J N
N W
Loo 。
(10)
3仿真研究
获得训练/测试样本集:首先设计一个3层结构的BP MFN 网络(隐层数为1),使该BP MFN 网络逼近非线性函数
+=x x x f 5
.23cos 8.05.12sin
7.0)(p p 。其中,网络隐层传递函数取双曲正切函数,输出层传递函数取线性函数。同时为提高网络模型的抗干扰性,在非线性函数中加入均值为0、方差为0.2的高斯噪声,然后进行仿真计算。基于该函数,可选择训练/测试样本各300组,如图1所示。
图1函数f(x)的训练/测试样本
仿真:对式(4),取e=0.02I ,即在网络权值间加入0.02s 的固定延迟时间。
通过仿真计算后,求取其训练误差、测试误差、泛化误差FPE 估计、泛化误差的抽样估计LOO
[17,
18]
并与无延迟网络的相应误差进行比较,其仿真数据如表1所示。
为进一步观察ANN 模型权值间的延迟信息e 对
网络泛化能力的影响,对具有不同e 的ANN 结构模型进行了仿真,同时为比较不同隐层维数对非线性函数的辨识效果,对隐层维数分别设置了15、10、6维的网络结构。其ANN 模型的训练/测试误差与权值间延迟信息e 的仿真曲线见图2~4。
1234567
-2
-1
012训练样本数据
1234567
-2-10
12测试样本数据
训练样本数据测试样本数据
第22卷第1期海军航空工程学院学报
Vol.22No.12007年1月
JOURNAL OF NAVAL AERONAUTICAL ENGINEERING INSTITUTE
Jan.2007
表1ANN 模型泛化能力仿真计算数据表
隐层维数
15
10
6
隐层之间有/无延迟无延迟有延迟无延迟有延迟无延迟有延迟训练误差0.0163290.0186570.0173480.0189930.0188960.019096测试误差
0.0247890.0218530.0244470.0217640.020770.021037泛化误差FPE 估计0.0222440.0211350.0213470.0212940.0214510.021022泛化误差LOO 估计
0.021733
0.021141
0.021098
0.021276
0.021294
0.021034
图2训练/测试误差与e 的仿真曲线(n=15)图3训练/测试误差与e 的仿真曲线(n=10)
图4训练/测试误差与e 的仿真曲线(n=6)
4结论
通过以上分析及仿真计算,采用加入权值间延迟信息的改进型性能指标函数后,其ANN 辨识模型的测试误差、FPE 估计误差、LOO 误差绝大部分得到减小,网络泛化能力得以提高,即改进型性能指标函数对提高网络的泛化能力是有效的;但从仿真曲线也看到,需要选择合适的e 参数,对提高泛化能力才有效;作为一种增强ANN 模型泛化能力的方法,在如何选择合适的e 参数方面,目前主要是依据经验及相关仿真手段来确定,这样需要具备较丰富的经验及繁杂的仿真试凑,因此还需要进一步从理论上作深入探讨。
参考文献:
[1]魏海坤.神经网络结构设计的理论与方法[M].北京:
国防工业出版社,2005:88-110
x f (x)
10
-6
10
-5
10
-4
10
-3
10
-2
10
-1
10
00.02
0.040.060.080.10.120.140.160.18
0.2权值延迟参数
标准化
SSE x =训练样本
,
o =测试样本
x
f(x)
10
-610
-5
10
-4
10
-3
10
-2
10
-
110
0.02
0.040.06
0.08
0.10.12
0.14
0.16
0.18权值延迟参数
标准化
S SE x =训练样本,
o =测试样本
10-6
10-5
10-4
10-3
10-2
10-1
100
0.01
0.02
0.030.040.05
0.06
0.07
0.08
权值延迟参数
标准化
SSE x =训练样本,o =测试样本
x
f(x)
总第91期曲东才:增强神经网络辨识模型泛化能力的研究113
[2]阎平凡.人工神经网络的容量、学习与计算复杂性[J].
电子学报,1995,23(4):66-67
[3]阎平凡,张长水.人工神经网络与模拟进化计算[M].
北京:清华大学出版社,2001:37-64
[4]张乃尧,阎平凡.神经网络与模糊控制[M].北京:清
华大学出版社,1998:104-120
[5]Larsen J,Hansen L K.Generalization Performance of
Regularized Neural Network Models[C]//Proc.of the IEEE Workshop on Neural networks for Signal Proc.IV, Piscataway,New Jersey,1994:42-51
[6]Mass W.Neural Nets With superlinear VC-dimension[J].
Neural Computation,1994(6):877-884
[7]Girosi F,Jones M,Poggio T.Regularization Theory and
Neural Network Architecture[J].Neural Computation, 1995(7):219-269
[8]Williams P M.Bayesian regularization and pruning
using a laplace prior[J].Neural Computation, 1995(7):117-143
[9]Sjoberg J,Ljung L.Overtraining,Regularization,and
Searching for Minimum in Neural Networks[C]// Preprint Adaptive Systems in Control and Signal Processing,Grenoble,France.1992:669-674 [10]Mackay DJC.A practical Bayesian framewo
rk for
Backpropagation networks[J].Neural Computation, 1992,4(3):448-472
[11]Cataltepe Z,Abu-Mostafa Y S,Magdon-Ismail M.No
Free Lunch for Early Stopping[J].Neural Computation, 1999(11):995-1009[12]Sjoberg J,Ljung L.Overtraining,Regularization,and
Searching for a Minimum[J].With application to Neural Networks.International Journal of Control, 1995,62(6):1391-1407
[13]Bishop C M.Training with noise is equivalent to
Tikhonov regularization[J].Neural Computation, 1995,7(3):108-116
[14]An G.The effect of adding noise during
backpropagation training on a generalization performance[J].Neural Computation,1996,8(3):643-671
[15]Krogh A,Hertz J.A Simple Weight Decay Can
Improve Generalization[J].NIPS4,1992(12):950-957 [16]Ljung L.System Identification–Theory for the User[M].
Prentice-Hall,1987:89-132
[17]Norgaard M,Ravn O,Poulsen N K,et al.Neural
networks for Modelling and Control of Dynamic Systems.Springer-Verlag[M].London,UK,2000:95-178
[18]Norgaard M.Neural Network Based System
Identification Toolbox[R].Department of Automation, Technical University of Denmark.2000
Research on enhanced generalization ability
for the ANN’s identification model
QU Dongc ai
(Department of Control Engineering,NAEI,Yantai,Shandong,264001)
Abstract:Generalization ability of Artificial Neural Network(ANN)identification model is one of most main performance,also is one of key questions researched by domestic and foreign concerned experts in the recent years.Generalization ability of ANN’s identification model concerns with many factors,and appropriate designed performance index function is an important influence factor.After common performance index function is analyzed based on the mean error function smallest principle,a kind of improved performance index function is obtained through joined the power values to the time delay information in the paper.The massive simulation computation shows that improved performance index function is effective to enhance generalization ability of ANN models.
Key words:Artificial Neural Network(ANN);identification model;generalization ability;performance index function;simulation

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。