Advances in Applied Mathematics 应用数学进展, 2023, 12(3), 1224-1230 Published Online March 2023 in Hans. /journal/aam /10.12677/aam.2023.123124
多任务Kriging 变量选择的研究与 应用
纪 洁,邹晨晨*
青岛大学数学与统计学院,山东 青岛
收稿日期:2023年2月21日;录用日期:2023年3月20日;发布日期:2023年3月27日正则化一个5 5随机矩阵
摘 要
本文研究多任务Kriging 模型的变量选择问题,并给出多种稀疏化惩罚下多任务Kriging 的变量选择算法。数值模拟及实例分析表明,相比单任务的Kriging 变量选择,多任务模式能显著提高计算效率而不失模型拟合的准确性;相比LMC 及卷积模型,多任务稀疏化Kriging 能有效提取任务间的共性信息,极大节约计算成本同时提高预测精度。
关键词
多响应Kriging 模型,模型选择,多任务学习,惩罚函数
Research and Application on Variable Selection in Multi-Task Kriging Model
Jie Ji, Chenchen Zou *
School of Mathematics and Statistics, Qingdao University, Qingdao Shandong
Received: Feb. 21st , 2023; accepted: Mar. 20th , 2023; published: Mar. 27th , 2023
Abstract
We study the variable selection in multi-task Kriging model and develop the algorithms for com-monly used penalizations. In numerical simulations, our multi-task penalized approach achieves higher computational efficiency without loss of accuracy and stability compared to the single-task approach. I
n real data application, multi-task penalized Kriging effectively captures shared features among tasks and thus reduces computational burden compared with the LMC and CONV models.
*
通讯作者。
纪洁,邹晨晨
Keywords
Multi-Response Kriging Model, Variable Selection, Multi-Task Learning, Penalization
Copyright © 2023 by author(s) and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
/licenses/by/4.0/
1. 引言
计算机试验通过建立相对低成本的元模型来模拟复杂物理问题中的输入输出关系[1]。Kriging 模型作为一种经典的元模型,其变量选择被广泛的研究和应用[2]。研究者先后提出Lasso K riging [3],惩罚盲Kriging [4],惩罚盲似然Kriging [5] [6],随机搜索盲Kriging [7]及稀疏回归Kriging 模型[8]等。
目前变量选择的研究普遍基于单任务Kriging 模型。对于具有多响应的系统,逐个应用单任务式的变量筛选,一方面容易忽略任务间的关联及共享信息,另一方面未能利用多任务学习计算效率上的优势。多任务的Kriging 模型受到越来越多的关注,但截至目前,多任务Kriging 变量选择的研究相对有限[9]。
变量选择对于多任务Kriging 模型的意义不仅限于核心特征筛选。多任务学习在Kriging 趋势函数部分的正则化惩罚可有效提取任务间共享信息,相比常用于处理多任务高斯过程的线性协同区域模型 (LMC) [10]和卷积模型(CONV) [11],稀疏化的多任务Kriging 能以更低的计算成本拟合任务间的关联性,同时具备相当甚至更好的预测精度。
本文研究多任务Kriging 模型趋势函数部分的变量选择方法。内容安排如下:第二部分介绍多任务 Kriging 模型;第三部分介绍多任务Kriging 模型变量选择算法;第四部分为数值模拟研究;第五部分为实例应用及分析;第六部分为研究总结。
2. 多任务Kriging 模型简述
设系统中有m 个输出如下:
()()()T ,1,,t t t Y z t m =+=x f x x β (1)
其中()()()()T
1,,p f f =f x x x 是已知的基函数,()T
1,,t t tp ββ= β是待估的系数向量,()t z x 是零均值、
相互独立的高斯过程()1,,t m = 。对于任意给定的两点x 和′x ,()t Y x 和()t Y ′x 的协方差为
()()()()()()()()2,cov ,cov ,,t t t t t t t Y z K Y z R σ′′′′===x x x x x x x x (2)
其中()(
)
1,exp d
t th h h h R x x θ′=′=−−∑x x ,t θ是自相关系数。本文采取约束极大似然法估计参数,对数似然函数为
()()()()T 111ln ln 2m
t t t t t t t t t L −= =−−−+
∑Y F X K Y F X K ββ
(3)
其中,()
T
1,,t
t t tn =X x x 表示t n 组观测点的输入,()(),1,,1,,;t j ti t f x i n j p =
=
=F X 表示t n p ×的基函
数矩阵,t K 表示第t 个任务t t n n ×的协方差矩阵,1,,t m = 。给定t θ,最大化(3)式得到()
2,t t σβ的估计
()()()()()1
T
T 11ˆt t t t t t t t
−−−=F X K F X F X K Y θβ (4)
纪洁,邹晨晨
()()()
()(
)T
12ˆˆˆt t t t
t t t t t t
n σ
−−−=
Y F X K Y F X ββθ
(5)
将(4) (5)代入(3)式关于t θ最大化可得
()()()(){}
2
T 1ˆˆ
arg min ln ln ln t t t t
t t t t t n p θθσ−=−++K F X K F X θ
(6)
在预测点∗x ,最佳线性无偏估计为
()
()
()()
T T 1ˆˆˆ,1,,t t t
t t t t y x f t m ∗∗∗−=+−=x k K Y F X ββ (7)
其中,
()
*1*,R t n t t t ×=∈k K X x ,1,,t m = 。 3. 多任务Kriging 模型变量选择算法
本文通过惩罚似然法估计模型参数。记()1,,m = βββ,();P λβ表示由超参数λ调整的惩罚函数,如Multi-task Lasso [12]、L 21-norm [13]及Dirty Model [14]。多任务Kriging 的变量选择算法步骤如下:
算法3.1
Step 1:设置初值()0ˆt σ,()0ˆth θ,1,,h d = ,代入(2)式得到协方差矩阵t
K ,1,,t m = ; Step 2:Cholesky 分解1T t t t −=K C C ,令t t t =Y C Y ,()t t t
=F C F X ,最小化下式求解()1ˆt β,1,,t m = , ()22
1
;m
t t t t
P =−+∑
Y F λββ (8)
λ利用交叉验证调节;
Step 3:将()1ˆt
β代入(3)、(6)式求得更新后的()1ˆt σ,()1ˆt θ,1,,t m = ; Step 4:重复Step 2,Step 3直至收敛。
Multi-task Lasso [12]通过最小化下式得到ˆt
β,1,,t m = 。 2
1211
min t
m
m
t t t t t
t λ==−+∑
∑Y F βββ (9)
其中,11p
t tj j β==∑β,对应修改Step 2里()11;m
t t P λλ==∑ββ即可。
L 21-norm 方法[13]对β逐行稀疏化筛选,为m 个任务选择共享特征,同时实现下述目标函数:
22
1
min t m
m
t t t t t
λ==−+∑
Y F ββ
(10)
对应修改
Step 2里();m
t P λλ=
=∑β即可。 Dirty M odel 方法[14]:Dirty Mo del 的关键思想是将β分解为P 和Q 两个分量,1λ控制P 上的稀疏正则化,2λ控制Q 上的稀疏正则化,鼓励所有任务选择相同的一组特征(通过组稀疏组件),目标函数表示为:
()2121,1
21
min t
m
t t t t t P P Q Q λλ∞=−+++∑Y F β (11) 其中111,1
1,max ,m p
j tj t j P P Q Q =
=∞∞
==∑∑,对应修改Step 2里()121,1;P P
Q λλλ∞
=+β。
4. 数值模拟研究
我们对单任务Lasso 惩罚(Lasso),多任务Lasso 惩罚(MTL),L 21-norm 惩罚(L 21)以及Dirty M odel 惩
纪洁,邹晨晨
罚(Dirty)下的Kriging 模型,拟合效果进行模拟比较,。软件采用MATLAB ,以工具箱MALSAR [15]为主进行多任务计算。基本原理见第三部分。评估从以下5个指标进行:积极变量识别率均值(AEIR)、消极变量识别率均值(IEIR)、模型长度均值(MEAN)、均方根预测误差平均值(MRMSPE)以及均方根预测误差
标准差(sd (RMSPE))。AEIR 越大越好;IEIR ,MRMSPE ,sd (RMSPE)越小越好;MEAN 越接近真实值越好。
模拟:本研究根据以下三种模型生成响应数据,分别是: 模型I :
(),0,11,22,3t 3,1,2t t t t t y x x x z t ββββ=++++=x
(13)
模型II :
()222
,0,11,22,33,41,52,63,1,2t t t t t t t t t y x x x x x x z t βββββββ=+++++++=x
(14)
模型III :
()222,0,11,22,33,41,52,63,712
,813,923,1,2t t t t t t t t t t t t y x x x x x x x x x x x x z t ββββββββββ=++++++++++=
x (15)
其中,()T
18,,x x =x ,对于每个模型,回归系数独立地从[][]20,1010,20−− 随机选择。此外,我们随机选择k k p ρ×,其中1p ρ=是一个模拟参数,相应的回归系数从[][]10,00,10− 中随机选择。()z x 是一个中心平稳多元高斯过程,其相关函数由exp 相关函数
()1
,exp d
t th h h h R x x θ′=
′=
−−
∑x x (16)
给出,参数θ在[0, 2]上随机生成,过程方差被设置为1。
样本从[0, 1]上通过拉丁超立方抽样取得,对于上述设置运行50次,训练样本量设为50,预测样本量设为500,结果见表1。
Table 1. Variable selection on simulated Multi-task Kriging 表1. 模拟多任务Kriging 模型的变量选择
Model
Index Lasso MTL L 21 Dirty I
AEIR 0.7283 1.0000 1.0000 0.9700 IEIR
0.0137 0.0031 0.1107 0.1182 MEAN 1.9500 2.5000 3.1400 3.0500 MRMSPE 1.1006 1.8221 1.5094 1.7584 sd (RMSPE) 0.6457 0.5390 0.5145 0.4825 Time (s) 146 13 14 71 II
AEIR 0.8300 0.8750 1.0000 0.8750 IEIR
0.0501 0.1238 0.1521 0.2083 MEAN 3.8700 4.9700 5.7600 6.0000 MRMSPE 1.7501 1.4841 1.5754 1.4191 sd (RMSPE) 0.7766 0.2445 0.1773 0.2008 Time (s)
138
29
29
86
纪洁,邹晨晨
Continued
III
AEIR 0.8904 0.8796 0.8896 0.8375 IEIR 0.3601 0.2425 0.2819 0.2145 MEAN 19.4300 15.5200 16.7000 13.6500 MRMSPE 1.4086 1.4702 1.6702 1.8292 sd (RMSPE) 0.6352 0.3166 0.3965 0.2908 Time (s) 420 28 30 99
单任务Kriging相比多任务Kriging,预测精度上总体相差不大,多任务对复杂情况表现更稳定,多任务比单任务更省时。
多任务之间比较而言,预测精度上MTL对不同复杂情况的预测更加稳定,而Dirty 和L21模型会随着模型
复杂程度增加,其预测精度均出现越来越差和较大的波动;变量识别率上,三者对积极变量的识别率都在80%以上,对消极变脸的识别率,MTL明显更有优势,这是由于Dirty和L21都有强制为不同的任务选择共同变量的特性,这就会出现在任务间存在差异时共享信息中包含不适用本任务信息的情况,从而导致它们的IEIR相对较高;计算上,Dirty Model的运算时间远高于MTL、L21。
由上表可知,当真实模型为多响应高斯过程时,多任务Kriging模型变量选择能够在保证预测精度的同时减少运算时间。相较于Dirty和L21,MTL更稳定,且更能好地简化模型。
5. 实例分析
我们将MTL模型、LMC模型以及CONV模型用于在伊朗德黑兰370栋住宅公寓数据集[16],进行分析预测,旨在提供一个关于在设计阶段或施工初期估算任何给定城市的新住房价格的代理模型,该模型将显示与新建筑单元销售价格相关的影响因素。每组观测值由27个输入和2个输出组成,其中,输入变量为房地产单元的物理和财务属性(x1~x8)以及相关的经济变量(x9~x27),输出变量为实际销售价格以及实际建筑费用。
我们采用5折交叉验证调节惩罚函数,超过75%的任务中明显不重要的输入包括市颁发的建筑许可证总建筑面积x13,时间分辨率下的贷款利率x19和私营部门在建筑开始时的平均建筑成本x20,房地产单元的物理和财务属性(x1~x8)为显著重要变量,这与Rafiei [16]的研究结果一致。
我们比较MTL、LMC、CONV三种模型在测试集上的均方根预测误差平均值。LMC由Multi-output-Gaussian-Process [17]包实现,CONV由multigp [18]实现,均采用默认设置。MTL的预测效果最好,LMC次之。模型训练时间上,MTL对多个任务的共性提炼相当于模拟高斯过程不同响应间的相关性,相比LMC和CONV对任务间相关性的挖掘方式,大大提高了运算效率,同时预测更加精准(见表2)。
Table 2. The comparison of prediction results and training model time of three models
表2. 三个模型的预测结果及训练模型时间比较
Model Time (s) MRMSPE
MTL 4.210814 302.4467
CONV 6.512412 1011.532
LMC 84.863971 971.2543
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论