第 2 期水 利 水 运 工 程 学 报No. 2 2024 年 4 月HYDRO-SCIENCE AND ENGINEERING Apr. 2024 DOI:10.12170/20230418001
胡江,苏荟. 水工结构变形预测模型构建与解释[J]. 水利水运工程学报,2024(2):125-134. (HU Jiang, SU Hui. Forecasting and analysis of deformation in hydraulic structures[J]. Hydro-Science and Engineering, 2024(2): 125-134. (in Chinese))
水工结构变形预测模型构建与解释
胡江1, 2,苏荟1, 3
(1. 南京水利科学研究院水灾害防御全国重点实验室, 江苏南京210029; 2. 水利部大坝安全管理中心, 江苏南
京210029; 3. 河海大学水利水电学院, 江苏南京210098)
摘要: 现有基于机器学习算法的水工结构安全监控模型结果的可解释性较差。为提高安全监控模型的可解释
性,发展一种基于集成学习算法的水工结构变形预测模型构建与解释方法。简述改进统计模型及随机森林
(RF)、极端梯度提升树(XGBoost)两种常用的集成学习算法,引入沙普利值可加性解释(SHAP)方法实现集成
学习算法模型结果的可解释性,阐述SHAP方法的原理和推导过程。以某运行初期特高拱坝变形数据为例验
证方法的有效性和实用性。结果表明,XGBoost模型具有较高的预测精度,预测集决定系数大于0.982,改进统
计模型精度次之,RF模型精度相对较低;SHAP方法可以分离不同自变量对效应量的影响大小,并能给出全局
和局部的影响机制,实现模型拟合和预测结果的可解释性。提出的方法综合了“机理驱动”和“数据驱动”模
型的优势,可为水工结构运行管理提供决策参考。
关 键 词:水工结构;变形;安全监控;机器学习;集成学习算法;可解释性
中图分类号:TV642 文献标志码:A 文章编号:1009-640X(2024)02-0125-10
变形和渗流等效应量变化规律是水工结构安全性态的直观反映,其安全监控是保障重大水工结构安全运行的重要手段。传统安全监控主要有统计、确定性和混合模型[1]。对于处于稳定期的、自变量影响效应量机制明确的水工结构,基于传统安全监控模型的效应量建模方法可获得较准确的拟合和预测结果,得到了广泛应用。如将重力坝的变形分解为水压、温度和时效等自变量分量,通过理论或数值模拟推导构建变形与自变量的关系式,这类“机理驱动”模型得到了广泛应用[2-3]。然而,对于一些机理复杂、影响因素较多的水工结构的效应量,如蓄水和运行初期特高拱坝的变形,由于坝体温度场未稳定、时效非单调递增等影响,导致传统安全监控模型的精度较低[4]。
机器学习算法为解决复杂条件下安全监控模型构建提供了新思路。作为“数据驱动”方法,机器学习算法直接挖掘数据样本中自变量(如水压、温度和时效)与效应量(如变形和渗流)间的映射关系,从而建立精确的、鲁棒性强的效应量监控模型[5-7]。如冷天培等[8-9]利用贝叶斯方法优化超参数,采用长短期记忆网络预测堆石坝和混凝土坝变形;徐韧等[10]引入极端梯度提升(eXtreme Gradient Boosting, XGBoost)算法,结合基于高斯过程的贝叶斯优化方法,构建了基于高斯过程的XGBoost算法的大坝变形预测模型;胡江等[11]构建了基于传统统计方法以及随机森林(Random Forest, RF)、最小二乘支持向量机和增强回归树等算法的高拱坝变形预测模型,比较了模型的性能。上述应用表明了机器学习算法良好的精度和预测能力,展现了其在水工结构效应量安全监控模型构建方面的优势,但这些应用研究多为“黑盒子”模型,即可以根据自变量较准确地拟合和预测效应量,却无法给出模型结果的解释[12-14]。这一缺陷极大地限制了机器学习算法的推广应用。
正则化项鲁棒性收稿日期:2023-04-18
基金项目:国家自然科学基金资助项目(52179138,51879169,52209165)
作者简介:胡江(1983—),男,湖南衡阳人,正高级工程师,博士,主要从事水工结构老化病害及安全监控研究。
E-mail:***********
集成学习算法是一种重要的数据挖掘方法,可利用多个机器学习算法的组合和集成来解决问题,以提高方法的泛化能力[15-18]。按照基分类器,集成学习算法分为同态和异态两类[19]。其中,同态集成学习算法包括决策树和人工神经网络集成等,有统一、线性和堆融合等方式;异态集成学习包括叠加法(Stacking算法)和元学习法。集成学习算法根据基分类器的生成顺序分为串行、并行和混合拓扑组合。经典的集成学习方法Boosting及其改进的AdaBoosting、GDBT(Gradient Boosting Decision Tree)为串行组合,Bagging及其改进RF则为并行组合,RF基于套袋(Bootstrap Aggregation),对来自子样本的多个决策树结果进行平均。Boosting按顺序生成预测值,反复利用残差中的模式,用弱预测增强模型。XGBoost结合RF和Gadient Boosting的优点,预测误差比单独使用RF和Gadient Boosting低得多。然而,集成学习方法仍为“黑盒子”模型。
对机器学习算法模型结果进行解释,将结果与水工结构工作机理进行对比,可出关键影响因素,并辨识出自变量与效应量间的逻辑关系。为了提高机器学习算法模型的可解释性,胡江[20]通过分析自变量对特高拱坝变形的边际效应,借助部分依赖图,识别了自变量对变形的影响规律,阐明了变形机制;苏燕等[21]利用RF评估各因子的重要性,提高了神经网络模型预测过程中对隐藏状态层级的解释性。总体看,模型结果解释性研究较少。Lundberg等[22]基于博弈论,提出了一类可解释机器学习方法即沙普利可加性解释(Shapley Additive Explanations, SHAP)方法,可用SHAP值量化每个影响因素的贡献,还可从单个观测日给出自变量的影响力和相关性,以反映自变量对效应量的影响规律。可见,SHAP方法有效地统一了全局和局部可解释性,具有良好的应用前景。
为此,针对现有基于机器学习算法构建的安全监控模型结果可解释性较差这一不足,本文简述RF、XGBoost等常用的集成学习算法,以及SHAP方法的原理和推导过程,提出一种基于集成学习算法的水工结构变形安全监控模型构建与解释方法。基于已构建的统计模型[23],以某运行初期特高拱坝变形数据为例,验证提出方法的有效性和实用性。
1基于机理驱动的变形预测方法
以高拱坝变形为例进行说明,其变形主要由水压、温度和时效引起,统计模型可表示为:
δ=δH+δT+δθ+g(1)式中:δ为位移;δH、δT、δθ分别为水压、温度和时效分量;g为常数。
温度对高拱坝变形影响较大,温度因子的选取十分重要。采用实测温度可提高模型精度,此时δT可表
示为:
δT=
M
∑
i=1
b i T i(2)
T i b i
式中:为实测温度;M为温度计的数量;为系数。
采用式(2)表示温度因子的统计模型即为HTT模型(Hydrostatic Temperature Time, HTT)。运行初期的特高拱坝坝前水温垂直热分层显著,且由于封拱后水化热影响坝体混凝土温度回升,坝体温度场非稳定。采用基于主成分的分层聚类方法(Hierarchical Clustering on Principal Component, HCPC)可体现
温度时间序列之间的相似性和差异,能从大量实测温度测点中选择具有代表性的温度时间序列[20]。
δ′T 考虑到主成分可以代表所有温度测点时间序列的变化,也可以采用下式来代表实测温度因子:
δ′T=
N
∑
i=1
b i T′i(3)
T′i
式中:为实测温度的主成分(Principal Component, PC);N为所选主成分的数量。
采用式(3)表示温度因子的统计模型即为HT PC T模型(Hydrostatic-Principal Component based 126水 利 水 运 工 程 学 报2024 年 4 月
Temperature-Time, HT PC T )。
对于运行初期的高拱坝,时效变形受谷幅变形影响显著。Hu 等[23]根据大坝混凝土和围岩的蠕变机制推导了时效变形的解析式,分析了谷幅和时效变形的关系,对于溪洛渡、锦屏一级等谷幅变形幅度较大的特高拱坝,蓄水和运行初期的谷幅和时效变形表现出良好的一致性。因此,为更好反映变形机制,采用谷幅变形来表示时效变形δθ:
δθ=cv
(4)
式中:v 为谷幅变形;c 为系数。
通过式(2)、(4)或式(3)、(4)可更好地描述环境坝体温度的非稳定、谷幅变形等的影响,提高机理驱动模型的精度[20, 23]。
2 集成学习算法模型与结果解释方法
2.1 RF 算法
假设因变量y 有n 个观测值,有k 个自变量与之相关。如图1,在构建分类树的时候,RF 算法采用Bootstrap 重新抽样的方法随机在原数据中选择n 个观测值,有的观测值被选择多次,有的则未被选中。
RF 算法随机从k 个自变量选择部分变量确定分类树节点,每次构建的分类树都可能不一样。一般情况下,RF 算法随机生成几百至几千个分类树,
然后选择重复程度最高的树作为最终模型。决策树的原始参数和树的数量是重要参数。2.2 XGBoost 算法
x i ∈R m y i ∈R m Boosting 算法见图2,作为决策树算法,XGBoost 不受多重共线性的影响。给定具有n 个样本的数据集,存在自变量x i ,自变量有m 个特征即。对于每一个变量,都有相应的因变量y i ,。对于
决策树集成学习算法,模型使用K 个自变量函数的
和来预测因变量y i :
ˆy i =
K ∑k =1
f k (x i ),f k ∈F (5)
f k 式中:为具有叶分数的独立树结构;F 为树的空间。目标使得式(6)最小化:
L =
∑
i
l (ˆy i ,y i )+
∑
k
Ω(f k )
(6)
L 式中:为目标函数;l 为损失函数;Ω为模型复杂度的惩罚项,防止过拟合,且:
Ω(f )=γG +1
2
λ∥ωi ∥2
(7)
γλ式中:G 为叶的数量;ωi 为第i 片叶的分数;为节点切分的难度;为L2正则化系数。
图 1 Bagging 算法
Fig. 1 Bagging learning algorithms
图 2 Boosting 算法
Fig. 2 Boosting learning algorithms
第 2 期
胡 江,等:水工结构变形预测模型构建与解释127
ω∗j 求解式(5)~(7),得到的最优值:
ω∗j =−∑
i ∈I j
∂ˆy t −1l
(y i ,ˆy t −1)
∑i ∈I j ∂2ˆy
t −1l (y i ,ˆy t −1)+λ(8)L ∼t (q )=−1
2G ∑j =1(∑i ∈I j ∂ˆy t −1l (y i ,ˆy t −1))
2∑i ∈I j ∂2ˆy t −1l (y i ,ˆy t −1)
+λ
+γG (9)
由于很难计算所有可能树结构的最优值,因此使用下式:
L =12 (∑i ∈I L ∂ˆy t −1l (y i ,ˆy t −1))2∑i ∈I L ∂2ˆy t −1l (y i ,ˆy t −1)+λ+(∑i ∈I R ∂ˆy t −1l (y i ,ˆy t −1))2∑i ∈I R ∂2ˆy t −1l (y i ,ˆy t −1)+λ−(∑i ∈I ∂ˆy t −1l (y i ,ˆy t −1))2∑i ∈I
∂2ˆy t −1l (y i ,ˆy t −1)+λ
−γ(10)
I =I L +I R 式中:,I L 和I R 分别是拆分后左、右节点的实例集。
2.3 基于SHAP 的模型解释方法
φi SHAP 基于博弈论和局部解释,估计自变量贡献。假设集成学习算法模型中,具有n 个特征的N 组用于预测输出。SHAP 中,每个自变量对模型输出v (N )的贡献是基于其边际贡献进行分配的。SHAP 量化了预测模型中每个自变量的贡献,将结果解释为各自变量的SHAP 值之和:
φi =
∑S ⊆N {i }
|S |!(n −|S |−1)!
n ![v (S ∪{i })−v (S )](11)
N 式中:S 为的特征子集。
3 基于集成学习算法的变形预测和解释流程
综合集成学习算法和SHAP 方法,构建水工结构变形预测模型,并对模型的拟合和预测结果进行解释,
流程如下:
(1)构造安全监测数据库,对效应量和自变量数据进行异常值处理与缺失值插值,获得较为平衡的数据集,对数据集进行归一化处理。
(2)划分数据集为训练集和测试集,划分比例一般可取80%和20%。
(3)构建基于集成学习算法的变形预测模型。基于训练集进行模型训练;采用10阶交叉验证方法进行参数优化,寻求最优超参数。
(4)验证模型的真实性能。利用测试集评价模型性能,评价指标包含决定系数(R 2)、均方根差(Mean Square Error , E MSE )、均方根误差(Root Mean Square Error, E RMSE )以及平均绝对误差率(Mean Absolute Percentage Error, E MAPE )等数理统计指标。决定系数R 2反映了模型的精度,其值越接近于1,模型拟合效果越好。
(5)利用SHAP 方法进行解释。全局层面上利用SHAP 分布来描述自变量的具体影响规律和相关性;局部层面上给出每个观测日中各自变量的量化贡献。
4 工程应用
为验证所提方法的有效性,以某运行初期特高拱坝变形数据为例进行验证。某水电站大坝为双曲拱坝
(图3(a )),坝顶高程610.0 m ,最大坝高285.5 m ,坝顶长681.51 m ,大坝共分31个坝段。正常、汛限和死水位分别为600.0、560.0和540.0 m 。2013年5月开始下闸蓄水,2014年3月完工。
128
水 利 水 运 工 程 学 报2024 年 4 月
在5个坝段布置有垂线(图3(a )),正垂线(PL )测点布置在高程610.0、563.3、527.3、470.3、395.3和347.3 m ,坝基布置倒垂线(IP ),重点关注拱冠15#坝段坝顶的PL15-1测点的径向位移。在6个坝段布设环境和坝体温度测点,上、下游坝面各布置1支环境温
度计(T ),利用在多个高程均匀布置的应变计的测温传感器(S k -j 为k 向应变计第j 个测点)观测混凝土
温度。选取16#坝段温度测值分析,其温度测点布置见图3(b )。同一高程上的环境温度计、应变计测点编号从上游到下游用“,”号分隔。水库设有谷幅(Valley Deformation ,S VD )监测系统,考虑到两岸坝
肩611.0 m 处的谷幅测线VDL4距大坝较近,故选取该测线测值分析,规定谷幅收缩为负,其测值变化过程见图4。
蓄水和运行初期库水位(Reservoir Water Level, L RWL )变化过程见图4,2013年5月—2018年6月共经历了4个加载和卸载过程。2013年5月4日开始蓄水,库水位从441.3 m 逐渐升高,2014年9月28日首次蓄至600.0 m 。随后库水位下降,2015年6月13日降至545.0 m 。此后,库水位呈现加载-卸荷周期,库水位在5或6月达到最低值,汛期以相对较快的速度上升。除季节因素外,库水位还受到灌溉和航运等因素影响。
4.1 影响因子选取
T ′i T ′i T ′1T ′2T ′3由于库水温垂直分层、混凝土温度封拱回升等原因,坝体温度呈非稳定性。基于已开展的研究[23],利用HCPC 方法将库水温分为3类,选取的库水温主要为400.0~540.0 m 范围内及540.0 m 以上的(T15和T31测点)测点温度,分别代表温变层和温跃层。混凝土内部温度的测点选取了S 5-1、S 6-4、S 6-9、S 5-4和S 5-5,下游面温度的测点选取了T 6、T 14、T 18和T 28。模型构建时考虑的自变量主要包括L RWL 、T i 、S k -j 、和S VD 等。构建了由式(2)表示温度因子的HTT 模型。对库水温、坝体混凝土、下游面温度进行主成分分析,计算实测温度因子的(图5),构建了由式(3)表示温度因子的HT PC T 模型。前4个PC (图5(a ))解释了所有51个温度变量总方差的87.52%,前6个PC 解释90.09%。具体地,解释了总方差的40.75%,与库水位波动高度相关(图5(b )),解释了库水位波动引起的库水温变化。解释了总方差的28.23%,其值随时间增加,体现了以S 6-9测点为代表的因水化热引起的坝体混凝土温度封拱回升的特征(图5(c ))。
解释了总方差的14.97%,与气温波动相关。为此,使用前4个PC 构建模型。
(a) 坝体垂线布置
(b) 16#坝段温度测点布 (单位: m)
左岸
右岸
PL15-1PL15-2PL15-3PL15-4PL15-5IP15-1
IP15-2600500400550450350
高程/m
S
S T T 372.0334.4
442.2
481.2
610.0
(T)应变计 (S)
S 562.2
T S T 7,8
T 19,20T 17,18
T 11,123,41,2
图 3 坝体垂线和16#坝段温度测点布置(单位:m )
Fig. 3 Configuration of embedded pendulums and temperature sensors in monolith 16 (unit: m)
20122013201420152016201720182019
−100−80−60
−40
−20020
运行初期
首次蓄水年份
位移/m m
施工期400440480520560600PL15-1 径向位移
S VD L RWL 库水位/m
图 4 库水位、PL15-1径向位移和谷幅变形过程线
Fig. 4 Temporal profiles of reservoir water level, dam crest
displacement, and valley contraction deformation 第 2 期
胡 江,等:水工结构变形预测模型构建与解释
129
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论