第 22卷第 3期2023年 3月
Vol.22 No.3
Mar.2023软件导刊
Software Guide
基于聚类与自适应ALGBM的预测模型研究
廖雪超1,2,马亚文1,2
(1.武汉科技大学计算机科学与技术学院;2.智能信息处理与实时工业系统重点实验室,湖北武汉 430065)
摘要:建筑能耗预测在建筑能源管理、节能和故障诊断等方面发挥着重要作用,而建筑能耗数据之间存在非线性
和离值点,导致能耗预测精度降低。为解决以上问题,提出基于特征提取、聚类和改进LGBM的MRGALnet建筑能
耗预测模型。首先通过MI+RFE二次特征选择算法筛选出对建筑能耗影响最大的特征子集,然后利用GMM高斯混
合模型算法将能耗特性相似的建筑进行归类,并采用LGBM模型对每个聚类的能耗数据进行预测,进一步设计自适
应损失函数以改进LGBM的预测性能。通过对比实验可知,MI+RFE特征选择算法能有效去除冗余特征,GMM聚类
方法则能对原始数据进行合理的聚类划分,而ALGBM模型可根据不同聚类的能耗数据自适应地确定损失函数超参
数,以提高模型预测性能,综合以上算法的MRGALnet模型能够进一步提升预测精度和收敛速度。
关键词:建筑能耗预测;特征选择;聚类;轻量级梯度提升机;自适应损失函数
DOI:10.11907/rjdk.222471开放科学(资源服务)标识码(OSID):
中图分类号:TP183  文献标识码:A文章编号:1672-7800(2023)003-0010-08
Research on Predictive Model Based on Clustering and Adaptive ALGBM
LIAO Xue-chao1,2, MA Ya-wen1,2
(1.College of Computer Science and Technology, Wuhan University of Science and Technology;
2.Key Laboratory of Intelligent Information Processing and Real-time Industrial Systems, Wuhan 430065, China)Abstract:Building energy consumption prediction plays an important role in building energy management, energy conservation and fault di⁃agnosis. However, there are nonlinear and outlier points among building energy consumption data, which leads to the decrease of energy con⁃sumption prediction accuracy. To solve the above problems, the MRGALnet building energy consumption prediction model based on feature ex⁃traction, clustering and improved LGBM is proposed. Firstly, the subsets of features that have the greatest impact on building energy consump⁃tion are selected through MI+RFE secondary feature selection algorithm. Secondly, building data with similar energy consumption characteris⁃tics are grouped by Gaussian mixture clustering algorithm. Thirdly, energy consumption data for each cluster are predicted by LGBM. Furter more, an adaptive loss function is designed to improve the prediction performance of LGBM. Through comparative experimental analysis, it can be seen that MI+RFE feature selection algorithm can effectively remove redundant features, GMM can reasonably cluster the original da⁃ta, and ALGBM model can adaptively determine the hyperparameters of the loss function according to the ene
rgy consumption data of different clustering, so as to improve the model prediction performance. The MRGALnet model combined with the above algorithms is optimal in terms of prediction accuracy and convergence speed. The MRGALnet model integrating the above algorithms can further improve the prediction accu⁃racy and convergence speed.
Key Words:building energy consumption prediction; feature selection; clustering; light gradient boosting machine; adaptive loss function
0 引言
随着时代的发展,近年来能源消耗量持续增长,能源问题已成为一个全球性问题。发展节能和可持续性建筑已成为节约能源的当务之急,因为建筑能耗利用效率低下已成为世界能源消耗增加的重要原因之一[1]。建筑能耗的准确预测对于能源管理、设备效率提升、建筑能源与电网合作等方面变得越来越重要。因此,建筑能耗预测得到了研究者们的广泛关注[2]。
收稿日期:2022-12-10
基金项目:国家自然科学基金项目(62273264)
作者简介:廖雪超(1979-),男,硕士,武汉科技大学计算机科学与技术学院副教授,研究方向为大
数据和计算机应用;马亚文(1996-),男,武汉科技大学计算机科学与技术学院硕士研究生,研究方向为数据挖掘和计算机应用。本文通讯作者:马亚文。
第 3 期廖雪超,马亚文:基于聚类与自适应ALGBM的预测模型研究
能源使用强度(Energy Use Intensity,EUI)用于衡量不同建筑能源综合利用效率,即建筑能源消耗与产出的比重。在建筑能耗预测中,EUI一般用单位面积能耗表示。
EUI预测一直受到高度重视,已经有许多研究人员开发了许多强大的仿真工具,例如Energy Plus[3]、DEST[4]和eQuest[5]等,这些工具可精确计算具有精确边界条件的建筑能耗。然而,这些工具也有缺点,其进行建筑能耗模拟非常耗时,这与大数据背景下快速准确计算的基本思想不符[6]。而随着数据挖掘技术的发展,数据驱动方法已成为建筑能耗预测领域的主流方法[7-8]。
近年来,研究表明,基于机器学习和人工智能的预测技术[9],如支持向量回归[10]和人工神经网络[11-12]在建筑能源预测方面取得了很好的效果。同时,与线性技术相比,非线性技术可获得更准确的结果,如多元线性回归和自回归移动平均[13]。
目前许多学者采用不同预测方法预测建筑能耗。Sun[14]利用BP神经网络建立建筑能耗预测模型,该模型预测精度高,且输入参数少,预测效果好;Jihoon等[15]考虑到数据时序性和非线性关系,使用
长短期记忆神经网络构建非住宅建筑供暖系统能耗预测模型。然而,由于输入变量与能源消耗之间的关系可能无法用线性描述,线性模型往往是不准确的。为了提高模型的准确性,必须考虑大量的表征变量,因而会导致模型复杂[16]。因此,研究人员开始把研究方向转向集成方法,例如轻量型梯度提升机(Light⁃GBM,LGBM)[17]和随机森林(Random Forest, RF)采用Bag⁃ging集成学习方式,能够提升训练效率、节省时间。
针对数据存在离值的问题,机器学习中常用的损失函数,对大的误差灵敏度高,即模型偏向于减小最大误差,而难以有效降低离值对预测效果的影响,且常用的损失函数无法根据样本特征进行自适应调整[18]。因此,本文基于自适应鲁棒损失函数对LGBM进行改进,以提升预测的准确性和鲁棒性。
本文首先对原始数据进行处理,并利用两步特征选择MI+RFE筛选出与建筑能耗相关性强的特征;然后利用GMM对建筑能耗数据进行分类,根据数据集特征的相关性,将相似度高的建筑划分到同一类;接下来利用改进的LGBM模型进行预测,并引入自适应鲁棒损失函数对模型进行优化。通过实验的对比验证,综合了各种算法的MRGALnet模型在预测精度和收敛速度方面均为最优。
1 相关理论与技术
1.1 MI互信息法特征选择
MI(Mutual Information)互信息法是用于捕捉每一个特征与标签之间线性或非线性关系的过滤方法[19]。互信息量化了两个随机变量之间相互依赖的量度。互信息计算公式如式(1)所示:
I(X;Y)=∑y∈Y∑x∈X p(x,y)log(p(x,y)p(x)p(y))(1)其中,p(x,y)是X和Y的联合概率密度函数,p(x)、p(y)分别是X和Y的边缘概率密度函数。使用Kraskov等[20]提出的基于K近邻的无参数方法,选择X和Y方向上的欧氏距离最大值作为选择最近邻的标准,并进行统计计数和概率密度估计。
1.2 RFE递归特征消除
使用一组最优特征训练机器学习模型被认为是一项关键任务,因此从任何数据集中选择最优特征集合是一个复杂过程[21]。RFE(Recursive Feature Elimination)递归特征消除法[22]使用一个机器学习模型进行多轮训练,每一次训练结束后,就会消除若干权值系数所对应的特征,之后在新特征集上进行下一轮训练,重复该过程直至产生最优的特征子集。算法基本步骤如下:①使用所有特征变量训练模型;②计算每一个特征变量的重要性并进行排序;③对每一个变量子集s_{i},i=1,⋯,s,提取前s_{i}个最重要的特征变量,基于新数据训练模型,重新计算每一个特征变量的重要性并进行排序;④计算比较每个子集获得模型的效果;⑤决定最优的特征变量子集。
1.3 高斯混合模型
高斯混合模型(Gaussian Mixed Model,GMM)是一种业界广泛使用的聚类算法,该方法使用高斯分布作为参数模型,并使用期望最大(Expectation Maximization,EM)算法进行训练。GMM是学习速度最快的概率模型,通过拟合输入数据集构建合适的混合多维高斯分布模型,从而达到无监督聚类的目的。
高斯分布概率密度函数如下:
p(x|μ,∑)=1(2π)n
2||∑
e-
1
2(x-μ)∑(x-μ)(2)
其中,μ是n维均值向量,∑是n×n的协方差矩阵。由式(2)可以看出,高斯分布由均值向量μ和协方差矩阵∑两个参数确定。因此,高斯混合分布定义如下:
P M(x)=∑i=1kαi·p(x|μi,∑i)(3)该分布共由k个混合成分组成,每个混合成分对应一个高斯分布。其中,μi、∑i是第i个高斯混合成分的参数,αi>0为相应的混合系数,∑i=1kαi=1。
高斯混合模型算法需要先对高斯混合分布参数进行初始化,然后基于EM算法对模型参数进行迭代更新,直至满足停止条件,确定簇划分,并返回簇划分结果。
1.4 LGBM基本原理
LGBM是基于分布式梯度提升树(Gradient Boosting Decision Tree, GBDT)的集成强学习器模型,凭借其快速、低内耗、高准确性等优势被应用于回归问题。LGBM将决策树作为基学习器,如式(4)所示:
H T(x)=∑t=1T H t(x),H t∈Θ(4)
·
·11
2023 年
软件导刊
式中,H t(x)为第t个学习器,Θ为所有学习器的集合
空间。
LGBM通过多次迭代不断提升学习器的性能,使用学
习器获取从输入空间X s到梯度空间G的映射函数。假设
有一个数据量为n的训练集{x1,⋯,x n},其中x i是空间中第
i个维度为s的向量。若前一轮迭代获得的学习器为
H t-1(x),损失函数为L(y,H t-1(x)),则本轮迭代的目标为
寻弱学习器h t(x),使得本轮的损失函数最小,即:
h t(x)=arg min h∈H L(y,H t-1(x)+h t(x))(5)
计算该损失函数的负梯度,用于获取本轮损失函数的
近似值,可表示为:
r t=-∂L(y,H t-1(x))
∂H t-1(x)(6)目标损失函数通常为二次函数,h t(x)可近似表示为:
h t(x)=arg min h∈H∑(r t-h t(x))2(7)
最终获得本轮迭代的强学习器为:
H t(x)=H t-1(x)+h t(x)(8)
2 系统模型设计
2.1 符号描述与问题建模
对于给定的n维建筑能耗数据(X,Y),其中X= (X1,X2,⋯,X n)表示建筑特征数据,Y表示其对应的建筑能耗EUI目标变量。
对于建筑能耗预测问题,给定已知的建筑特征数据X=(X1,X2,⋯,X n)及其对应的建筑能耗Y,其目标在于寻到特征变量X与目标预测变量Y之间的映射关系,即到一个映射函数使得Y=F(X1,X2,⋯,X n),从而针对未知的建筑特征数据X=(X1,X2,⋯,X n),通过映射函数Y= F(X)求得其对应的能耗数据Y。
2.2 AR自适应鲁棒损失函数
损失函数用来评价模型预测值与真实值不一样的程度,损失函数与模型的性能呈正相关。不同模型的损失函数通常也不一样,传统的损失函数主要包括Huber损失函数、L1范数损失函数与L2范数损失函数。常见损失函数对大的误差灵敏度高,即模型偏向于减小最大误差,而难以有效降低离值对预测效果的影响,且常用的损失函数无法根据样本特征数据进行自适应调整。LGBM采用Bag⁃ging学习方式,为了提升预测效果,进一步降低离值影响,本文引入自适应鲁棒损失函数(Adaptive Robust Loss Function, AR),如表1所示。其中,α∈R是控制鲁棒性的变形参数,c>0是协调参数,即用于控制函数底部宽度的尺度系数。
虽然α在α=0、α=2、α=-∞处没有定义,但是可通过求极限进行近似。因此,可设计表1中最后一行的AR 损失函数及其一阶导数形式,该函数主要通过超参数α控制损失函数的鲁棒性,可通过调整超参数α,根据不同数据特征变换损失函数及其对应的梯度表达形式,以降低离值对预测精度的影响。
2.3 ALGBM预测模型
基于AR函数的ALGBM能耗预测流程如图1所示。其主要算法流程分为4个步骤,其中步骤1和步骤2为模型训练,步骤3和步骤4为模型预测。
步骤1:利用直方图处理数据及获取AR损失函数参数。针对每一维数据特征,首先确定每一个特征需要k个箱子(bin),并为每一个箱子分配一个整数;然后将浮点数的范围划分为k个区间,将属于该箱子的样本数据更新为箱子的值,最后构建一个宽度为k的直方图,如图1中AL⁃
GBM模块中的直方图优化伪代码。与传统的Boosting方式相比,直方图算法消耗的内存更小,运算速度更快。此外,LGBM使用的分类回归树为弱模型,k决定了正则化程度,从而避免了过度拟合。获取了建筑能耗数据之后,通过AR损失函数得到超参数α和协调参数c,用于配置LG⁃BM的损失函数。
步骤2:单边梯度采样。首先将训练集按照梯度排列,对大梯度样本按比例a保存,对小梯度样本按比例b采样,然后将小梯度样本数据的梯度放大(1-a)/b。合并选取的大梯度数据与放大后的小梯度样本数据,训练弱学习器。
步骤3:基于遗传算法(Genetic Algorithm,GA)获取ALGBM模型的最优参数。遗传算法是模拟自然界生物进化机制而发展起来的一种高效、并行、全局搜索与优化方法[23],可在搜索过程中自动获取和积累有关搜索空间的知识,并自适应地控制搜索过程,以求得最优解。
步骤4:完成建筑能耗EUI预测。EUI是建筑单位面积能耗,将建筑能耗数据分为训练集和测试集,训练集用于训练模型和获取相关参数,测试集用来验证模型的有效性。
2.4 MRGALnet组合模型架构
综上,本文提出基于MI+RFE、GMM和ALGBM的MRGALnet建筑能耗预测模型,模型整体结构如图1所示。
模型主要包括以下几部分:
Table 1 Loss functions of different α and their first derivative
表1 不同α损失函数及其一阶导数
α
2
-∞
Adaptive Loss
L(x,α,c)
lné
ë
ê
ê(x c)2+1ùûúú
1
2(x c)21-expéëêê-12(x c)2ùûúú||α-2
||a
ì
í
î
ïï
ïï
é
ë
ê
ê(x/c)2|
|α-2+1
ù
û
ú
ú
α
2-1üý
þ
ïï
ïï
∂L
∂x(x,α,c)
2x
x2+2c2
x
c2
x
c2
exp(-12(x/c)2)
x
c2((x/c)2||α-2+1)(α/2-1)
··12
第 3 期
廖雪超,马亚文:基于聚类与自适应ALGBM 的预测模型研究(1) 数据预处理。建筑能耗原始数据包含缺失数据、无效数据或异常数据,这些数据可能会影响模型预测效果,并影响后续结论。因此,数据预处理就是对缺失值、无效数据或异常数据进行处理,完成后执行下一步。
(2) MI+RFE 特征选择。计算经过数据预处理之后的数据特征和目标序列互信息,进行互信息量排序,选择互信息量较大的特征,以特征信息量0.5为界,原始特征维度为487维,利用MI 特征初步选择的特征维度是200。再利用RFE 对MI 筛选出的数据进行二次特征选择,最终确定的特征维数是18维。
(3) GMM 建筑聚类。对步骤2筛选出来的建筑数据,基于建筑能耗数据相关性采用GMM 将数据划分为若干类,并采用轮廓系数确定最优的聚类个数,对数据进行合理的划分。
(4) ALGBM 预测。基于AR 损失函数的一阶导数和二阶导数形式设计训练损失函数和评估损失函数,最后基于图1中的ALGBM 预测模块完成实验,得到最终的预测值。
综上,首先采用MRGALnet 模型对原始数据进行预处理,删除缺失数据、无效数据和异常数据;然后进行MI+RFE 两步特征选择,筛选出与建筑能耗相关性强的特征;接下来利用高斯混合模型对筛选后的数据进行分类,将能耗数据相似的建筑划分到同一类;最后利用LGBM 模型进行预测,并利用AR 损失函数对预测误差进行修正,从而提
高模型预测精度。
3 实验结果与分析
3.1 数据集
实验数据集来自于美国能源部(Energy Information
Administration ,EIA )提供的商业建筑能耗统计数据库
(Commercial Buildings Energy Consumption Survey ,CBECS )。商业建筑能耗统计数据库是通过全国抽样调查,收集关于建筑物能源使用的信息及其相关特性。
CBECS 提供了约20种类型的建筑物及其能耗数据。
建筑能耗分布直方图如图2所示。由图2可知,能耗最大的建筑类型依次为食品销售、餐饮店、实验室及医院,且能耗差异呈阶梯状分布。
计算每一个特征变量的重要性,并进行排序
个重要特征变量
基于新数据集训练模型
重新计算每一个特征变量的重要性并进行排序计算比较每一个特征子集的模型效果决定最优的特征变量集合列数据
1X  for
do 计算均值向量:
for
12{,,,};
m D x x x =1,2,j K =1,2,i K =1,2,,j m =x {,,,)
C C C C =Fig. 1 Overall architecture of MRGALnet combination model
图1 MRGALnet 组合模型整体架构
Fig. 2 Building energy consumption distribution histogram
图2 建筑能耗分布直方图
·
·13
2023 年
软件导刊3.2 实验对比模型
为验证本文提出的MRGALnet 组合模型的预测效果,采用不同模型进行实验对比分析,如表2所示。
3.3 评价指标
在本次实验中使用如下3种评估指标,其中y (t )是预测值,y (t )是真实值,y
ˉ(t )为真实值的均值,n 为数据数量。(1)拟合系数(R 2):
R 2
=1-∑t =1
n (
)
y ()
t -y ∧
()
t
2
∑t =1
n (
)
y ()
t -y _
()t
2
(9)
(2)均方根误差(RMSE ):
RMSE
=
(10)
(3)平均绝对误差(MAE ):
MAE =
∑t =1
n
|y (t )-y (t )|
正则化参数的自适应估计
n
(11)
3.4 特征选择
为验证本文使用的MI+RFE 特征选择方法的有效性和优越性,采用K 近邻交叉验证(KNN ,K-Nearest Neighbor )评估MI 特征选择、RFE 特征选择和MI+RFE 组合特征选择3种特征选择方法的R 2得分与特征个数的变化趋势,结果如图3所示(彩图扫OSID 码可见,下同)。
由图3可知,MI+RFE 组合特征选择方法的效果优于其他两种方法。为了进一步确定最优的特征个数,利用MI+RFE 对数据进行二次特征选择,得到最优特征维度
=18。
3.5 聚类效果对比
本文采用GMM 高斯混合模型对数据进行划分,并利用如式(12)所示的轮廓系数反映聚类效果:
s =
b -a
max (a ,b )
(12)
其中,a 表示同簇中样本之间的相似度,b 表示不同簇之间的相似度。图4为聚类个数与轮廓系数之间的关系,由图可知,高斯混合模型的最佳聚类个数为3。
3.6 建筑能耗预测基础模型对比
将各个聚类组建筑能耗数据的80%作为训练集,20%作为测试集,将传统的Linear 线性模型和RF 随机森林模型预测结果与LGBM 进行对比,如图5所示。
从图5可以看出,根据几种基础模型能大致预测出
EUI 的变化趋势,采用Bagging 学习方式的LGBM 相比其他预测模型具有更好的预测效果。
3.7 损失函数分析
以聚类1为例,通过AR 损失函数得到损失值与α、c 的关系,当损失值趋近于0时,对应的超参数最优,如图6
所示。
从图6可得聚类1的最优超参数α=0.329 4,协调参
数c =1.564 8。根据自适应公式,可得到α不同值对应的
Table 2 Experimental comparison benchmark model
表2 实验对比基准模型
M1M2M3M4M5M6M7
模型
Linear RF LGBM LGBM_Huber LGBM_L2LGBM_L1MRGALnet 说明线性回归随机森林
LightGBM LGBM-Huber 损失函数LGBM-L2损失函数LGBM-L1损失函数
MI+RFE+GMM+ALGBM
Fig. 5 Comparison of prediction results of traditional models
图5
 传统模型预测结果对比
Fig. 3 Feature algorithm comparison
图3 特征算法比较
Fig. 4 Relationship between the number of clusters and contour coef⁃
ficients
图4 聚类个数与轮廓系数之间的关系
Fig. 6 Optimizing the loss function
图6 损失函数寻优
··14

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。