第14卷㊀第2期Vol.14No.2㊀㊀
智㊀能㊀计㊀算㊀机㊀与㊀应㊀用
IntelligentComputerandApplications
㊀
㊀2024年2月㊀
Feb.2024
㊀㊀㊀㊀㊀㊀
正则化随机森林文章编号:2095-2163(2024)02-0166-06中图分类号:TP311.5
文献标志码:A
基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究
曾健铭,李㊀玥,魏霖静,赵㊀霞,周㊀慧
(甘肃农业大学信息科学技术学院,兰州730070)
摘㊀要:小麦产业涉及国家粮食安全和民生问题,通过对小麦产量进行科学准确的预测,对农业经济的发展㊁制定粮食进出口计划和确保国家粮食安全有重要意义㊂使用相关性分析遥感参数与产量之间的相关性,通过随机森林算法对特征变量进行重要性评价,剔除对目标相关性无关或影响较小的特征变量,最后,采用BP神经网络对产量进行预测㊂结果表明:归一化植被指数(NormalizedDifferenceVegetationIndex,NDVI)在天水市整个冬小麦生育期内都与产量呈正相关关系;相对湿度㊁ND⁃VI㊁最低温度㊁土壤湿度和辐照度为小麦产量预测的重要影响因子;与未进行特征变量筛选的情况相比,冬小麦产量预测的精准度显著提升,可以满足产量预测的精度要求,为相关的农业部门提供可靠的农情信息,为制定粮食政策与组织粮食生产提供参考依据㊂
关键词:随机森林;BP神经网络;冬小麦;产量预测
Applicationofrandomforestoptimizedneuralnetworkalgorithminwinter
wheatyieldprediction:asurvey
ZENGJianming,LIYue,WEILinjing,ZHAOXia,ZHOUHui
(CollegeofInformationScienceandTechnology,GansuAgricultureUniversity,Lanzhou730070,China)
Abstract:Thewheatindustryiscrucialfornationalfoodsecurityandpublicwelfare.Accurateandscientificpredictionofwheatyieldissignificantforthedevelopmentofagriculturaleconomy,formulationoffoodimportandexportplans,andensuringnationalfoodsecurity.Themethodproposedinthispaperusescorrelationanalysistostudytherelationshipbetweenremotesensingparametersandyield.Therandomforestalgorithmisemployedtoevaluatetheimportanceoffeaturevariables,eliminatingthoseirrelevantorlessimpactfulonthetargetcorrelation.Finally,theBPneuralnetworkisusedforyieldprediction.TheresultsshowthattheNormalizedDifferenceVegetationIndex(NDVI)hasapositivecorrelationwit
hyieldthroughouttheentirewinterwheatgrowthperiodinTianshuiCity.Relativehumidity,NDVI,minimumtemperature,soilmoisture,andirradianceareidentifiedasimportantfactorsinfluencingwheatyieldprediction.Comparedtoscenarioswithoutfeaturevariableselection,theaccuracyofwinterwheatyieldpredictionsignificantlyimproved,meetingtheprecisionrequirementsforyieldprediction.Thisprovidesreliableagriculturalinformationforrelevantagriculturaldepartmentsandoffersareferenceforformulatinggrainpoliciesandorganizinggrainproduction.Keywords:randomforest;BPneuralnetwork;winterwheat;productionforecast
基金项目:国家自然科学基金(32060437,31360315);甘肃农业大学青年导师基金项目(GAU-QDFC-2020-12);甘肃省自然科学基金
(18JR3RA165)㊂
作者简介:曾健铭(1996-),男,硕士研究生,主要研究方向:农业信息化研究㊂
通讯作者:李㊀玥(1979-),女,博士,副教授,主要研究方向:智慧农业㊁大数据分析与挖掘㊂Email:liyue@gsau.edu.cn收稿日期:2023-02-24
0㊀引㊀言
中国作为人口大国和农业大国,粮食是人类生存之本,实现经济社会发展之基㊂小麦作为中国四大主粮之一,比重占粮食的三分之一,小麦产业是关系到国家粮食安全和民生的重要问题,通过对小麦产量进行科学准确的预测,对农业经济的发展㊁制定粮食进出口计划㊁确保国家粮食安全有重要意义㊂由于影响小麦产量的因素众多,不容易建立各影响
因子与粮食产量的分析模型,对其精准的预测存在一定难度㊂
近年来,随着人工智能和遥感技术的快速发展,农业科技加速发展,为农业研究提供了新技术和新模式,推动了遥感对农业估产的发展[1]㊂目前遥感技术和遥感参数的作物估产方法主要有以下两种类型:一是作物模型,二是基于统计模型结合遥感参数的遥感估产方法㊂作物估产模型包括农业技术转移决策支持系统(DSSAT)[2]㊁农业生产系统模拟器
(APSIM)[3]和世界粮食研究模型(WOFOST)[4]等等㊂以上模型需要输入的数据众多,如土壤数据㊁气象数据和施肥量等㊂虽然可以精确模拟作物生长过程,但是研究区域较小,遥感参数和作物模型结合的数据同化,可以实现大区域的产量估测,但是需要的数据量大及精细的数据,导致精准度不够高[5]㊂基于统计模型结合遥感参数的遥感估产方法包括线性和非线性模型,通常作物的产量表现是非线性的[6],因此非线性模型应用更加广泛,如随机森林[7-8]和神经网络[9-13]等㊂王来刚等[14]利用森林算法对特征变量进行了重要性分析和产量预测,得出增强型植被指数(EnhaneedVegetationIndex,EVI)㊁日光诱导叶绿素荧光(Sun-InducedChlorophyllFluorescence,SIF)和高程数据对小麦产量影响较大;刘峻明等[15]利用随机森林结合长时间序列气象数据,对冬小麦生育早期的产量预测取得良好的效果,得出平均温度㊁最低温度㊁负积温㊁最高温度在不同生育阶段对产量的影响程度;裴傲[16]将遥感数据和气象数据建立的神经网络预测玉米单产模型,证明了NDVI㊁EVI㊁比值植被指数(RatioVegetationIndex,RVI)和差值植被指数(DifferenceVegetationIndex,DVI)4种植被数据以及气象数据,对产量影响的有效性和实用性;李海涛等[17]通过决策树筛选出最优的特征属性作为BP神经网络的输入参数,训练数据缩短,取得了良好的预测结果㊂综上所述,本文针对输入特征变量筛选难和预测精度较低等问题,基于随机森林和BP神经网络,以天水市为研究区域,基于遥感参数和气象数据的结合与冬小麦实际总产量数据,使用随机森林重要性分析评估,对特征属性进行筛选,采用BP神经网络构建冬小麦产量预测模型,剔除对目标相关性无关或影响很小的特征属性,提升冬小麦的产量预测精度㊂
1㊀方法研究
1.1㊀随机森林算法
随机森林由多棵分类回归树(ClassificationandRegressionTree,CART)构建模型[18],其主要实现步骤如下:
(1)假设初始训练集为N,通过自助法(Bootstrap)进行重采样,结合点随机分裂技术共同构建多棵决策树㊂随机采样过程中,将未被抽取的数据作为袋外数据(Out-of-Bag,OOB),使用抽取的OOB数据可估计局部误差和特征显著性评价;
(2)假设每一个样本有M个属性,决策树的每一个节点需要分裂时,随机从M个属性中抽取m个属性(m<M),之后从m属性中采取某种策略(如:信息增益)选择一个最优的属性为该节点的分类变量;(3)决策树分裂过程的每个节点都按照步骤2处理,直到不能再继续分裂(整个决策树形成过程不需要进行剪枝);
(4)由生成的多颗决策树组成的随机森林,将新的数据判别和分类,用不同的决策树投票来获取最终的分类结果㊂
1.2㊀特征变量重要性
原始数据集中往往有多个特征变量,从数据集中抽取一部分特征,使其降低特征维度提升算法性能,选择对结果影响较高的几个特征变量,以减少建模时特征变量数㊂随机森林模型不仅在预测问题上有着广泛的应用,还可以对特征变量进行重要性分析㊂本研究通过随机森林分析OOB误差评价特征变量,对高维数据样本进行筛选,从而得到各特征变量的重要性,选择重要性较高的几个作为BP神经网络的输入变量㊂计算特征变量重要性的具体步骤如下:(1)使用对应的OOB数据,计算每颗决策树的袋外数据误差(记作errOOB1)㊂这样每棵决策树都得到一个errOOB1,T棵决策树就有T个errOOB1㊂(2)遍历所有特征,考察特征的重要性㊂随机对袋外数据样本特征遍历,并随机更改特征变量值(该操作加入噪声干扰),然后重新计算袋外数据误差(记为errOOB2)㊂
(3)当随机森林中有Ttree颗树时,特征变量的重要性用公式ð(eOOB2-eOOB1)/Ttree表示㊂若随机给某个特征变量加入噪声干扰,则袋外准确率将大幅降低,表明该特征变量对于模型预测结果影响很大,同时说明该特征变量重要程度较高㊂
1.3㊀BP神经网络
BP神经网络(Back-PropagationNetwork)1986年由Rumelhart和McClelland为首的科学家小组提出,是目前应用于产量预测最广泛的神经网络模型之一㊂BP神经网络按误差反向传播算法训练,主要由输入层㊁输出层以及一个或多个隐含层组成,其网络
结构如图1所示㊂BP神经网络的输入为xi;wij为输入层与隐含层的权值;Φ为隐含层激活函数;wid为隐含层与输出层之间的权值;输出层激活函数为Ψ;θi㊁θk分别为隐含层与输出层的阈值;θk为神经网络的输出[19]㊂
761
第2期曾健铭,等:基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究
输入层
隐含层
输出层X j
W i j
W i d
Ψ
Ψ
Ψ
O K
αK
θi
图1㊀3层BP神经网络结构图
Fig.1㊀Structurediagramof3-layerBPneuralnetwork
1.4㊀预测模型构建
在相关数据输入BP神经网络模型之前,需将遥感参数和气象数据,通过随机森林重要性评
估方法,剔除多余的特征变量,选取最优的特征变量集合作为BP神经网络输入节点构建神经网络,并在特征变量属性和冬小麦产量之间建模,如图
2所示㊂
对每个样本,计算其作为O O B 样本的树对O O B 的分类情况(约1/3的树)以简单多数投票作为该样本的分类结果
用误分个数占样本总数的比率作为随机森林的O O B 误分率
最优特征变量集合
遥感数据
气象数据
小麦总产量
随机森林算法特征
重要性分析B P 神经网络
调整权重调整权重
反向传播过程输入层隐含层
输出层
正向传播过程
x 1x 2
x 3
x n
输出结果
图2㊀产量预测流程
Fig.2㊀Yieldpredictionprocess
㊀㊀经过对特征变量数据训练,获取预测网络,通过测试和调整,对冬小麦产量进行预测㊂主要步骤如下:
(1)为了使数据的量纲保持一致,将数据统一
到[0-1]之间,归一化公式为
xi=
x-xmax
xmax-xmin(1)
㊀㊀其中,x为初始数据;xmin㊁xmax分别为初始数据的最小值和最大值;xi为归一化处理后的数据㊂
(2)通过对特征变量进行随机森林的OOB重要性分析,结合模型情况确定网络最佳特征变量集合㊂
(3)将最佳特征变量集合作为BP神经网络模型输入,确定网络结构和隐含层数进行训练㊂
(4)对网络进行测试验证,查验训练效果和预
测精准度是否达到预期,如达到最大迭代次数和精准度,则停止网络训练并获取输出结果㊂1.5㊀参数设计
在BP神经网络的输入层,输入由随机森林的重要性评估后的相对湿度㊁NDVI㊁最低温度㊁土壤湿度和辐照度等5个影响产量的特征变量值,将小麦产量作为BP神经网络模型网络输出㊂本文神经网络输入层到隐含层采用Relu函数,输出层采用linear函
数,学习速率为0.0001,训练次数为2000次㊂
在BP神经网络中,输入层和输出层的节点数都是确定的,而隐含层节点数是根据经验公式确定[20],计算公式为
h=
㊀
m+n+a(2)
式中:h为隐含层节点的神经元数,m和n分别是输入层和输出层节点的神经元数,a为1-10之间的调节常数㊂根据公式隐含层确定在7-16之间,依据不同隐层节点数训练结果比较,本文选择隐含层的节点数为16㊂
2㊀验证分析
2.1㊀
数据来源
试验所需数据包括2000-2021年天水市各县冬小麦生长期的遥感㊁气象和小麦产量数据㊂
2.1.1㊀遥感数据
遥感参数采用归一化植被指数(Normalized
DifferenceVegetationIndex,NDVI),其是反映作物长势和营养信息的重要参数,与作物的产量有很好的相关性,常被用于产量预测的特征变量[21-22]㊂本文选取的天水市各县植被指数均来自美国国家航空航天局(NASA),MOD13Q1产品空间分辨率是250m,时间分辨率是16d,并按天水市耕地进行掩膜处理,
8
61智㊀能㊀计㊀算㊀机㊀与㊀应㊀用㊀㊀㊀㊀㊀
㊀㊀㊀㊀㊀㊀㊀㊀㊀第14卷㊀
将MODIS图像在Arcgis软件中进行波段运算,得到
天水市各县2000-2021年(每年10月-次年5月份)NDVI植被指数的分布情况,采用最大值合成法得到每个月的最大植被指数数据㊂
2.1.2㊀气象数据
气象数据来自NASAPower气象数据库获取的2000-2021年天水市气象要素㊂气象要素来自天水市麦积区㊁甘谷㊁秦安㊁秦州㊁清水㊁武山和张家川7个区县的数据,其中包括辐照度㊁最高气温㊁最低温度㊁土壤湿度㊁相对湿度㊁平均气温和降雨量等7个要素㊂
2.1.3㊀小麦产量数据
天水市各县2000-2021年的小麦产量数据来源于‘甘肃发展年鉴“㊂
2.2㊀评价指标
实验中采用平均绝对百分误差(MeanAbsolutePercentageError,MAPE)㊁均方根误差(RootMeanSquaredError,RMSE)和平均绝对误差(MeanAbsoluteError,MAE)作为评价指标,对预测模型的性能进行比较㊂计算公式如下:
MAPE=1nðni=1yi-piyiˑ100%(3)
RMSE=1nðni=1(pi-yi)2(4)
MAE=1nðni=1pi-yi(5)
式中:pi是小麦产量的预测值,yi是实际值㊂MAPE㊁RMSE和MAE的值越小,说明预测值与实际值偏差越小,预测性能越好,反之说明预测性能越差㊂2.3㊀植被指数与产量的相关性分析
为研究植被指数和冬小麦产量之间的关系,从时间上对归一化植被指数(NormalizedDifferenceVegetationIndex,NDVI)与产量之间进行相关性分析㊂遥感参数(NDVI)与小麦产量在每个月份之间的相关性如图3所示㊂在整个冬小麦生育期,NDVI与产量都呈正相关,在冬小麦生长关键期2-5月份,相关系数均达到0.4左右;2-4月份达到了最高峰,该期间属于冬小麦返青-孕穗期,此时小麦进入了旺盛的生长期,营养生长与生植生长并进的重要时期㊂在此期间,生长所需的水分和养分最多,叶面积及茎穗快速增长,直接决定了穗数和粒数的关键阶段,也是影响小麦产量高低最关键时期㊂之后,因为小麦冠层叶片衰老和籽粒灌浆,NDVI与小麦产量之间的相关性降低㊂
0.6
0.4
0.2
10111212345
月份
相
关
系
数
图3㊀NDVI与冬小麦产量相关性
Fig.3㊀ThecorrelationbetweenNDVIandwinterwheatoutput2.4㊀特征变量重要性分析
特征选择不仅可以防止模型过拟合㊁减少模型的泛化误差,还可以减少硬件资源的损失㊁模型的开发成本和训练时间㊂有些特征变量对目标相关性低或者无关,输入的特征变量属性过多将导致网络收敛速度降低,从而增加过拟合的几率㊂因此,对神经网络训练前将特征变量进行筛减,选取重要性较高的5个特征变量作为BP神经网络的特征集㊂将NDVI㊁辐照度㊁相对湿度㊁土壤湿度㊁降水量㊁最高温度㊁最低温度和平均气温等特征变量,采用随机森林的袋外OOB进行重要性分析,特征变量重要性指标
由大到小排序(见图4)㊂分析表明,相对湿度㊁NDVI㊁最低温度㊁土壤湿度和辐照度对小麦产量的重要性大于其它因素,重要性指标平均值都超过了0.13,说明这些特征变量是影响小麦产量的重要环境因子;而降雨量㊁最高温度和平均温度的重要性相对较低,对小麦产量的影响较小,因此可将这些特征变量剔除㊂
0.20
0.15
0.10
0.05
N
D
V
I
重
要
性
指
标
相
对
湿
度
最
低
温
度
土
壤
温
度
辐
照
度
降
雨
量
最
高
温
度
平
均
温
度
特征变量
图4㊀小麦特征变量重要性统计图
Fig.4㊀Statisticsoftheimportanceofvariablesinwheatcharacteristic
961
第2期曾健铭,等:基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究
2.5㊀模型预测结果分析
本文选取2000-2021年的数据作为实验样本数据㊂为了验证该模型的预测精准度,将样本数据分为训练样本和测试样本两部分㊂其中2000-2018
年的数据作为训练集数据用于模型训练,利用训练好的模型对2019-2021年的产量进行预测,将结果与年鉴中的实际小麦产量数据进行对比与分析,结果见表1㊂
表1㊀模型预测结果Table1㊀Predictionresults
年份天水市各县
真实值(kg/hm2)
预测数据(kg/hm2)绝对误差(kg/hm2)
相对误差(%)
2019甘谷3263.033337.1174.08
2.272019麦积3305.923146.03159.894.842019秦安2976.593143.96167.375.622019秦州3334.803133.36201.446.042019清水3099.643088.1711.470.37
2019武山
3233.832826.04407.7912.612019张家川2798.943156.68357.7412.782020甘谷3364.753432.1367.382.002020麦积3461.163462.130.970.032020秦安3109.373359.63250.268.052020秦州3458.593602.49143.904.162020清水3204.233445.24241.017.522020武山3361.893327.7934.10
1.012020张家川2914.363248.58334.2211.472021甘谷352
0.623466.7753.851.532021麦积3650.763390.41260.357.132021秦安3270.653341.1170.462.152021秦州3620.773361.94258.837.152021清水3355.983425.1569.172.062021武山3453.983097.18356.8010.332021
张家川3052.02
3256.70
204.686.71㊀㊀结果表明,小麦的估测数据与年鉴中的实际小麦产量数据之间的绝对误差最高值是407.79kg/hm2,绝对值的最低值是0.97kg/hm2,平均绝对误差值是
177.42kg/hm2
;相对误差值最低的是0.03%,最高值
是12.78%,平均相对误差值是5.52%,说明模型的预测结果满足了对小麦产量预测的要求,能较好的对研究区的小麦产量进行预测㊂
表2㊀不同模型的精度评价
Table2㊀Accuracyevaluationofdifferentmodels模型MAPE/%RMSE/(kg㊃hm-2)MAE/(kg㊃hm-2)
BP神经网络11.31490.28400.61本文模型
6.91
214.86
177.41
㊀㊀根据表2对比结果表明,本文模型的MAPE为
6.91%㊁RMSE为214.86kg/hm2㊁MAE为177.41kg/hm2,而BP神经网络的MAPE为11.31%㊁RMSE为
490.28kg/hm2㊁MAE为400.61kg/hm2㊂相比之下,对于冬小麦产量预测精准度有明显提升㊂
3㊀结束语
针对小麦产量预测问题,分析遥感参数与产量之间的相关性,构建了基于随机森林和BP神经网络组合的小麦产量预测模型㊂该模型基于遥感数据㊁气象数据和产量统计数据,所需的数据简单易得,并且能够有较高的预测精准度,为相关的农业部门提供可靠的农情信息,为制定粮食政策与组织粮食生产提供参考依据㊂结合实际数据,得出以下结论:
NDVI是小麦产量预测的重要因子,与小麦产量呈高度相关性,特别是在冬小麦生长关键期2-5月份达到了最高,相关系数均达到0.4左右㊂说明NDVI是评估小麦生长和产量的重要指标㊂在8类
071智㊀能㊀计㊀算㊀机㊀与㊀应㊀用㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第14卷㊀
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论