基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究

第１４卷㊀第２期Ｖｏｌ．１４Ｎｏ．２㊀㊀

智㊀能㊀计㊀算㊀机㊀与㊀应㊀用

ＩｎｔｅｌｌｉｇｅｎｔＣｏｍｐｕｔｅｒａｎｄＡｐｐｌｉｃａｔｉｏｎｓ

㊀

㊀２０２４年２月㊀

Ｆｅｂ．２０２４

㊀㊀㊀㊀㊀㊀

正则化随机森林文章编号：２０９５－２１６３（２０２４）０２－０１６６－０６中图分类号：ＴＰ３１１．５

文献标志码：Ａ

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究

曾健铭，李㊀玥，魏霖静，赵㊀霞，周㊀慧

（甘肃农业大学信息科学技术学院，兰州７３００７０）

摘㊀要：小麦产业涉及国家粮食安全和民生问题，通过对小麦产量进行科学准确的预测，对农业经济的发展㊁制定粮食进出口计划和确保国家粮食安全有重要意义㊂使用相关性分析遥感参数与产量之间的相关性，通过随机森林算法对特征变量进行重要性评价，剔除对目标相关性无关或影响较小的特征变量，最后，采用ＢＰ神经网络对产量进行预测㊂结果表明：归一化植被指数（ＮｏｒｍａｌｉｚｅｄＤｉｆｆｅｒｅｎｃｅＶｅｇｅｔａｔｉｏｎＩｎｄｅｘ，ＮＤＶＩ）在天水市整个冬小麦生育期内都与产量呈正相关关系；相对湿度㊁ＮＤ⁃ＶＩ㊁最低温度㊁土壤湿度和辐照度为小麦产量预测的重要影响因子；与未进行特征变量筛选的情况相比，冬小麦产量预测的精准度显著提升，可以满足产量预测的精度要求，为相关的农业部门提供可靠的农情信息，为制定粮食政策与组织粮食生产提供参考依据㊂

关键词：随机森林；ＢＰ神经网络；冬小麦；产量预测

Ａｐｐｌｉｃａｔｉｏｎｏｆｒａｎｄｏｍｆｏｒｅｓｔｏｐｔｉｍｉｚｅｄｎｅｕｒａｌｎｅｔｗｏｒｋａｌｇｏｒｉｔｈｍｉｎｗｉｎｔｅｒ

ｗｈｅａｔｙｉｅｌｄｐｒｅｄｉｃｔｉｏｎ：ａｓｕｒｖｅｙ

ＺＥＮＧＪｉａｎｍｉｎｇ，ＬＩＹｕｅ，ＷＥＩＬｉｎｊｉｎｇ，ＺＨＡＯＸｉａ，ＺＨＯＵＨｕｉ

（ＣｏｌｌｅｇｅｏｆＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＧａｎｓｕＡｇｒｉｃｕｌｔｕｒｅＵｎｉｖｅｒｓｉｔｙ，Ｌａｎｚｈｏｕ７３００７０，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ｔｈｅｗｈｅａｔｉｎｄｕｓｔｒｙｉｓｃｒｕｃｉａｌｆｏｒｎａｔｉｏｎａｌｆｏｏｄｓｅｃｕｒｉｔｙａｎｄｐｕｂｌｉｃｗｅｌｆａｒｅ．Ａｃｃｕｒａｔｅａｎｄｓｃｉｅｎｔｉｆｉｃｐｒｅｄｉｃｔｉｏｎｏｆｗｈｅａｔｙｉｅｌｄｉｓｓｉｇｎｉｆｉｃａｎｔｆｏｒｔｈｅｄｅｖｅｌｏｐｍｅｎｔｏｆａｇｒｉｃｕｌｔｕｒａｌｅｃｏｎｏｍｙ，ｆｏｒｍｕｌａｔｉｏｎｏｆｆｏｏｄｉｍｐｏｒｔａｎｄｅｘｐｏｒｔｐｌａｎｓ，ａｎｄｅｎｓｕｒｉｎｇｎａｔｉｏｎａｌｆｏｏｄｓｅｃｕｒｉｔｙ．Ｔｈｅｍｅｔｈｏｄｐｒｏｐｏｓｅｄｉｎｔｈｉｓｐａｐｅｒｕｓｅｓｃｏｒｒｅｌａｔｉｏｎａｎａｌｙｓｉｓｔｏｓｔｕｄｙｔｈｅｒｅｌａｔｉｏｎｓｈｉｐｂｅｔｗｅｅｎｒｅｍｏｔｅｓｅｎｓｉｎｇｐａｒａｍｅｔｅｒｓａｎｄｙｉｅｌｄ．Ｔｈｅｒａｎｄｏｍｆｏｒｅｓｔａｌｇｏｒｉｔｈｍｉｓｅｍｐｌｏｙｅｄｔｏｅｖａｌｕａｔｅｔｈｅｉｍｐｏｒｔａｎｃｅｏｆｆｅａｔｕｒｅｖａｒｉａｂｌｅｓ，ｅｌｉｍｉｎａｔｉｎｇｔｈｏｓｅｉｒｒｅｌｅｖａｎｔｏｒｌｅｓｓｉｍｐａｃｔｆｕｌｏｎｔｈｅｔａｒｇｅｔｃｏｒｒｅｌａｔｉｏｎ．Ｆｉｎａｌｌｙ，ｔｈｅＢＰｎｅｕｒａｌｎｅｔｗｏｒｋｉｓｕｓｅｄｆｏｒｙｉｅｌｄｐｒｅｄｉｃｔｉｏｎ．ＴｈｅｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅＮｏｒｍａｌｉｚｅｄＤｉｆｆｅｒｅｎｃｅＶｅｇｅｔａｔｉｏｎＩｎｄｅｘ（ＮＤＶＩ）ｈａｓａｐｏｓｉｔｉｖｅｃｏｒｒｅｌａｔｉｏｎｗｉｔ

ｈｙｉｅｌｄｔｈｒｏｕｇｈｏｕｔｔｈｅｅｎｔｉｒｅｗｉｎｔｅｒｗｈｅａｔｇｒｏｗｔｈｐｅｒｉｏｄｉｎＴｉａｎｓｈｕｉＣｉｔｙ．Ｒｅｌａｔｉｖｅｈｕｍｉｄｉｔｙ，ＮＤＶＩ，ｍｉｎｉｍｕｍｔｅｍｐｅｒａｔｕｒｅ，ｓｏｉｌｍｏｉｓｔｕｒｅ，ａｎｄｉｒｒａｄｉａｎｃｅａｒｅｉｄｅｎｔｉｆｉｅｄａｓｉｍｐｏｒｔａｎｔｆａｃｔｏｒｓｉｎｆｌｕｅｎｃｉｎｇｗｈｅａｔｙｉｅｌｄｐｒｅｄｉｃｔｉｏｎ．Ｃｏｍｐａｒｅｄｔｏｓｃｅｎａｒｉｏｓｗｉｔｈｏｕｔｆｅａｔｕｒｅｖａｒｉａｂｌｅｓｅｌｅｃｔｉｏｎ，ｔｈｅａｃｃｕｒａｃｙｏｆｗｉｎｔｅｒｗｈｅａｔｙｉｅｌｄｐｒｅｄｉｃｔｉｏｎｓｉｇｎｉｆｉｃａｎｔｌｙｉｍｐｒｏｖｅｄ，ｍｅｅｔｉｎｇｔｈｅｐｒｅｃｉｓｉｏｎｒｅｑｕｉｒｅｍｅｎｔｓｆｏｒｙｉｅｌｄｐｒｅｄｉｃｔｉｏｎ．Ｔｈｉｓｐｒｏｖｉｄｅｓｒｅｌｉａｂｌｅａｇｒｉｃｕｌｔｕｒａｌｉｎｆｏｒｍａｔｉｏｎｆｏｒｒｅｌｅｖａｎｔａｇｒｉｃｕｌｔｕｒａｌｄｅｐａｒｔｍｅｎｔｓａｎｄｏｆｆｅｒｓａｒｅｆｅｒｅｎｃｅｆｏｒｆｏｒｍｕｌａｔｉｎｇｇｒａｉｎｐｏｌｉｃｉｅｓａｎｄｏｒｇａｎｉｚｉｎｇｇｒａｉｎｐｒｏｄｕｃｔｉｏｎ．Ｋｅｙｗｏｒｄｓ：ｒａｎｄｏｍｆｏｒｅｓｔ；ＢＰｎｅｕｒａｌｎｅｔｗｏｒｋ；ｗｉｎｔｅｒｗｈｅａｔ；ｐｒｏｄｕｃｔｉｏｎｆｏｒｅｃａｓｔ

基金项目：国家自然科学基金（３２０６０４３７，３１３６０３１５）；甘肃农业大学青年导师基金项目（ＧＡＵ－ＱＤＦＣ－２０２０－１２）；甘肃省自然科学基金

（１８ＪＲ３ＲＡ１６５）㊂

作者简介：曾健铭（１９９６－），男，硕士研究生，主要研究方向：农业信息化研究㊂

通讯作者：李㊀玥（１９７９－），女，博士，副教授，主要研究方向：智慧农业㊁大数据分析与挖掘㊂Ｅｍａｉｌ：ｌｉｙｕｅ＠ｇｓａｕ．ｅｄｕ．ｃｎ收稿日期：２０２３－０２－２４

０㊀引㊀言

中国作为人口大国和农业大国，粮食是人类生存之本，实现经济社会发展之基㊂小麦作为中国四大主粮之一，比重占粮食的三分之一，小麦产业是关系到国家粮食安全和民生的重要问题，通过对小麦产量进行科学准确的预测，对农业经济的发展㊁制定粮食进出口计划㊁确保国家粮食安全有重要意义㊂由于影响小麦产量的因素众多，不容易建立各影响

因子与粮食产量的分析模型，对其精准的预测存在一定难度㊂

近年来，随着人工智能和遥感技术的快速发展，农业科技加速发展，为农业研究提供了新技术和新模式，推动了遥感对农业估产的发展［１］㊂目前遥感技术和遥感参数的作物估产方法主要有以下两种类型：一是作物模型，二是基于统计模型结合遥感参数的遥感估产方法㊂作物估产模型包括农业技术转移决策支持系统（ＤＳＳＡＴ）［２］㊁农业生产系统模拟器

（ＡＰＳＩＭ）［３］和世界粮食研究模型（ＷＯＦＯＳＴ）［４］等等㊂以上模型需要输入的数据众多，如土壤数据㊁气象数据和施肥量等㊂虽然可以精确模拟作物生长过程，但是研究区域较小，遥感参数和作物模型结合的数据同化，可以实现大区域的产量估测，但是需要的数据量大及精细的数据，导致精准度不够高［５］㊂基于统计模型结合遥感参数的遥感估产方法包括线性和非线性模型，通常作物的产量表现是非线性的［６］，因此非线性模型应用更加广泛，如随机森林［７－８］和神经网络［９－１３］等㊂王来刚等［１４］利用森林算法对特征变量进行了重要性分析和产量预测，得出增强型植被指数（ＥｎｈａｎｅｅｄＶｅｇｅｔａｔｉｏｎＩｎｄｅｘ，ＥＶＩ）㊁日光诱导叶绿素荧光（Ｓｕｎ－ＩｎｄｕｃｅｄＣｈｌｏｒｏｐｈｙｌｌＦｌｕｏｒｅｓｃｅｎｃｅ，ＳＩＦ）和高程数据对小麦产量影响较大；刘峻明等［１５］利用随机森林结合长时间序列气象数据，对冬小麦生育早期的产量预测取得良好的效果，得出平均温度㊁最低温度㊁负积温㊁最高温度在不同生育阶段对产量的影响程度；裴傲［１６］将遥感数据和气象数据建立的神经网络预测玉米单产模型，证明了ＮＤＶＩ㊁ＥＶＩ㊁比值植被指数（ＲａｔｉｏＶｅｇｅｔａｔｉｏｎＩｎｄｅｘ，ＲＶＩ）和差值植被指数（ＤｉｆｆｅｒｅｎｃｅＶｅｇｅｔａｔｉｏｎＩｎｄｅｘ，ＤＶＩ）４种植被数据以及气象数据，对产量影响的有效性和实用性；李海涛等［１７］通过决策树筛选出最优的特征属性作为ＢＰ神经网络的输入参数，训练数据缩短，取得了良好的预测结果㊂综上所述，本文针对输入特征变量筛选难和预测精度较低等问题，基于随机森林和ＢＰ神经网络，以天水市为研究区域，基于遥感参数和气象数据的结合与冬小麦实际总产量数据，使用随机森林重要性分析评估，对特征属性进行筛选，采用ＢＰ神经网络构建冬小麦产量预测模型，剔除对目标相关性无关或影响很小的特征属性，提升冬小麦的产量预测精度㊂

１㊀方法研究

１．１㊀随机森林算法

随机森林由多棵分类回归树（ＣｌａｓｓｉｆｉｃａｔｉｏｎａｎｄＲｅｇｒｅｓｓｉｏｎＴｒｅｅ，ＣＡＲＴ）构建模型［１８］，其主要实现步骤如下：

（１）假设初始训练集为Ｎ，通过自助法（Ｂｏｏｔｓｔｒａｐ）进行重采样，结合点随机分裂技术共同构建多棵决策树㊂随机采样过程中，将未被抽取的数据作为袋外数据（Ｏｕｔ－ｏｆ－Ｂａｇ，ＯＯＢ），使用抽取的ＯＯＢ数据可估计局部误差和特征显著性评价；

（２）假设每一个样本有Ｍ个属性，决策树的每一个节点需要分裂时，随机从Ｍ个属性中抽取ｍ个属性（ｍ＜Ｍ），之后从ｍ属性中采取某种策略（如：信息增益）选择一个最优的属性为该节点的分类变量；（３）决策树分裂过程的每个节点都按照步骤２处理，直到不能再继续分裂（整个决策树形成过程不需要进行剪枝）；

（４）由生成的多颗决策树组成的随机森林，将新的数据判别和分类，用不同的决策树投票来获取最终的分类结果㊂

１．２㊀特征变量重要性

原始数据集中往往有多个特征变量，从数据集中抽取一部分特征，使其降低特征维度提升算法性能，选择对结果影响较高的几个特征变量，以减少建模时特征变量数㊂随机森林模型不仅在预测问题上有着广泛的应用，还可以对特征变量进行重要性分析㊂本研究通过随机森林分析ＯＯＢ误差评价特征变量，对高维数据样本进行筛选，从而得到各特征变量的重要性，选择重要性较高的几个作为ＢＰ神经网络的输入变量㊂计算特征变量重要性的具体步骤如下：（１）使用对应的ＯＯＢ数据，计算每颗决策树的袋外数据误差（记作ｅｒｒＯＯＢ１）㊂这样每棵决策树都得到一个ｅｒｒＯＯＢ１，Ｔ棵决策树就有Ｔ个ｅｒｒＯＯＢ１㊂（２）遍历所有特征，考察特征的重要性㊂随机对袋外数据样本特征遍历，并随机更改特征变量值（该操作加入噪声干扰），然后重新计算袋外数据误差（记为ｅｒｒＯＯＢ２）㊂

（３）当随机森林中有Ｔｔｒｅｅ颗树时，特征变量的重要性用公式ð（ｅＯＯＢ２－ｅＯＯＢ１）／Ｔｔｒｅｅ表示㊂若随机给某个特征变量加入噪声干扰，则袋外准确率将大幅降低，表明该特征变量对于模型预测结果影响很大，同时说明该特征变量重要程度较高㊂

１．３㊀ＢＰ神经网络

ＢＰ神经网络（Ｂａｃｋ－ＰｒｏｐａｇａｔｉｏｎＮｅｔｗｏｒｋ）１９８６年由Ｒｕｍｅｌｈａｒｔ和ＭｃＣｌｅｌｌａｎｄ为首的科学家小组提出，是目前应用于产量预测最广泛的神经网络模型之一㊂ＢＰ神经网络按误差反向传播算法训练，主要由输入层㊁输出层以及一个或多个隐含层组成，其网络

结构如图１所示㊂ＢＰ神经网络的输入为ｘｉ；ｗｉｊ为输入层与隐含层的权值；Φ为隐含层激活函数；ｗｉｄ为隐含层与输出层之间的权值；输出层激活函数为Ψ；θｉ㊁θｋ分别为隐含层与输出层的阈值；θｋ为神经网络的输出［１９］㊂

７６１

第２期曾健铭，等：基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究

输入层

隐含层

输出层X j

W i j

W i d

O K

αK

θi

图１㊀３层ＢＰ神经网络结构图

Ｆｉｇ．１㊀Ｓｔｒｕｃｔｕｒｅｄｉａｇｒａｍｏｆ３－ｌａｙｅｒＢＰｎｅｕｒａｌｎｅｔｗｏｒｋ

１．４㊀预测模型构建

在相关数据输入ＢＰ神经网络模型之前，需将遥感参数和气象数据，通过随机森林重要性评

估方法，剔除多余的特征变量，选取最优的特征变量集合作为ＢＰ神经网络输入节点构建神经网络，并在特征变量属性和冬小麦产量之间建模，如图

２所示㊂

对每个样本，计算其作为O O B 样本的树对O O B 的分类情况(约1/3的树)以简单多数投票作为该样本的分类结果

用误分个数占样本总数的比率作为随机森林的O O B 误分率

最优特征变量集合

遥感数据

气象数据

小麦总产量

随机森林算法特征

重要性分析B P 神经网络

调整权重调整权重

反向传播过程输入层隐含层

输出层

正向传播过程

x 1x 2

x 3

x n

输出结果

图２㊀产量预测流程

Ｆｉｇ．２㊀Ｙｉｅｌｄｐｒｅｄｉｃｔｉｏｎｐｒｏｃｅｓｓ

㊀㊀经过对特征变量数据训练，获取预测网络，通过测试和调整，对冬小麦产量进行预测㊂主要步骤如下：

（１）为了使数据的量纲保持一致，将数据统一

到［０－１］之间，归一化公式为

ｘｉ＝

ｘ－ｘｍａｘ

ｘｍａｘ－ｘｍｉｎ（１）

㊀㊀其中，ｘ为初始数据；ｘｍｉｎ㊁ｘｍａｘ分别为初始数据的最小值和最大值；ｘｉ为归一化处理后的数据㊂

（２）通过对特征变量进行随机森林的ＯＯＢ重要性分析，结合模型情况确定网络最佳特征变量集合㊂

（３）将最佳特征变量集合作为ＢＰ神经网络模型输入，确定网络结构和隐含层数进行训练㊂

（４）对网络进行测试验证，查验训练效果和预

测精准度是否达到预期，如达到最大迭代次数和精准度，则停止网络训练并获取输出结果㊂１．５㊀参数设计

在ＢＰ神经网络的输入层，输入由随机森林的重要性评估后的相对湿度㊁ＮＤＶＩ㊁最低温度㊁土壤湿度和辐照度等５个影响产量的特征变量值，将小麦产量作为ＢＰ神经网络模型网络输出㊂本文神经网络输入层到隐含层采用Ｒｅｌｕ函数，输出层采用ｌｉｎｅａｒ函

数，学习速率为０．０００１，训练次数为２０００次㊂

在ＢＰ神经网络中，输入层和输出层的节点数都是确定的，而隐含层节点数是根据经验公式确定［２０］，计算公式为

ｈ＝

㊀

ｍ＋ｎ＋ａ（２）

式中：ｈ为隐含层节点的神经元数，ｍ和ｎ分别是输入层和输出层节点的神经元数，ａ为１－１０之间的调节常数㊂根据公式隐含层确定在７－１６之间，依据不同隐层节点数训练结果比较，本文选择隐含层的节点数为１６㊂

２㊀验证分析

２．１㊀

数据来源

试验所需数据包括２０００－２０２１年天水市各县冬小麦生长期的遥感㊁气象和小麦产量数据㊂

２．１．１㊀遥感数据

遥感参数采用归一化植被指数（Ｎｏｒｍａｌｉｚｅｄ

ＤｉｆｆｅｒｅｎｃｅＶｅｇｅｔａｔｉｏｎＩｎｄｅｘ，ＮＤＶＩ），其是反映作物长势和营养信息的重要参数，与作物的产量有很好的相关性，常被用于产量预测的特征变量［２１－２２］㊂本文选取的天水市各县植被指数均来自美国国家航空航天局（ＮＡＳＡ），ＭＯＤ１３Ｑ１产品空间分辨率是２５０ｍ，时间分辨率是１６ｄ，并按天水市耕地进行掩膜处理，

８

６１智㊀能㊀计㊀算㊀机㊀与㊀应㊀用㊀㊀㊀㊀㊀

㊀㊀㊀㊀㊀㊀㊀㊀㊀第１４卷㊀

将ＭＯＤＩＳ图像在Ａｒｃｇｉｓ软件中进行波段运算，得到

天水市各县２０００－２０２１年（每年１０月－次年５月份）ＮＤＶＩ植被指数的分布情况，采用最大值合成法得到每个月的最大植被指数数据㊂

２．１．２㊀气象数据

气象数据来自ＮＡＳＡＰｏｗｅｒ气象数据库获取的２０００－２０２１年天水市气象要素㊂气象要素来自天水市麦积区㊁甘谷㊁秦安㊁秦州㊁清水㊁武山和张家川７个区县的数据，其中包括辐照度㊁最高气温㊁最低温度㊁土壤湿度㊁相对湿度㊁平均气温和降雨量等７个要素㊂

２．１．３㊀小麦产量数据

天水市各县２０００－２０２１年的小麦产量数据来源于‘甘肃发展年鉴“㊂

２．２㊀评价指标

实验中采用平均绝对百分误差（ＭｅａｎＡｂｓｏｌｕｔｅＰｅｒｃｅｎｔａｇｅＥｒｒｏｒ，ＭＡＰＥ）㊁均方根误差（ＲｏｏｔＭｅａｎＳｑｕａｒｅｄＥｒｒｏｒ，ＲＭＳＥ）和平均绝对误差（ＭｅａｎＡｂｓｏｌｕｔｅＥｒｒｏｒ，ＭＡＥ）作为评价指标，对预测模型的性能进行比较㊂计算公式如下：

ＭＡＰＥ＝１ｎðｎｉ＝１ｙｉ－ｐｉｙｉˑ１００％（３）

ＲＭＳＥ＝１ｎðｎｉ＝１（ｐｉ－ｙｉ）２（４）

ＭＡＥ＝１ｎðｎｉ＝１ｐｉ－ｙｉ（５）

式中：ｐｉ是小麦产量的预测值，ｙｉ是实际值㊂ＭＡＰＥ㊁ＲＭＳＥ和ＭＡＥ的值越小，说明预测值与实际值偏差越小，预测性能越好，反之说明预测性能越差㊂２．３㊀植被指数与产量的相关性分析

为研究植被指数和冬小麦产量之间的关系，从时间上对归一化植被指数（ＮｏｒｍａｌｉｚｅｄＤｉｆｆｅｒｅｎｃｅＶｅｇｅｔａｔｉｏｎＩｎｄｅｘ，ＮＤＶＩ）与产量之间进行相关性分析㊂遥感参数（ＮＤＶＩ）与小麦产量在每个月份之间的相关性如图３所示㊂在整个冬小麦生育期，ＮＤＶＩ与产量都呈正相关，在冬小麦生长关键期２－５月份，相关系数均达到０．４左右；２－４月份达到了最高峰，该期间属于冬小麦返青－孕穗期，此时小麦进入了旺盛的生长期，营养生长与生植生长并进的重要时期㊂在此期间，生长所需的水分和养分最多，叶面积及茎穗快速增长，直接决定了穗数和粒数的关键阶段，也是影响小麦产量高低最关键时期㊂之后，因为小麦冠层叶片衰老和籽粒灌浆，ＮＤＶＩ与小麦产量之间的相关性降低㊂

0.6

0.4

0.2

10111212345

月份

相

关

系

数

图３㊀ＮＤＶＩ与冬小麦产量相关性

Ｆｉｇ．３㊀ＴｈｅｃｏｒｒｅｌａｔｉｏｎｂｅｔｗｅｅｎＮＤＶＩａｎｄｗｉｎｔｅｒｗｈｅａｔｏｕｔｐｕｔ２．４㊀特征变量重要性分析

特征选择不仅可以防止模型过拟合㊁减少模型的泛化误差，还可以减少硬件资源的损失㊁模型的开发成本和训练时间㊂有些特征变量对目标相关性低或者无关，输入的特征变量属性过多将导致网络收敛速度降低，从而增加过拟合的几率㊂因此，对神经网络训练前将特征变量进行筛减，选取重要性较高的５个特征变量作为ＢＰ神经网络的特征集㊂将ＮＤＶＩ㊁辐照度㊁相对湿度㊁土壤湿度㊁降水量㊁最高温度㊁最低温度和平均气温等特征变量，采用随机森林的袋外ＯＯＢ进行重要性分析，特征变量重要性指标

由大到小排序（见图４）㊂分析表明，相对湿度㊁ＮＤＶＩ㊁最低温度㊁土壤湿度和辐照度对小麦产量的重要性大于其它因素，重要性指标平均值都超过了０．１３，说明这些特征变量是影响小麦产量的重要环境因子；而降雨量㊁最高温度和平均温度的重要性相对较低，对小麦产量的影响较小，因此可将这些特征变量剔除㊂

0.20

0.15

0.10

0.05

重

要

性

指

标

相

对

湿

度

最

低

温

度

土

壤

温

度

辐

照

度

降

雨

量

最

高

温

度

平

均

温

度

特征变量

图４㊀小麦特征变量重要性统计图

Ｆｉｇ．４㊀Ｓｔａｔｉｓｔｉｃｓｏｆｔｈｅｉｍｐｏｒｔａｎｃｅｏｆｖａｒｉａｂｌｅｓｉｎｗｈｅａｔｃｈａｒａｃｔｅｒｉｓｔｉｃ

９６１

第２期曾健铭，等：基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究

２．５㊀模型预测结果分析

本文选取２０００－２０２１年的数据作为实验样本数据㊂为了验证该模型的预测精准度，将样本数据分为训练样本和测试样本两部分㊂其中２０００－２０１８

年的数据作为训练集数据用于模型训练，利用训练好的模型对２０１９－２０２１年的产量进行预测，将结果与年鉴中的实际小麦产量数据进行对比与分析，结果见表１㊂

表１㊀模型预测结果Ｔａｂｌｅ１㊀Ｐｒｅｄｉｃｔｉｏｎｒｅｓｕｌｔｓ

年份天水市各县

真实值（ｋｇ／ｈｍ２）

预测数据（ｋｇ／ｈｍ２）绝对误差（ｋｇ／ｈｍ２）

相对误差（％）

２０１９甘谷３２６３．０３３３３７．１１７４．０８

２．２７２０１９麦积３３０５．９２３１４６．０３１５９．８９４．８４２０１９秦安２９７６．５９３１４３．９６１６７．３７５．６２２０１９秦州３３３４．８０３１３３．３６２０１．４４６．０４２０１９清水３０９９．６４３０８８．１７１１．４７０．３７

２０１９武山

３２３３．８３２８２６．０４４０７．７９１２．６１２０１９张家川２７９８．９４３１５６．６８３５７．７４１２．７８２０２０甘谷３３６４．７５３４３２．１３６７．３８２．００２０２０麦积３４６１．１６３４６２．１３０．９７０．０３２０２０秦安３１０９．３７３３５９．６３２５０．２６８．０５２０２０秦州３４５８．５９３６０２．４９１４３．９０４．１６２０２０清水３２０４．２３３４４５．２４２４１．０１７．５２２０２０武山３３６１．８９３３２７．７９３４．１０

１．０１２０２０张家川２９１４．３６３２４８．５８３３４．２２１１．４７２０２１甘谷３５２

０．６２３４６６．７７５３．８５１．５３２０２１麦积３６５０．７６３３９０．４１２６０．３５７．１３２０２１秦安３２７０．６５３３４１．１１７０．４６２．１５２０２１秦州３６２０．７７３３６１．９４２５８．８３７．１５２０２１清水３３５５．９８３４２５．１５６９．１７２．０６２０２１武山３４５３．９８３０９７．１８３５６．８０１０．３３２０２１

张家川３０５２．０２

３２５６．７０

２０４．６８６．７１㊀㊀结果表明，小麦的估测数据与年鉴中的实际小麦产量数据之间的绝对误差最高值是４０７．７９ｋｇ／ｈｍ２，绝对值的最低值是０．９７ｋｇ／ｈｍ２，平均绝对误差值是

１７７．４２ｋｇ／ｈｍ２

；相对误差值最低的是０．０３％，最高值

是１２．７８％，平均相对误差值是５．５２％，说明模型的预测结果满足了对小麦产量预测的要求，能较好的对研究区的小麦产量进行预测㊂

表２㊀不同模型的精度评价

Ｔａｂｌｅ２㊀Ａｃｃｕｒａｃｙｅｖａｌｕａｔｉｏｎｏｆｄｉｆｆｅｒｅｎｔｍｏｄｅｌｓ模型ＭＡＰＥ／％ＲＭＳＥ／（ｋｇ㊃ｈｍ－２）ＭＡＥ／（ｋｇ㊃ｈｍ－２）

ＢＰ神经网络１１．３１４９０．２８４００．６１本文模型

６．９１

２１４．８６

１７７．４１

㊀㊀根据表２对比结果表明，本文模型的ＭＡＰＥ为

６．９１％㊁ＲＭＳＥ为２１４．８６ｋｇ／ｈｍ２㊁ＭＡＥ为１７７．４１ｋｇ／ｈｍ２，而ＢＰ神经网络的ＭＡＰＥ为１１．３１％㊁ＲＭＳＥ为

４９０．２８ｋｇ／ｈｍ２㊁ＭＡＥ为４００．６１ｋｇ／ｈｍ２㊂相比之下，对于冬小麦产量预测精准度有明显提升㊂

３㊀结束语

针对小麦产量预测问题，分析遥感参数与产量之间的相关性，构建了基于随机森林和ＢＰ神经网络组合的小麦产量预测模型㊂该模型基于遥感数据㊁气象数据和产量统计数据，所需的数据简单易得，并且能够有较高的预测精准度，为相关的农业部门提供可靠的农情信息，为制定粮食政策与组织粮食生产提供参考依据㊂结合实际数据，得出以下结论：

ＮＤＶＩ是小麦产量预测的重要因子，与小麦产量呈高度相关性，特别是在冬小麦生长关键期２－５月份达到了最高，相关系数均达到０．４左右㊂说明ＮＤＶＩ是评估小麦生长和产量的重要指标㊂在８类

０７１智㊀能㊀计㊀算㊀机㊀与㊀应㊀用㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第１４卷㊀

688IT编程网

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

688IT编程网

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法 正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

nginx map用法正则

nginx map用法正则