基于改进ConvNext的复杂背景下玉米叶片病害分类--688IT编程网

马　晓，邢　雪，武青海．基于改进ＣｏｎｖＮｅｘｔ的复杂背景下玉米叶片病害分类［Ｊ］．江苏农业科学，２０２３，５１（１９）：１９０－１９７．ｄｏｉ：１０．１５８８９／ｊ．ｉｓｓｎ．１００２－１３０２．２０２３．１９．０２８

正则化参数的自适应估计基于改进ＣｏｎｖＮｅｘｔ的复杂背景下玉米叶片病害分类

马　晓１，邢　雪１，武青海１

，２

（１．吉林化工学院信息与控制工程学院，吉林吉林１３２０２２；２．吉林农业科技学院电气与信息工程学院，吉林吉林１３２１０１）

摘要：针对玉米叶片病害分类过程中存在叶片背景复杂且背景与被识别叶片具有较高相似度的问题，提出一种改进的Ｃ

ｏｎｖＮｅＸｔ算法。首先通过随机遮挡等数据增强操作多样化病害数据集，增强网络的抗干扰能力，从而提高了模型的鲁棒性。其次，为了提高网络的分类准确度，在ＣｏｎｖＮｅＸｔ网络的基础上融合多个注意力模块，使网络更加关注具有判别性的特征，以减少背景的干扰，并在注意力模块中使用ＬｅａｋｙＲｅＬｕ激活函数从而避免网络在输入为负值时神经元不学习的情况。最后，以具有３种玉米常见叶片病

害的图像和健康叶片作为分类样本，采用改进后的ＣｏｎｖＮｅＸｔ模型与相同样本数量和条件下的原ＣｏｎｖＮｅＸｔ、ＲｅｓＮｅｔ５０以及ＳｗｉｎＴｒａｎｓｆｏｒｍｅｒ进行试验和对比分析，试验表明，改进后的网络模型在测试集的平均分类准确率为９１．７７％，优于ＲｅｓＮｅｔ５０（８５．６４％）、ＣｏｎｖＮｅＸｔ－Ｔ（７９．９１％）和ＳｗｉｎＴｒａｎｓｆｏｒｍｅｒ（８９．０９％）３个对比模型，证明了通过改进后的ＣｏｎｖＮｅＸｔ进行叶片病害的特征提取，提高了在复杂背景下玉米叶片病害的分类精度。

关键词：图像分类；ＣｏｎｖＮｅＸｔ；注意力机制；数据增强；玉米；叶片病害

中图分类号：Ｓ１２６；ＴＰ１８１文献标志码：Ａ文章编号：１００２－１３０２（２０２３）１９－０１９０－０８

收稿日期：２０２３－０２－１０

基金项目：吉林省智慧农业工程研究中心项目（编号：ＪＬＮＫＵ２０１５）；吉林省特高水平学科新兴交叉学科“数字农业”（编号：ＪＬＸＫ２０１８０３１９）；吉林省高等教育教学改革研究课题（编号：ＪＬＪＹ２０２３３８５９４１７６）。

作者简介：马　晓（１９９９—），女，山东临沂人，硕士研究生，研究方向为人工智能图像分类。Ｅ－ｍａｉｌ：１９２５７０９０８４＠ｑｑ．ｃｏｍ。

通信作者：武青海，硕士，副教授，主要从事图形图像处理及农业信息化研究。Ｅ－

ｍａｉｌ：５７９２２１２６＠ｑｑ．ｃｏｍ。玉米作为我国主要的粮食作物，种植面积和总产量仅次于小麦和水稻居第３位。玉米不仅是重要的粮食作物、畜牧业的优良饲料，而且还是发展轻

工业、医药工业的重要原料［

１］

。在生产过程中，植物的病害是导致产量减少、质量变差的重要原因，

因病害导致玉米产量常年损失１０％～１５％［２］

。目

前发生普遍而又严重的叶部病害主要有大斑病、小斑病、锈病、灰斑病等，根据病害的方案大多都强调在发病初期采取相应的措施，所以说能够及时

准确地发现病害是非常有必要的［３］。传统的病害

识别需要人工进行，由于叶片病害复杂多样，需要丰富的经验才能准确识别病害的类别，存在耗时耗

力的问题［

４］

。随着机器学习和神经网络的发展，各种算法被应用到植物叶片病害的识别［５］

。人工智

能的不断发展对政府提出的科技强农政策具有重

大意义［６］。目前国内外对玉米叶片病害的分类主

要有２个方向：

基于传统机器学习算法的叶片病害识别和基于深度学习的病害识别。

玉米叶片病害分类的方法有很多，比较传统的是使用基于传统机器学习算法进行特征提取并分类，这种方法具有识别速度快、对硬件要求低等优点。Ｐａｎｉｇｒａｈｉ等将传统机器学习算法如朴素贝叶斯、决策树、Ｋ－最近邻、支持向量机和随机森林用于玉米病害检测，并对这些方法进行比较分析，发

现随机森林较其他算法准确率高［７］

。吕洁等利用

Ｇａｂｏｒ小波提取纹理特征，并借助局部线性嵌入降维，最终采用孪生支持向量机（ＴＷＳＶＭ）完成分类。基于机器学习算法的图像识别一般步骤为图像预处理、特征提取和分类器训练３个部分，其中特征提取是其中最重要的一个环节，它直接影响着分类的好坏，传统方式的特征提取主要通过人工设计，提

取特征难度较大［８］

。基于传统机器学习的图像识

别存在识别准确率低，特征提取设计困难等

问题［９］

。

随着神经网络以及深度学习［１０］

的发展，国内外

学者开始通过神经网络对玉米叶片病害进行自动提取特征，从而实现病害分类，这大大降低了特征提取的难度。Ｐｒｉｙａｄｈａｒｓｈｉｎｉ等通过将深度可分离卷积引入ＬｅＮｅｔ，使得玉米叶片病害分类精度达到

９７８９％［１１］

。黄英来等针对传统玉米叶片识别方法

正确率不高、速度慢等问题，通过改变残差网络内

—０９１—

第一层卷积的卷积核和改变激活函数等方法，提出一种基于改进深度残差网络模型的玉米叶片图像识别算法，使得模型的准确度大幅度提升，鲁棒性进一步增强［１２］。刘合兵等通过将ＭｏｂｉｌｅＮｅｔＶ２与迁移学习相结合的方式提高玉米叶部病害识别效率、精度，这种轻量化网络模型更适合部署在移动端［１３］。

现有研究大多是针对在较单一背景下采集的玉米叶片病害图像［１４－１６］，本研究针对在实际采集中通常存在复杂背景干扰的问题，并基于具有复杂背景信息的玉米叶片图像作为训练、验证及测试样本，开展玉米叶片病害分类研究。通过随机遮挡被识别叶片模拟真实采集中遇到的遮挡情况，提高网络

的鲁棒性，并通过融合注意力机制提高网络对具有判别性特征的权重，减少背景干扰，最后通过采用ＬｅａｋｙＲｅＬｕ激活函数克服输入为负值时神经元不学习的情况。基于所提出的改进型ＣｏｎｖＮｅＸｔ模型提取玉米叶片病害图像中的病害特征，从而实现在复杂背景干扰情况下的玉米叶片病害分类。

１　网络模型结构设计

１．１　数据增强

在玉米病害分类过程中，由于病害图像采集过程中会遇到不同天气、其他叶片遮挡病斑等情况，会导致模型的泛化能力和鲁棒性不佳，为了提高模型的分类准确度以及模型的泛化能力及鲁棒性，通常会使用图像数据增强的正则化方法［１７］。本研究通过采用旋转、高斯模糊、添加随机噪声、添加随机位置的遮挡以及亮度调节等数据增强方法分别模拟在图像采集中不同角度、其他背景叶片的遮挡以及不同天气等外界因素的干扰，从而防止模型过拟合，同时提升模型的鲁棒性和泛化能力［１８］。为避免数据集信息发生泄漏，先对原数据集按照６∶２∶２的比例划分训练集、验证集与测试集。本试验针对玉米种植中３种常见病害玉米灰斑病、玉米锈病以及玉米大斑病和健康叶片进行试验研究。以ＰｌａｎｔＶｉｌｌａｇｅｄａｔａｓｅｔ［１９］公开数据集和吉林农业科技学院“智慧农业”平台数据集作为试验对象，最终采用图像增强前数据集总量为１８２９张，数据增强后共１６４５２张，数据集在各个类别上的分布如表１所示，玉米病害图像如图１展示，并如图２展示部分数据增强效果。

表１　玉米叶片病害数据集详情

病害名称原始图像数量（张）数据增强后数量（张）健康叶片４３０３８６１

灰斑病４０９３６８１

锈病５００４５００

大斑病４９０４４１０

共计（张）１８２９１６４５

２

１．２　注意力机制

注意力机制（ａｔｔｅｎｔｉｏｎｍｅｃｈａｎｉｓｍ）是受到人类

视觉系统的启发，可以迅速将注意力集中在场景中

重要区域，从而使得在处理复杂的信息时能够将神

经网络的计算资源更多地投入到重要的任务中，并

且利用反向传播指导注意力模块，通过参数更新来

判断哪些是重要特征，从而高效准确地完成响应任

务［２０］。注意力机制被广泛用于各个领域当

中［２１－２４］，其中常用的注意力机制有ＳＥ－Ｎｅｔ［２５］

（ｓｑｕｅｅｚｅａｎｄｅｘｃｉｔａｔｉｏｎ）、ＥＣＡ－Ｎｅｔ［２６］（ｅｆｆｉｃｉｅｎｔ

ｃｈａｎｎｅｌａｔｔｅｎｔｉｏｎ）、ＳＫ－Ｎｅｔ［２７］（ｓｅｌｅｃｔｉｖｅｋｅｒｎｅｌ

ｎｅｔｗｏｒｋｓ）、ＣＢＡＭ［２８］（ｃｏｎｖｏｌｕｔｉｏｎａｌｂｌｏｃｋａｔｔｅｎｔｉｏｎ

ｍｏｄｕｌｅ）等。

ＳＥ－Ｎｅｔ显式地建模特征通道之间的相互依赖

关系，即通过学习的方式来自动获取每个通道的重

要程度。ＥＣＡ－Ｎｅｔ提出了一种不降维的局部跨信

道交互策略和自适应选择一维卷积核大小的方法。

ＣＢＡＭ包含２个部分：空间注意力模块ＳＡＭ（ｓｐａｔｉａｌ

ａｔｔｅｎｔｉｏｎｍｏｄｕｌｅ）和通道注意力模块ＣＡＭ（ｃｈａｎｎｅｌ

ａｔｔｅｎｔｉｏｎｍｏｄｕｌｅ），用来分别汇总空间和通道２个方

—

１

９

１

—

面的注意力信息，其整体结构如图３所示，其ＣＡＭ与ＳＡＭ模块分别如图４和图５所示。通道注意力模块的计算公式如公式（１）所示，其中σ表示ｓｉｇｍｏｉｄ激活函数，Ｆａｖｇ与Ｆｍａｘ分别表示全局平均池化和全局最大池化的输出结果，Ｗ０和Ｗ１表示２层不同的神经网络操作。空间注意力模块的计算公式如公式（２）所示，ｆ７×７代表卷积核大小为７×７的卷积操作，［］代表通道拼接操作。ＣＢＡＭ总体流程可以由公式（３）和公式（４）表示，其中输入特征Ｆ（Ｆ∈｛

ＲＣ×Ｈ×Ｗ

｝），通道注意力模块输出ＣＡＭ（ＣＡＭ∈

｛ＲＣ×１×１

｝），空间注意力模块输出ＳＡＭ（ＳＡＭ∈｛Ｒ１×Ｈ×Ｗ｝），通道注意力输出结果Ｆ′和空间注意力

输出结果Ｆ″。本研究就是使用的这种通道与空间结合的注意力模块。

ＣＡＭ（Ｆ）＝σ｛Ｗ１［Ｗ０（Ｆｃａｖｇ）］＋Ｗ１［Ｗ０（Ｆｃｍａｘ

）］｝；（１）

ＳＡＭ（Ｆ）＝σ｛ｆ７×７

（［Ｆｓａｖｇ；Ｆｓｍａｘ

］）｝；（２）Ｆ′＝ＣＡＭ（Ｆ）Ｆ；（３）Ｆ″＝ＳＡＭ（Ｆ′）Ｆ

′。（４

）

—２９１—

１．３　改进型ＣｏｎｖＮｅＸｔ

本试验用到的ＣｏｎｖＮｅＸｔ－Ｔ［２９］

模型是基于ＲｅｓＮｅｔ５０［３０］并根据ＳｗｉｎＴｒａｎｓｆｏｒｍｅｒ［３１］

的思想进行

改进得到的。本研究提出的改进型ＣｏｎｖＮｅＸｔ（ＣＢＡＭ－ＣｏｎｖＮｅＸｔ）结构如图６所示，网络结构主要包含用于特征提取的ＣｏｎｖＮｅＸｔ模块（图７）、用于下采样的拆分降采样模块（图８），以及为消除复杂背景干扰所增加的注意力模块，本试验通过对

ＳＥＮｅｔ、ＥＣＡＮｅｔ、ＳＫＮｅｔ以及ＣＢＡＭ注意力模块进行对比分析，最终选用ＣＢＡＭ作为本模型的注意力模块。ＣＢＡＭ是结合通道以及空间２个角度的注意力机制，它将提取到的中间特征依次映射到通道维度和空间维度进行注意力分析，最后将得到的注意力分数与输入的中间特征图进行相乘得到添加注意力后的特征图，

进而进行下一步的卷积操作。

同时本试验在ＣＢＡＭ注意力模块中的使用

ＬｅａｋｙＲｅＬｕ［３２］激活函数，通过修正ＲｅＬｕ激活函数的

非线性单元从而克服输入为负值时神经元不学习的情况，ＬｅａｋｙＲｅＬｕ激活函数如公式（５）所示，函数

图像如图９

所示。

—

３９１—

ＬｅａｋｙＲｅＬｕ＝

ｘ，ｘ＞０

ａｘ，ｘ≤{

０

。

（５）

改进型ＣｏｎｖＮｅＸｔ模型首先将大小为２２４×２２４的三通道彩玉米叶片病害图像经过一个大小为４×４步长为４的卷积操作进行浅层特征的提取，并经过层归一化，输出大小为５６×５６通道数为９６的特征图，经过卷积操作得到的特征图的宽高计算公式为公式（６）和公式（７），其中Ｈ、Ｗ为

经过卷积后特征图的高、宽，ｈ、ｗ为卷积前的高宽，ｋ为卷积核的大小，ｐ为填充的大小，ｓ为卷积的步长。接下来就是经过４个Ｃ

ｏｎｖＮｅＸｔ块和４个注意力模块以及３个下采样模块进行进一步的特征提取、添加注意力分数以及下采样操作，使得网络更加关注病害特征而减少对复杂背景的关注从而减少干扰。

Ｈ＝（ｈ－ｋ＋２ｐ）／ｓ＋１；（６）Ｗ＝（ｗ－ｋ＋２ｐ）／ｓ＋１。

（７）

２　试验准备工作２．１　试验环境与设置

本试验采用ＰａｄｄｌｅＰａｄｄｌｅ２．３．２深度学习框架，编程语言为ｐｙｔｈｏｎ３．７，并采用４核ＣＰＵ以及ＴａｓｌａＶ１００的ＧＰＵ加速训练。网络采用交叉熵损失函数（ＣｒｏｓｓＥｎｔｒｏｐｙＬｏｓｓ）结合自适应矩估计（Ａｄａｍ）作为优化器进行训练，该优化器可以根据训练参数对学习率进行自适应调整训练迭代１００次，批量大小设置为６４，学习率设置为０．０００００１。２．２　评价标准

本研究通过Ｓｏｆｔｍａｘ作为模型的输出进而计算被预测对象所属的类别，Ｓｏｆｔｍａｘ的表达式为

Ｙ（Ｐ）＝Ｐ（ｙ＝ｐ｜ｘ，θｐ

）＝ｅ

ｘＴ

·θｐ∑ｃｐ＝１ｅ

ｘＴ·θｐ

。（８）

并用交叉熵损失函数来作为进行网络优化的标准，并使用Ａｄａｍ优化器对模型参数进行优化，交叉熵损失函数的表达式为

ｍｉｎ｛Ｗ，ｂ；θ｝ε（Ｗ，ｂ；θ）＝１Ｎ∑Ｎ

ｎ＝１［－∑Ｃ

ｐ＝１

γ（ｙｎ＝ｐ）·ｌｇＰ（ｙ＝ｐ｜θｐ

）］＋λＲ（θ）。（９）

为更加直观地观察网络模型的好坏进行模型的对比，本试验引入准确率（Ａｃｃｕｒａｃｙ）、精确率（Ｐｒｅｃｉｓｉｏｎ）、召回率（Ｒｅｃａｌｌ）、Ｆ１－

ｓｃｏｒｅ对模型进行评估［３３］。正确率可以表示模型整体的预测精准度，

但是在样本不平衡的情况下，正确率并不能很好地

作为衡量模型好坏的标准；精确率代表在正样本结果中预测的准确程度；召回率则是在所有正样本中正确预测为正样本的概率。准确率、精确率、召回率、Ｆ１－

ｓｃｏｒｅ在二分类中的公式定义如下：Ａｃｃｕｒａｃｙ＝ＴＰ＋ＴＮ

ＴＰ＋

ＴＮ＋ＦＰ＋ＦＮ；

（１０）Ｐｒｅｃｉｓｉｏｎ＝ＴＰ

ＴＰ＋ＦＰ；

（１１）Ｒｅｃａｌｌ＝ＴＰ

ＴＰ＋

ＦＮ；

（１２）Ｆ１－ｓｃｏｒｅ＝２×Ｐｒｅｃｉｓｉｏｎ×Ｒｅｃａｌｌ

Ｐｒｅｃｉｓｉｏｎ

＋Ｒｅｃａｌｌ。（１３）

其中：ＴＰ（ＴｒｕｅＰｏｓｉｔｉｖｅ）表示正样本预测答案正确，

ＦＰ（ＦａｌｓｅＰｏｓｉｔｉｖｅ）表示错将负样本预测为正样本，ＴＮ（ＴｒｕｅＮｅｇａｔｉｖｅ）表示负样本预测答案正确，ＦＮ（ＦａｌｓｅＮｅｇａｔｉｖｅ）表示错将正样本预测为负样本。

为更加直观地看到模型分类的效果，采用混淆

矩阵［３５］来对分类结果进行展示，其每一列代表了预

测的标签类别，每一行表示数据真实的标签类别，数据越集中在对角线上说明模型分类效果越好。３　试验结果对比

为验证改进的ＣＢＡＭ－ＣｏｎｖＮｅＸｔ模型的性能，共设置了４组对比试验：改进模型使用增强数据集进行训练的效果与使用原数据集进行训练的效果之间的对比、改进模型与原模型之间的性能对比、改进模型与ＲｅｓＮｅｔ５０以及改进模型与ＳｗｉｎＴｒａｎｓｆｏｒｍｅｒ模型之间的性能对比。３．１　数据增强试验效果对比

为了验证数据增强方法对模型效果的提升，分

别将原始数据集与进行数据增强后的数据集输入到ＣＢＡＭ－ＣｏｎｖＮｅＸｔ模型进行训练。模型训练过程中在验证集上的损失值和准确率对比如图１０所示，最终对测试集分类效果的混淆矩阵如图１１所示，混淆矩阵中对角线上的值越大、颜越深说明分类模型的效果越好。

由图１０可以看出，经过增强后的数据集训练的模型其训练过程中的损失值和分类准确率不论是收敛速度还是最终稳定的值都优于数据增强前的数据训练的模型。数据增强前后试验效果对比如表２所示，由表２可以看出，经过数据增强后训练出的模型，在测试集的准确率、精确率、召回率以及Ｆ１－

ｓｃｏｒｅ都有一定程度的提升。综上所述，本研究采用的数据增强方法能够在数据预处理阶段提升网

—

４９１—

688IT编程网

基于改进ConvNext的复杂背景下玉米叶片病害分类

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

基于改进ConvNext的复杂背景下玉米叶片病害分类

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式