改进YOLOv5的航拍图像识别算法--688IT编程网

隹Isl^iSls V1

2021年第03期

(总第219期)改进YOLOv5的航拍图像识别算法

张麒麟，林清平，肖蕾

(空军预警学院，湖北武汉430000)

摘要：航拍图像识别广泛应用于各类军用、民用领域，因其距离远、成像模糊、目标相互遮挡等特点使得目标检测准确度一直不高，针对这一问题，提出了一种基于YOLOv5模型的改进方法。通过引入数据增强和标签平滑方法、改进损失函数为DIoU和增加针对小目标的网络处理层来提高目标检测效果。实验结果表明，在相同训练条件下，改进后的YOLOv5算法对大多数种类的目标检测准确率都有所提升，平均精确率提高了17%，平均召回率提高了2%，达到了70.4%，比原始模型提升了6.1%。

关键词：深度学习；目标识别；航拍图像识别；YOLOv5

中图分类号:TP391.41文献标识码:A文章编号:2096-9759(2021)03-0073-04

Improved aerial image recognition algorithm of YOLOv5

Zhang Qilin^Lin Qingping,Xiao Lei

(Air Force Early Warning Academy,Hubei Wuhan430000)

Abstract:Aerial image recognition is widely used in various military and civilian fields.Because of its long distance,blurred imaging,and mutual occlusion of targets,the accuracy of target detection has been low.To solve this problem,an improved method based on the YOLOv5model is proposed..By introducing data enhancement and label smoothing methods,improving the loss function to DIoU,and adding a network processing layer for small targets,the target detection effect is improved.Experimental results show that under the same training conditions,the improved YOLOv5algorithm has improved the accuracy of most types of target detection.The average accuracy rate has increased by17%,the average recall rate has increased by2%, and has reached70.4%,an increase of6.1%over the original model.

Key words:Deep learning;target recognition;aerial image recognition;YOLOv5

0引言

目前，目标检测取得了很大的突破，在各个领域都得到了广泛的运用。随着无人机技术和卫星成像技术

的逐渐成熟，航拍图像的获取和传输也变得十分便捷，对航拍图像进行分析识别的需求逐渐增大，航拍图像识别也成为目标检测的一项重要类别，近年来逐渐被研究和部署。

目前针对近距离的平面视角图像的目标识别算法较为成熟。但航拍图像相比普通图像存在目标距离远、成像模糊、相互遮挡等难以检测的问题，这使得分类器等传统方法无法满足识别需求。

深度学习算法在近年来的发展使得计算机视觉领域取得了重大突破。目标识别方面以卷积神经网络(CNN)m为代表的深度学习算法在准确率和检测速度上较传统的方法有了大幅提高。目前目标识别算法主要分为两种类型：一种是基于检测框和分类器的两阶算法，如R-CNN系列算法，精度更高，但是网络结构比较深导致速度较慢，很难满足实时的目标识别检测。另一种是基于回归的一阶算法，如SDD、YOLO13系列算法等，推理速度更快，可以满足实时的目标识别检测，具有更强的实用性。

本文基于较为成熟的YOLOv5算法，利用其在航拍图像识别领域的快速性、普适性、精确性特定。将其应用于航拍图像识别领域并针对实际问题进行了改进，将改进后的模型与原始模型进行对比试验，结果表明改进后模型对大多数目标的检测效果都有较为明显的提升，实际应用价值大。

1YOLO目标检测算法

目标识别算法当前的主流包括R-CNN系列和YOLO系列,R-CNN系列在目标检测需要较高的精确度上较

为优越，但其检测速度相比YOLO系列而言比较缓慢，在实际应用场景中，无法满足目标检测的实时性。在此背景下.YOLO系列算法利用回归的思想，更容易学习目标的泛化特征，解决了速度问题。YOLO系列算法用一阶的神经网络直接完成检测目标位置定位和目标物体分类叫算法将输入图像分成NxN的网格，目标中心的网格负责预测目标出现的可能性。每个候选框可预测5个量:x,y,w,h和c。(x,y)表示目标中心点坐标, (w,h)表示目标检测框的宽度和高度，(置信度)表示有目标条件下的分类准确度。

YOLOV2算法釆用训练-联合训练算法，使得目标检测的训练能在目标检测的数据集或是分类数据集上进行训练。该算法用检测数据集的数据学习物体的准确位置，用分类数据集的数据来增加分类的类别量、提高健壮性，相比YOLO vl提升了目标检测框定位的精确度和召回率叫YOLO v3算法釆用了基础网络Darknet-53。除此之外，YOLO v3中还使用了类似ResNet和FPN网络的结构，大大提高了检测精度。YOLO v4改进了原来的主干网络Darknet-53，增加空间金字塔池化

收稿日期:2021-01-22

作者简介：张麒麟(1999-)，男，安徽安庆人，本科生，空军预警学院，预警探测专业；林清平(1998-)，男，福建莆田人，本科生，空军预警学院，无人机专业。

通讯作者：肖蕾(1984-)，女，湖北武汉人，硕士研究生，讲师，空军预警学院，研究方向：系统工程，计算机网络。

(SPP)和路径聚合网络(PANet〉作为连接部分。SPP结构是对特征层进行三次卷积后的结果进行最大池化。池化过程中使用了四个不同的池化核进行处理，大小分别为Ixl、5x5、9x9、13x13.经过$PP处理后可以有效增加感受野，分离出显著的上下文特征，同时原有的检测速度没有损失。PANet结构是由卷积操作、上采样操作、特征层融合、下采样操作构成的循环

金字塔结构。PANet结构将不同特征层之间充分融合，能有效提高缺陷的特征提取能力。

YOLO v5和YOLO v4不同点在于YOLO v5采用了Py-Torch框架，增加了Focus结构，构造了两种CSP结构。YOLO v5的网络结构如图1所示。

20x20x255

CT—SlKX

slice

Itica

[~spp~]s^:9N 图1YOLOv5网络结构

Focus结构如图2所示，在图片输入backbone前，对图片进行切片操作，具体操作是在一张图片中每隔一个像素取一个值，类似于邻近下采样，得到四张图片，但是四张图片的信息并没有丢失，因此就将原图片W、H信息就集中到了通道空间，输入通道扩充了4倍，即拼接起来的图片相对于原先的RGB三通道模式变成了12个通道，最后将得到的新图片再经过卷积操作，最终得到信息完整的二倍下采样特征图。

ffl

Image

Concat

图2Focus网络结构

图3CSP网络结构

YOLOv5的CSP结构一共有两个。以YOLOv5s网络为例,Backbone主干网络使用CSP1.X结构，而Neck网络使用了CSP2_X结构。

2算法改进

2.1训练数据处理改进

在大多数应用场景下训练模型使用的原始数据集并不能满足理想的训练需要，而获取更多的数据集也会增加训练的成本和带来更多的工作量，更好的处理方式是进行适当的数据预处理，包括数据增强和标签平滑处理两个部分。

数据增强的主要目的包括增加训练的基础数据量来提高模型的泛化能力和增加噪声来提高模型的鲁棒性两个方面，经典的数据增强方法包括：数据翻转、数据旋转、图像缩放、图像裁剪、图像平移、覆盖噪声和修改对比度等。通过对原有数据集数据进行此类拓展即可得到大量新的训练数据，有效提升模型训练集大小，在原有训练集较小的条件下快速提升目标检测效果。

本文实验过程中所采用的数据增强方法在原有的传统增强方法基础上增加了马赛克拼接法，即将多个待检测图像截取一部分合成一张图片进行整体检测，这种方式能够同时有效提升微小扰动和大量扰动条件下模型的检测准确性。

标签平滑处理(label smooth)其本质是_种正则化处理，能够减少过拟合训练的可能性，使得模型对测试集预测的概率分布更接近真实的分布情况，提升分类器性能叫

本文实验过程中采用的标签平滑方法为随机增加训练集中的错误标注，并在训练过程中使其拥有员的学习率，由此促使模型的分类结果更快地向正确的分类结果靠近。

2.2损失函数改进

在YOLOv5原始模型中IoU 损失函数釆用的是GIoU 损

失函数，其相比原始IoU 的优化在于增加了错误框选的惩罚, 即误差越大惩罚越大，在训练过程过能够对不同比例的检测框都有较好的检测效果，其原理如式所示：

L gim — 1 — IoU +

~~\c\ -

⑴

但GIoU 仍然存在目标框回归不稳定的问题，对于一些没

有重叠的目标检测框GIoU 回归策略可能会退化为IoU 的回归策略。其主要问题在于，当IoU 返回值为0时，GIoU 倾向

正则化回归算法于使检测框和目标框最快方式产生重叠，而后GIoU 的惩罚机

制逐渐失效，即检测框与目标框之间的包含而不重叠也被认

为是正确的。为了解决这一问题，进一步使用更加符合回归机制的DIoU 如式所示：

L DI c U = 1-I o U+

⑵

上述损失函数中，检测框和目标框的中心点用勺护表示,

其欧式距离为p 。C 为覆盖检测框和目标框之间的最小矩形的

斜距％

2.3网络改进

航拍图像一般为高分辨率小目标图像，对算法模型有较

为特殊的检测要求。针对这一问题加入小目标分割检测层。

对于超过标准输入大小(640*

640)的图像进行分割，同时

为避免目标在分割区被切断，增加20%标准大小的重叠区。对每个分割后的小图片进行检测后，再将所有的检测框放到原

始大图±3行一次后处理方法非极大值抑制(non-maximum sup-

pression,NMS)操作切，即可完成去重。3实验与结果分析

实验使用PyTorch 深度学习框架，在NVIDIA GTX 1660

super 显卡上完成训练及测试。3.1航拍数据集与预处理

选用DOTA vl.O 航拍图像作为数据集，对YOLOv5原

始算法和改进的YOLOv5算法进行对比试验=DOTA 数据

集包含航拍图像2806张，其主要图像来源为中国资源卫星

数据和应用中心、谷歌地球、高分2号卫星等。数据集内图

像最小尺寸的800*800，最大为4000*4000，标注的目标数

据涵盖了各种大小、方向、形状的物体，共计188282个实例，标注方式为任意四边形。数据集标注的目标类型有：网球场、篮球场、田径场、棒球内场、英式足球场、飞机、船只、储

蓄罐、海港、桥、大型车辆、小型车辆、直升飞机、环形路线、游泳池叫

根据YOLO 系列算法训练集格式要求，将DOTA 数据集标注格式全部转化为VOC 格式回，使用数据增强和标签平滑

方法对数据集进行扩容血，最终得到数据集共36795张，按照

6：1的比例区分训练集、测试集。3.2模型训练与测试

对原始YOLOv5和改进的YOLOv5分别进行训练，初始

学习率0.01，动量0.97，预设衰减系数0.0005，训练批次为2,

训练迭代次数为80，预训练模型为yolov5L

改进的YOLOv5网络训练过程中损失值的收敛曲线如图

4所示，准确率变化曲线如图5所示，迭代完成后损失值大约为0.035,*******稳定在0.75左右，从此参数

的收敛情况分析可知，改进的YOLOv5模型训练结果较为理想。

图4训练损失函数

图 5 *******

训练结束后利用得到的权重参数模型对待检测目标样本

进行检测，如图6所示，整体表现良好，目标定位准确，识别率较高。

图6验证集图片检测结果

3.3结果分析

在交并比阈值为50%的条件下，原始YOLOv5的*******

为64.3%，改进后YOLOv5的*******为70.4%，每个类别的

平均准确率对比如表1所示。在原始模型和改进的模型中储

蓄罐、大型车辆和网球场的平均准确率都比较高，分析发现储蓄罐和大型车辆在样本图片中面积占比大，形状也较为简单。而田径场、海港、英式足球场、环形路线和游泳池的平均准确率较为一般，分析发现样本中这几类目标数量、方向、位置和大小等存在较大差异，导致模型判断错误。

表]原始和改进YOLOv5模型对各类目标的

平均准确率和总mAP对比

类别原始YOLOV5模型改进后YOLOv5模型

飞机0.530.82

船只0.510.68

储蓄屢0.820.87

棒球内场0.600.86

网球场0.690.75

篮球场0.480.77

田径场0.360.50

海港0.360.51

桥0.630.89大型车辆0.690.79

小型车辆0.510.75

直升飞机0.660.81

英式足球场0.640.67

环形路线0.650.64

游泳池0.570.65

总mAP0.6430.704

改进后模型对大多数类别的平均识别率均有所提升，飞机、棒球内场、篮球场和小型车辆等类别提升均超过了20%，其中提升最大的篮球场类别达到29%，主要得益于对重叠图像和小图像检测的改善。而船只、田径场、海港、桥、大型车辆和直升飞机等类别的平均准确率也得到一定的提升。此外，与改进后

模型与原始模型相比，平均准确率提高了17%，平均召回率提高了2%。由此可以看出，改进后模型能够显著提高检测网络的性能。

4结语

本文围绕航拍图像识别中存在问题和研究现状，探索提出了基于深度学习的目标识别方法。采用数据增强和标签平滑处理方式扩充数据集，建立了航拍专属图像数据集。在YO-LOv5网络的基础上，构建改进的YOLOv5网络。使用训练集对改进的目标识别网络模型迭代80次后损失函数收敛。改进后的检测网络性能提升，目标检测模型*******达到70.4%，且对环境具有一定的鲁棒性，实现了航拍图像的目标识别精确度提升。但航拍图像中目标方向变化多样，后续将在数据集完善、提高不同情形下的识别准确率等方面进一步研究。

参考文献：

[11蓝金辉，王迪，申小盼.卷积神经网络在视觉图像检测的研究进展[J].仪器仪表学报,2020,41⑷：167-182.

[2]周晓彦，王珂，李凌燕.基于深度学习的目标检测算法综述

[J].电子测量技术,2017,40(11):89-93.

[31阮激扬.基于YOLO的目标检测算法设计与实现[D].北京邮电大学,2019.

[4]Redmon J,Farhadi A.YOLO9000:Better,Faster,Stronger

[J].2017:6517-6525.

⑸申屠臨郭云飞，薛安克一种基于粒子滤波的联合跟踪与

分类算法[J].机电工程,2010,27(3):4144.

[6]吕镖，蔡恒，冯瑞.基于改进损失函数的YOLOv3网络[J].

计算机系统应用,2019,28(02):3-9.

[71吴博文.基于深度学习的车辆检测算法研究与实现(D1.杭州电子科技大学,2017.

[8]Xia G S,Bai X,Ding J,et al.DOTA:A Large-scale Dataset

for Object Detection in Aerial hnages[C].2018IEEE/CVF Conference an Computer Vision and Pattern Recognition.

IEEE,2018.

[9]Yang G,Feng W,Jin J,et al.Face Mask Recognition Sys

tem with YOLOV5Based on Image Recognition[C].2020 IEEE6th Intematianal Conference on Computer and Com-munications(ICCC).IEEE,2020.

[10]Benjdira B,Khursheed T,Koubaa A,et al.Car Detection

using Unmanned Aerial Vehicles:Comparison between Faster R-CNN and YOLOv3[C].20191st International Canfer-ence on Unmanned Vehicle Systems-Oman(UVS).2O19.

(上接第72頁)同时从实验过程中各个运行环节的实际情况来看，本文响应时间不仅快速，同时还能够确保系统运行后的实际结果与系统用户预期相符。因此，通过对比实验进一步证明，本文提出的基于大数据挖掘算法的江西省精准扶贫信息系统与传统信息系统相比，能够有效提高系统的运行效率。将本文设计的系统应用于实际能够有效推动江西省精准扶贫的落实。

6结语

本文从设计精准扶贫信息管理算法、识别精准扶贫价值数据、生成信息管理权限表格等维度，开展了基于大数据挖掘技术的信息系统设计。并通过设计对比实验的方式，验证了本文系统在应用中具备更为显著的价值，可实现为江西省地区扶贫信息管理提供更为精准的指导。

参考文献：

[11杨敏，陈中耀.精准扶贫实用技术培训智能信息系统设计

与实现—

—以X县扶贫培训中心为例[J].网络安全技术与应用,202(X04):7072.

[21周敏，李微，周可歆，等.“健康扶贫"背景下城镇老人一以吉首市镇溪街道为例健康传播中的信息孤岛现象研究[J].

科技传播,2020,12(08):39~40+54.

⑶岑朝阳，颜丹妮•精准扶贫中信息共享的模式、风险及规避

—

—基于政府与社会组织合作的视角成都行政学院学报,2020(06):55-60.

[41宋建波，戴兴.发挥新闻网站优势推进脱贫攻坚四重奏一基于昆明信息港彩龙社区“互联网磁贫”昆明模式的分析[J].中国地市报人,2020(05):54-56.

[5]李达冉.图书馆开展网络信息扶贫视野下的版权制度改

革《信息网络传播权保护条例》第九条[J1.河南图书馆学刊,2020,40(08):118-120.

688IT编程网

改进YOLOv5的航拍图像识别算法

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

改进YOLOv5的航拍图像识别算法

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式