稀疏卷积神经网络用于低成本图像分类系统--688IT编程网

第28卷第2期2021年2月

电光与控制

Electronics Optics&Control

Vol.28No.2

Feb.2021

引用格式：冯思镒，赵田锋，陈诚，等•稀疏卷积神经网络用于低成本图像分类系统[J].电光与控制,2021,28(2):7-11.FENG S Y,ZHAO T F,CHEN C,et al.A low-cost image classification system using sparse convolution neural network[ J].Electronics Optics&Control,2021,28(2)：7-ll.

稀疏卷积神经网络用于低成本图像分类系统

冯思镒，赵田锋，陈诚，李岩，许红梅

(长春理工大学，长春130000)

摘要：传统卷积神经网络大量的计算及内存需求使嵌入式设备智能应用的开发成为挑战，为尝试将高度

复杂的深度学习应用与性能有限的低成本嵌入式平台相结合，设计了一款小型嵌入式图像分类系统。实验基于结构化稀疏学习算法在Caffe框架下构建结构稀疏卷积神经网络模型，将其部署在工业派(IndustriPi)最小化系统上，通过测试得到了85.5%的准确率和处理实时影像时不小于8帧/s的运行速度。与经典模型相比，通过稀疏学习后的网络模型很大程度上减少了计算量和内存占用率，提高了低成本嵌入式设备的运行速度。

关键词：图像分类；嵌入式系统；深度学习；卷积神经网络；结构化稀疏学习

中图分类号：TP391文献标志码：A dot:10.3969/j.issn.1671-637X.2021.02.002

A Low-Cost Image Classification System Using Sparse

Convolution Neural Network

FENG Siyi,ZHAO Tianfeng,CHEN Cheng,LI Yan,XU Hongmei正则化网络

(Changchun University of Science and Technology,Changchun130000,China) Abstract:Traditional convolutional neural networks have a large demand of computation and memory, which makes the development of embedded devices for intelligent applications become a challenge.In order to deploy highly complex deep learning applications into the low-cost embedded platforms with limited performa

nce,a small embedded system for image classification is designed.Based on the Structured Sparsity Learning(SSL)algorithm,a sparse convolutional neural network model is constructed under the framework of Cafte and deployed on IndustriPi minimization system.Test results show that the accuracy of85.5%and operating speed of more than8frames per second are achieved.Compared with classical models,the sparse model can reduce computational amount and memory occupancy to a great extent,and increase the embedded device operating speed・

Key words：image classification；embedded system；deep learning；convolutional neural network；就mctured sparsity learning

o引言

随着人工智能产业日趋完善，基于嵌入式系统和移动设备的智能产品具有很大市场前景，然而深层网络结构具有大量参数计算，对内存要求很高，难以应用于小型嵌入式系统。LANE等⑴在2015年就物联网与移动应用的深度学习算法进行了初步研究，构建了通用解决方案所需要的知识体系;ALIPPI等也采用近似计算技

收稿日期=2020-01-04修回日期=2020-05-06

基金项目：国家重点研发计划(2017YFC0803806)

作者简介：冯思镒(1994-)，男，江苏太仓人，硕士生，研究方向为深度学习、嵌入式系统。

通讯作者：许红梅(1971—)，女,holly_89301@cust.edu0术，通过降低内存和计算精度来减少深度学习框架的计算负荷和内存占用，成功地将AlexNet和VGG-16网络移植到嵌入式平台上;HOCHSTETLER等⑶尝试将小型单板机与MobileNets⑷相结合，用于处理实时视频与识别物体;REDDY等⑸设计了一款基于嵌入式系统的驾驶员实时睡意检测设备，设计了2个输入数据流的8层网络结构，并使用神经网络蒸谓的方式缩小网络规模，达到了89.5%的测试准确率，在嵌入式设备上运行帧数达到了14.9帧/s；2018年HU等⑷为压缩卷积神经网络模型规模，深入研究了二值神经网络(BNN)并提出了基于哈希的二元权重网络(BWNH)的算法，将二进制权重学习问题转换为哈希问题，设计了一种交替优化算法来解决散列问题，在各训练集上都

8电光与控制第28卷

取得了相较于其他二值神经网络更高的精确率；同年, LI等切设计了一种硬件结构友好的块卷积算法，消除了相邻图块之间的数据依赖性，减少中间层数据，提高内存利用效率，在FPGA上实现了12.19帧/s的运行速率。可见，在保证精度的情况下，网络模型结构的优化是嵌入式智能设备发展中必须要考虑的问题閃O 本文通过设计适用于低成本嵌入式系统的结构稀疏网络模型，打造一款嵌入式图像分类系统。从结构化稀疏学习(SSL)算法出发，论证网络优化方案并结合Caffe框架设计高度稀疏化的网络模型，最终在嵌入式设备上进行测试并获得了不错的结果，性能相比于其他经典CNN模型有明显提升。

1优化方案论证

对于网络稀疏化的优化工作不断进行，先从相关研究出发论证利弊，再引用一种基于结构化稀疏学习算法的自适应多结构优化方案。

1.1相关工作

嵌入式设备性能的限制使其难以部署大规模神经网络，因此减少网络计算量是优化工作的当务之急，早先已有众多学者设计了各类方案：牛津大学研究人员在2014年提出了低秩近似呵的方法，使用两种方式将卷积核近似为M个秩为1的矩阵，实现对原网络2.5-4.5倍的加速;LIU等问在低秩近似的基础上设计了稀疏卷积神经网络(SCNN)模型和其专有的稀疏卷积乘法算法，尝试分解卷积核减少冗余，实现了90%的参数归零；斯坦福大学研究人员在2015年提出了模型剪枝u的概念，通过消除低权重连接将网络稀疏化，使网络参数减少了数十倍。上述几种尝试指明了新方向，但也有局限性，模型剪枝方法在硬件中实际加速并不理想，主因是网络中产生的非结构化随机连接导致的不规则存储器访问。低秩近似可以提供不错的性能提升，但它只能在每层内获取紧凑结构，并且其结构在微调期间是固定的，因此优化过程中需要重复地分解和微调。

1.2结构化稀疏学习算法

本文采用结构化稀疏学习(SSL)算法M自适应地调整卷积层网络中卷积核结构与通道结构上的权重，结合Group Lasso回规范结构，减少预测误差(本文中权重与参数为同义词)。SSL算法总结前人经验，只设计一个超参量动态优化卷积网络结构，弥补了低秩近似高重复性结构调整的缺点，使得模型压缩更具效率。

SSL算法设计一个通用损失函数，再根据卷积层网络维度上的优化需求对公式变形。首先假设一个四维量其中，第，C,，角，甌分别为第I 个卷积层中gWL)卷积核数、通道数、空间高度和空间宽度上为卷积层的数量，带有结构稀疏正则化项的通用损失函数为

F(W)=^(W)+A-R(W)+心•工心

Z=1

(1)式中:w是卷积层中所有权重的集合；是经验风险，代表了真实值与预测值之间的误差;/?(•)为结构风险，其为应用在每个权重上的L1范数正则化项，展开式为I w IL，该式通过惩罚权重绝对值的总和来缩小甚至清零权重值，减少模型的计算量;&(•)为结构稀疏正则化项，其使用Group Lasso正则化，能有效使卷积层中大量参数归零，最终实现各卷积层的高度稀疏化，其展开式为

f m。(2)

g=l

Group Lasso将总体权重划分为G组，为第g个权重组，入与Xg同为正则化项超参量，用于调节相应权重，控制稀疏程度。

SSL算法通过惩罚分裂项来实现卷积层不同结构上的稀疏性，本文使用此算法针对模型中通道结构与卷积核结构进行正则化，达到去除不重要的通道与卷积核的目的。从结构出发，可将权重分裂成W阳,，和叱?”“的形式，分别代表了第I卷积层中第k t卷积核的权重藁合以及层中各卷积核第5通道的权重集合，分

裂形式在图1中展示。

图］将卷积层权重按通道维度与卷积核维度分裂

Fig.1Weight splitting based on channel dimension

and kernel dimension

通过将，与w*,”，代入通用损失函数中的结构稀疏正则化项，可以得到专用于生成稀疏化通道结构与卷积核结构的损失函数，为简化，将式(1)前两项简写为J(W)，变形后的损失函数为

F(W)=0)+兀.£(£|观仁丄)+

L C t

九•工(工II吧)⑶

式中，结构稀疏正则化项使用Group Lasso最大程度上削减了通道结构与卷积核结构中的权重，通过使权重归零，去除了部分影响较小的通道与卷积核，由此便得到结构化稀疏的网络模型，最终减少了计算量，在较少

第2期

冯思镒等：稀疏卷积神经网络用于低成本图像分类系统

降低准确率的基础上保证了低成本嵌入式平台的运行速度。

除了通道与卷积核上的结构优化功能,SSL 算法在

二维卷积核形状与卷积层深度上也可以进行稀疏学习，

由于本文不进行以上研究，故在此不再赘述。结构化稀疏学习算法的源程序可以参考https ：//github. com/

wenwei202/c affe/t ree/s cnn o

2网络模型设计

尝试在Caffe 框架下设计了一种具有5个卷积层、

5个池化层的网络结构，并在每个卷积层后加上Batch- Norm 层、Scale 层和ReLU 层°

2.1卷积层

卷积层规格按照卷积核个数x 通道x 尺寸顺序依

次为：32 x3x5x5,64x32 x3x3,128 x 64 x 3 x 3,

256 x 128 x3 x3,512 x256 x3 x3，填充分别为 2,1,1, 1,1，步长分别为2,1,1,1,1。第1层使用5 x5尺寸卷

convl BatchNorm]Scale ReLU

pooll conv2BatchNorm Scale ReLU pool2 conv3 BatchNorm Scale ReLU

pool 3 conv4 BatchNorm Scale ReLU

pool4 conv5 BatchNorm Scale ReLU

FC Softmax

data

图2卷积神经网络模型

Convolutional neural network model

Hg. 2该网络模型5层卷积层能够较大程度对原图进行特征提取和特征映射，有强大的表达能力。将原始图

像逐步压缩降维并组合特征，通过全局平均池化层获

得512个元素的一维分布式特征，并接入全连接层映射到样本标签，最终通过Softmax 函数输出分类判别概率。在全连接网络中的参数量为2. 56万，这在此类规

模的网络模型中是较为精简的，但模型中1& 16万的

总参数量仍稍显庞大，不适合将其直接应用于低性能

的嵌入式平台。

本文在网络模型上使用SSL 算法中专用的损失函

数对参数进行一定规模的削减，删除了部分不重要的卷积核与通道，实现了模型中这两种结构的稀疏化，使

用此结构稀疏网络模型能够保证低性能嵌入式平台的运行速度，具体实验结果将在下文中阐述。

3实验结果与分析

基于SSL 算法设计网络模型实现了一个低成本嵌

积核初步提取输入图像的特征并将原图像尺寸缩小

1/2，为减少计算量，之后4层均采用3 x3尺寸卷积核

进一步提取特征但并不改变输入图像的尺寸。通过5 层卷积可以很好地提取原图像的特征，增强网络的非

线性表达能力，最终获得丰富的图像特征信息。

2.2池化层

前4个池化层均为2 x2尺寸、步长为2的最大池化层，将数据维度压缩1/2，可以在保持特征不变形的

情况下避免过拟合。第5个池化层为全局平均池化

层，通过对输入的特征图像4x4区域内数值进行取平均操作将数据从三维映射为一维，即把4 x4 x512的张量变为1 x 1 X512的向量，从结构上避免过拟合，并能与全连接网络衔接时更为自然。

2.3全连接层

全连接层将全局平均池化层输入的512个神经元

与10个神经元相连，最后通过Softmax 函数将数值转化为相对概率并输出10种分类结果，具体结构见图2。

入式军事设备识别系统，其硬件组成与实际分类结果

如图3所示。

图3嵌入式硬件组成及实际分类结果

Fig. 3 Embedded system hardware composition

and actual classification effect

本章将介绍实验过程以及结果，首先介绍包括数据库在内的训练及应用环境，再使用辅助程序实现中间层

的可视化，直观展现了结构化稀疏学习算法的效果，最后应用于嵌入式系统中与Inception_vl , MobileNet_vl 等

网络模型做比较

。

10电光与控制第28卷

3.1数据集

实验数据集采用CIFAR-10数据集〔⑷，该数据集由KRIZHEVSKY等人收集并整理，该数据集共有6000

0幅尺寸为32像素x32像素的彩图片，分为10类，每类包括5000个训练样本,1000个测试样本。

3.2运行环境及系统实现

此次PC端训练框架为Caffe，采用GPU模式训练，运行系统为ubuntul6.04，为保证兼容性,CUDA,OpenCV 等软件均为低版本。经过计算机训练后的网络模型将被部署于图3中的工业派小型化嵌入式系统，这是一款基于TI公司AM5708芯片的开源智能硬件最小开发系统，由Cortex-A15和C66x浮点DSP等模块组成的异构多核处理器，支持1GiB DDR3内存、8GiB eMMC存储空间、千兆以太网接口、百兆工业以太网接口(PRU)、USB3.0与USB2.0接口，支持标准HDMI输出接口、CSI高清摄像头接口、130pin接口扩展，可扩展WiFi、蓝牙，板件小巧，易于装配在各种应用场景。平台还配备了200万像素的小型USB摄像模组用于实时影像的获取，虽然保证了输入图像的清晰度，但增加了系统额外的内存占用，在一定程度上限制了运行帧数。系统支持深度学习框架TIDL，其允许应用程序在平台上利用TI专有且高度优化的网络模型，实现智能应用的高效执行。

实验将计算机训练后的网络模型部署在嵌入式系统中，并通过转换工具将原网络模型变换成TI自定义网络格式，通过摄像头输入的实时影像将被获取并输入到训练完成的模型中进行分类工作，分类结果最终输出到嵌入式平台屏幕上，并在屏幕左上角显示种类名称，如图3(b)所示。

3.3结构稀疏网络模型分析

结合式(3)训练之后的网络模型具有很大的稀疏性。网络经过训练后，各卷积层均表现出一定程度的稀疏化，部分数据被记录在表1中。

表1结构化稀疏参数记录

Table1Results after structured sparsity learning

表1中，对照组仅采用经典的L1范数损失函数，而稀疏组使用SSL算法中专用的损失函数，即在对照组基础上增加了结构稀疏正则化项。表1中列举了卷积层convl与conv5的实验结果，可以看到在同样经过50000次迭代训练后，稀疏组的通道数和卷积核数都有一定比例减少，相较于对照组,convl中的参数减少了约56%，在conv5中参数甚至减少了约96%，除此之外，零权重比例也依次达到了34%与80%，总体的稀疏度达到了66.1%。通过实测，稀疏组在加速数倍的情况下准确度仅比对照组降低了3.8%，在精度轻微下降的情况下模型规模被大幅缩小，能够很好地迎合低成本嵌入式平台有限的计算能力。

实验进…步对卷积层convl采用特征可视化辅助程序进行宏观分析，由于重叠的通道结构能够在卷积核结构上得以体现，为缩短篇幅，本文仅在卷积核结构上开展讨论，部分结果展示在图4中。

(a)未经稀疏化的卷积核(b)已稀疏化的卷积核

输出的特征图输出的待征图

图4卷积核结构稀疏化效果对比

Fig.4Sparsity learning results of the structure

of convolution kernels

图4(b)中部分卷积核为全灰，即其中权重全为零，这意味着图4(a)中卷积核在稀疏化过程中大量权重被清零，最终保留部分提取重要特征的卷积核，其余的都被去除。卷积核的部分缺失使得图4(d)中一些特征图输出为空，与图4(c)相比，图4(d)中特征图去除了冗余信息，在精简化获取特征的同时并不降低表达能力。这就解释了为什么结构稀疏化后的模型具有同稀疏化前相同级别的准确度，但模型参数却少得多的原因。

3.4网络模型对比试验

实验在工业派(IndustriPi)中部署已训练的结构稀疏网络模型评估性能，结果如图5所示。实验也在平台上部署并验证了两种经典网络模型，分别为Incep-tion_vl151,MobileNet_vl41，但未对其结构进行优化，这使得上述两种模型中各自总参数量都比本文结构稀疏模型多了数百倍，这些多出的计算量占用了大量硬件

第2期冯思镒等：稀疏卷积神经网络用于低成本图像分类系统11

资源，降低了嵌入式平台的运行效率。

1Int?eption_¥l MobileNet_vl本文网络

（未稀疏化）（未稀疏化）（已稀疏化）

图5运行速度及准确率对比

Fig.5Operating speed and accuracy

4结束语

本文基于SSL算法设计了结构稀疏化的网络模型，并将其部署在工业派小型嵌入式系统中，实现了一个低成本高精度且低延时的嵌入式图像分类系统。实验结果表明，在传统大规模网络模型上运用SSL算法能够去除不重要的参数并精简结构，减少设备计算量和内存占用量，大幅提高系统运行效率，为推广小型化智能嵌入式设备提供可能。

在保证稀疏度的同时测试精度仍需提高，下一步研究重点将放在调整模型结构及参数上，同时尝试将优化后的网络模型移植到更多类别的嵌入式系统中，探究其普适性并发掘应用潜力，相信凭借硬件性能的不断突破，未来智能嵌入式设备将逐渐普及，其市场价值应被重视。

参考文献

[1]LANE N D,BHATTACHARYA S,GEORGIEV P,et al.

An early resource characterization of deep learning on

wearables,smartphones and intemet-o£-things devices

[C]//Proceedings of the International Workshop on In

ternet of Things Towards Applications,ACM,2015：7-12.

[2]ALIPPI C,DISABATO S,ROVERI M.Moving convolu

tional neural networks to embedded systems:the AlexNet

and VGG-16case[C]//Proceedings of the17th ACM/

IEEE International Conference on Information Processing

in Sensor Networks,2018：212-223.

[3]HOCHSTETLER J,PADIDELA R,CHEN Q,et al.Embed

ded deep learning for vehicular edge computing[C]//

IEEE/ACM Symposium on Edge Computing（SEC）,2018:

341-343.

[4]HOWARD A G,ZHU M L,CHEN B,et al.Mobilenets:ef

ficient convolutional neural networks for mobile vision ap

plications[EB/OL].(2017-04-17)[2020-01-04].https：//

[5]REDDY B,KIM Y H,YUN S,et al.Real-time driver drowsi

ness detection for embedded system using model compression

of deep neural networks[C]//Proceedings of the IEEE Con

ference on Computer Vision and Pattern Recognition Work

shops,2017：121-128.

[6]HU Q H,WANG P S,CHENG J.From hashing to CNNs：

training binaryweight networks via hashing[EB/OL].

(2018-02-08)[2020-01-04]./pdf/

1802.02733.pdf.

[7]LI G,LI F,ZHAO T,et al.Block convolution:towards memo

ry-efficient inference of large-scale CNNs on FPGA[C]//

Design,Automation&Test in Europe Conference&Exhibi

tion(DATE),IEEE,2018:1163-1166.

[8]林景栋，吴欣怡，柴毅，等.卷积神经网络结构优化综

述[J].自动化学报,2020,46(1)=24-37.

[9]JADERBERG M,VEDALDI A,ZISSERMAN A.Speeding

up convolutional neural networks with low rank expansions

[C]//Proceedings of the British Machine Vision Confer

ence,2014：l-12.

[10]LIU B,WANG M,FOROOSH H,et al.Sparse convolu

tional neural networks[C]//Proceedings of the IEEE

Conference on Computer Vision and Pattern Recogni

tion,2015：806-814.

[11]HAN S,POOL J,TRAN J,et al.Learning both weights and

connections for efficient neural network[C]//Advances in

Neural Information Processing Systems,2015：1135-1143. [12]WEN W,WU C,WANG Y,et al.Learning structured sparsi

ty in deep neural networks[C]//A dvances in Neural Infor

mation Processing Systems,2016：2074-2082.

[13]YUAN M,LIN Y.Model selection and estimation in regres

sion with grouped variables[J].Journal o£the Royal Statis

tical Society:Series B(Statistical Methodology),2006,68

(1)：49-67.

[14]KRIZHEVSKY A,HINTON G.Learning multiple layers

of features from tiny images[R].Toronto:University of

Toronto,2009.

[15]SZEGEDY C,LIU W,JIA Y,et al.Going deeper with con

volutions[C]//Proceedings of the IEEE Conference on

Computer Vision and Pattern Recognition,2015：

l-9.

688IT编程网

稀疏卷积神经网络用于低成本图像分类系统

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

稀疏卷积神经网络用于低成本图像分类系统

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式