收稿日期:2019 03 10;修回日期:2019 04 19 基金项目:辽宁省博士启动基金资助项目(20170520098);辽宁省自然科学基金资助项目(
2015020100);辽宁省普通高等教育本科教学改革研究项目(551610001095);辽宁省教育厅一般项目(LJ2017QL013)作者简介:任晓奎(1965 ),男,辽宁阜新人,副教授,主要研究方向为计算机视觉、信号检测与处理等;丁鑫(1995 ),女(通信作者),辽宁铁岭人,硕士研究生,主要研究方向为图像处理(1292938686@qq.com);陶志勇(1978 ),男,辽宁葫芦岛人,副教授,博士,主要研究方向为多媒体通信;何欣键(1991 ),男,四川遂宁人,助理工程师,主要研究方向为信号处理.
基于多分类器的无分割手写数字字符串识别算法
任晓奎1,2,丁 鑫1 ,陶志勇1,2
,何欣键3
(1.辽宁工程技术大学电子与信息工程学院,辽宁葫芦岛125105;2.阜新力兴科技有限责任公司,辽宁阜新
123000;3.中国电网四川阿坝州电力有限责任公司,四川阿坝623200)摘 要:手写体
数字字符串识别常用于邮件自动分拣、银行票据和财务报表的录入中,针对其分割识别算法复杂度较高、准确率较低的问题,提出一种多分类器下无分割手写数字字符串识别算法。该算法的核心是采用四个分类器实现粘连字符串的无分割识别;将残差结构应用于LeNet 5网络,以增加网络深度,提高识别准确率,加
快收敛速度;使用动态选择策略,以避免长度分类器误分类对识别结果的影响。实验结果表明,在N
ISTSD19一位数字和Synthetic数据集训练网络下,使用NISTSD19上长度为2、3、4、5、6的字符串验证网络,其识别准确率
分别为9
9.3%、98.5%、98.1%、96.6%和97.2%。关键词:图像处理;手写数字字符串识别;多分类器;无分割;动态选择中图分类号:TP391 文献标志码:A 文章编号:1001 3695(2020)07 063 2222 05doi:10.19734/j.issn.1001 3695.2019.03.0097
Undividedhandwrittennumberstringrecognitionalgorithmbasedon
multipleclassifiers
RenXiaokui1,2,DingXin1 ,TaoZhiyong1,2,HeXinjian
3
(1.SchoolofElectronics&InformationEngineering,LiaoningTechnicalUniversity,HuludaoLiaoning125105,China;2.FuxinLixingTechnologyCo,Ltd,FuxinLiaoning123000,China;3.StateGridAbaElectricPowerCompanyLimited,AbaSichuan623200,China)
Abstract:Handwrittennumeralstringrecognitionisoftenusedinautomaticmailsorting,bankbillsandfinancialstatements
input.Toovercomethehighcomplexityandlowaccuracyofitssegmentationandrecognitionalgorithm,th
ispaperproposedanon segmentationhandwrittennumeralstringrecognitionalgorithmbasedonmulti classifier.Thecoreofthealgorithmusedfour
classifierstorealizenon segmentedrecognitionofstickystrings
,appliedresidualstructuretoLeNet 5networktoincreasenet workdepth
,improvedrecognitionaccuracyandspeededupconvergence,anduseddynamicselectionstrategytoavoidtheim pactoffalseclassificationoflengthclassifiersonrecognitionresults.Theexperimentalresultsshowthattherecognitionaccura
cyofNISTSD19is99.3%,
98.5%,98.1%,96.6%and97.2%respectivelybyusinga
2,3,4,5,6 lengthstringvalidationnetworkonNISTSD19.Keywords:imageprocessing;handwrittendigitalstringrecognition;multi classifier;nosegmentation;dynamicselection
0 引言
自20世纪80年代以来,光学字符识别技术成为模式识别的研究热点。而手写体数字字符串识别技术作为其重要分支,得到了长足的发展。在实际应用中,如邮件自动分拣系统、财务报表、银行单据的自动化处理等都需要手写体数字字符串识别技术。手写体数字字符串识别难点在于不同人的书写习惯不同,数字形式多样,数字间存在重叠、连笔等情况,数字串长度未知。手写数字字符串识别分为基于分割方式的识别和无分割方式的识别。在基于分割的识别方法中,由于粘连位置的可变性,寻最佳分割点困难,为了保证产生最佳切割点,通常采用过度分割的策略,其基本思想是尽可能多地分割图像以产生最佳分割切割。尽管过度分割最大限度地提高了生成良好分割点的几率,但同时也会大大增加计算成本,因为必须通过分类器评估的分割假设数量随着分割次数的增多呈指数增长。
Vellasques等人[1]
提出一种减少过度分割影响策略,其目标是
使用SVM分类器过滤掉不必要的分割。Ribas等人[2]
比较了各种分割算法,并根据性能、分割假设的数量以及处理时间对
它们进行评估。虽然基于分割的方法实现了手写数字字符串
的识别,但由于基于分割的算法受数字粘连、重叠影响严重,鲁
棒性不高,人们开始逐渐使用无分割的识别算法。M
atan等人[3]
首次尝试应用卷积神经网络(CNN)来识别具有不分割字符的手写数字字符串,这种方法被命名为空间位移神经网络(SDNN),SDNN提供了一系列后处理的输出矢量,以便出最
佳可能的标记序列,即使作为一项重要贡献,
SDNN没有实现比分割方法更好的结果。近年来卷积神经网络在图像识别领域应用越来越广泛,深度的特征提取与鲁棒性强的优点提升了
无分割识别算法的性能。H
ochuli等人[4]
提出基于卷积神经网络的端到端解决方案,创建了大小为1位、2位和3位粘连数字串的合成数据集,并证实了引入上下文信息的重要性。相关方法已经对手写数字字符串识别性能进行了显著提升,通过对现有算法的研究与实际场景的应用提出了以下问题和思考:
a)根据Hochuli等人提出的创建大小为1位、2位和3位粘连数字串的合成数据集进行端到端的训练,是否可以通过多个分类器实现数字字符串识别。
b)相关研究[5]
表明网络结构的深度对特征提取起到了重
第37卷第7期2020年7月 计算机应用研究
ApplicationResearchofComputersVol 37No 7
Jul.2020
要作用,并且由于相关防止过拟合技术的发展,使得小数量级的数据训练深度神经网络成为可能。因此,在防止发生过拟合的同时,是否能采用更为深度的CNN,提升手写数字字符串识别的准确率。
根据以上思考,提出了多分类器下基于卷积神经网络的SRUMC(stringrecognitionundermultipleclassifiers,多分类器下字符串识别)模型,实现手写数字字符串的识别。提取图像ROI后,构建未知识别训练库;适当改变神经网络模型LeNet 5中个别层的参数,并加入残差结构,分别训练各分类器;最终根据softmax结果判断是否需要动态选择策略,输出识别结果,避免分割策略复杂的同时,提高识别准确率。
1 相关工作
1 1 卷积神经网络
卷积神经网络是一种前馈神经网络,是近年发展起来并引起广泛重视的一种高效识别方法。人工神经网络在引入卷积计算思想后,使用局部互连、权值共享方法,使得神经网络更符合生物神经元的稀疏特性。一般地,CNN的基本结构包括两层,其一为特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征,一旦该局部特征被提取后,它与其他特征间的位置关系也随之确定下来;其二是池化层,也叫下采样层,使用下采样保证局部不变性,使网络可以多层叠加,学习到的特征具有更好的表达效果。以上独特的结构特点使得CNN在图像识别、物体检测等领域被广泛应用。
1 2 残差网络
He等人[6]提出的深度残差网络(residualnetwork,ResNet)于2015年在ImageNet和COCO下面五个领域比赛中获得第一名。ResNet网络引入残差计算的方法,加深网络的深度,提高网络的性能。普通网络越深越难以优化,网络结构的加深使得训练和测试的准确率下降。残差网络中的快捷连接实现了网络的恒等映射,堆叠非线性层拟合残差映射,使得网络容易优化。本文每个残差块包含两个卷积层,卷积核大小受VGG[5]网络启发,大小设为3×3,如图1
所示。
图1 残差结构
Fig.1 Fresidualstructure
字符串截取方式定义残差结构模块为
y=F(x,{Wi})+x(1)其中:x表示输入向量,y表示输出向量;函数F(x,{W
i
})是残
差网络的目标映射。图1中,F=W
2
σ(W1x+b)+b,σ表示ReLU激活函数,b表示偏置节点,F+x通过短连接实现。若
维度不同,通过短连接执行一个线性映射W
s
来匹配两者维度,如式(2)所示。
y=F(x,{Wi})+Wsx(2)BN层用来对某一个层网络的输入数据进行归一化处理,也就是使得每一维特征均值为0,标准差为1,如式(3)所示。
^x(k)=x(k)-E[x(k)]
var[x(k)
槡](3)
其中:E[x(k)]指每一批训练数据神经元x(k)的平均值;分母是
每一批数据神经元x(k)的标准差,但此公式仅对网络某层的输
出数据作归一化,会影响到本层网络所学习到的特征,强制把
本层的数据作归一化处理,标准差也限制在1,破坏掉了本层
网络学习到的特征。于是引入scale层,scale层包含γ、β两个
学习参数,如式(4)所示。
y(k)=γ(k)^x(k)+β(k)(4)值得一提的是BN层必须与scale层一同使用,否则网络不收敛。修正线性单元ReLU有单侧抑制和稀疏激活性,数学
表达式如式(5)所示。BN层和scale用在卷积层之后,ReLU
激活函数之前是因为非线性单元的输出分布形状会在训练过
程中变化,归一化无法消除它的方差偏移,相反,全连接和卷积
层的输出一般是一个对称、非稀疏的分布,更加类似高斯分布,
归一化会产生更加稳定的分布。
f(x)=max(0,x)(5)1 3 改进思想
LeNet 5网络[7]是一个用来识别孤立手写数字的经典卷积神经网络,该网络在小规模的孤立手写体数字识别中取得较好
的结果。LeNet 5
的网络结构如图2所示,LeNet 5网络由输入层、卷积层、池化层、全连接层和输出层组成。输入层将要识别
的图像输入到网络,卷积层通过可学习的卷积核对图像特征进
行提取,池化层的应用可以提高网络的泛化能力,对扭曲、形变
的图像仍然有较高的识别精度,全连接层实现特征空间的转
换,输出层解决线性多类别的分类问题。
图2 LeNet 5网络结构图
Fig.2 LeNet 5networkstructurediagram
改进的LeNet 5模型被应用于各种识别场景下,如王秀席等人[8]将改进LeNet 5模型应用于车型识别;李勇等人[9]将改
进LeNet 5模型应用于面部表情识别;马苗等人[10]将改进
LeNet 5模型应用于街景门牌号码识别。本文通过增加网络的
深度来提高单个分类器的识别准确率,基于网络深度对传统
LeNet 5模型进行改进,通过使用残差结构来增加网络的深度,
残差结构如图1所示。在提高网络准确率的同时,使网络能够
更好地收敛并避免退化问题的出现。网络的改进思想是:
a)保留LeNet 5的池化层和卷积层,移除网络的全连接层;
b)只在网络的第一卷积层和残差结构之后设置池化层;c)残
差结构不设池化层,通过设置卷积核参数stride=2实现特征
尺寸减半,在特征尺寸减半的同时,特征维度增加一倍来保证
时间复杂度相同。
2 SRUMC模型
本文提出了多分类器下基于卷积神经网络的手写数字字符串识别模型,并称之为SRUMC模型,实现了对未知长度的
手写数字串无分割识别,在加深网络层数与制定动态路径选择
策略中提高识别的准确率。
模型的整体结构如图3所示。首先对图像进行预处理将数字分组,分组的目的是将图像转换为部分图像识别,分组后
数字为1位数字、2位粘连数字或3位粘连数字;其次适当修
改LeNet 5网络参数,加入残差结构,将网络改到适当深度,再
依次训练各分类器;最后,经动态选择策略将单独网络整合成
一个完整网络。下面将分别介绍四个分类器的网络结构。
·
3
2
2
2
·
第7期任晓奎,等:基于多分类器的无分割手写数字字符串识别算法
图3 SRUMC模型整体结构
Fig.3 OverallstructureofSRUMCmodel
2 1 长度分类器网络结构
长度分类器(L)用来预测分组后的数字长度,构建的长度
分类器的网络结构如图4所示,
输入层的尺寸为匹配后面的数字分类器设置为9
6×96,网络包含卷积层、池化层,局部响应归一化(localresponsenormalization,LRN)层、全连接层、dropout层和输出层。输入图片尺寸为96×96,经大小为7×7的卷积核,滑动步长为1,padding为0的卷积处理后生成20个特征图,经激活函数激活后送入池化层,池化方式为最大池化,窗口
大小为2
,将池化后的特征图经LRN处理,LRN层通过对输入数剧的局部归一操作,执行了一种侧抑制的机
制。侧抑制指的是被激活神经元抑制相邻神经元,局部响应归一化借鉴侧抑制的思想来实现局部抑制,有利于增加泛化能力,提高识别率。
再经过第二次卷积,卷积核大小为5×
5,滑动步长为2,padding为0,生成50个特征图,经激活函数后,再经过池化窗口为2×
2的最大池化后,
将下采样后的特征图输入全连接层,全连接层数为1,在全连接层之后放置一个dropout层,它以一定的概
率把隐含层的输出节点设置为0
,在更新权值时不更新与此节点相连的权值,减少了一定的计算量,且权值的更新不再依赖于固定隐含节点的共同作用,避免了某些特征只在特定特征下才有效的问题。dropout层可以增强卷积神经网络的泛化能
力,有效防止过拟合,本文将d
ropout层参数设为0.5。最后输出层通过s
oftmax函数实现三分类[11]
。图4 长度分类器的网络结构
Fig.4 Networkstructureoflengthclassifier
2 2 数字分类器网络结构
数字分类器网络结构如图5所示,该网络充分考虑残差网
络和LeNet 5网络的优点,将两者融合为一个网络,提高识别准确率的同时保证网络可以快速收敛,将该网络命名为LeNet
Residual
,1位数字、2位粘连数字和3位粘连数字分类器网络结构一样。输入图像为96×96的单通道图像,进入卷积层,使
用7×7的卷积核conv1对图像进行卷积,步长为1,padding为3,卷积核数量为64,卷积操作后得到32个大小为96×96的特征图。池化层采用重叠池化,池化窗口大小为3×3,步长为2,padding为0,使用重叠池化可以降低错误识别率,池化后得到64个48×48大小的下采样图。残差网络由conv卷积层、批量正则化层(batchnormalizationlayer,BN)、scale层、ReLU、conv、BN、scale组成,结构如图1所示。在本文中,残差块中卷积核conv有两种设置参数:一种卷积核大小为3×3,步长为1,pad ding为1;另一种是卷积核大小为3×3,步长为2,padding为1,各层参数设置如图5所示。经过所有残差结构后,输出512个大小为3×3的特征图,将此特征图输入池化层,进行下采样处
理,池化层的池化窗口设置为3×
3,池化步长为3,padding为0,将下采样后的特征结构送入输出层,输出层通过softmax函
数实现分类。
图5 LeNet Residual网络结构
Fig.5 LeNet Residualnetworkstructure
2 3 动态选择
长度分类器在测试过程中的误分类情况如表1所示,为了
减少长度分类器带来消极影响,使用动态选择的策略降低影响。动态选择的主要思想是通过考虑分类结果的第二高输出(
top2)来减小混淆的干扰,top1和top2分别指分类器分类结果排序的概率值。
表1 长度分类器(L)的测试误分类矩阵Tab.1 Testerrorclassificationmatrixoflengthclassifier
/%
误分类123199.990.01020.00699.9870.0073
0.06
0.11
98.3
设Li=pi
(x)是输入x由i(i=1,2)位数字组成的概率;
c1(x)=max0≤j≤9
pj(x)、c2(x)=max00≤j≤9
9pj(x)以及c3
(x)=max000≤j≤9
99pj
(x)是输入x分别由1位、2位和3位数字分类器产生的最大概率。根据式(6),将输入x分配给类ω。
P(ω
|x)=L(x)<T,max(Ctop1(L)(x),(Ctop2(L)(x))otherwise,Ctop1(L)
(x{
))(6)
其中:P(ω
|x)代表输入为x,输出为类ω的概率;L(x)表示长度分类器的top1概率值;T代表阈值;Ctop1(L)(x)和Ctop2(L)(
x)分别表示L识别x的长度为i的top1值和top2值后,输入到对
应i
长度的数字分类器得到识别结果的概率值。若长度分类器L分类出分组数字为i位数字的top1概率
值大于阈值T
,那么直接将分组数字传递i位数字分类器。若小于阈值T,则将该分组数字分别输入这三个数字分类器,比
较这三个数字分类器的t
op1概率值,top1大的值即为识别的最终结果。整个动态选择分类器识别过程如图6
所示。
图6 动态选择分类器识别过程
Fig.6 Dynamicselectionclassifierrecognitionprocess
·4222·计算机应用研究
第37卷
3 实验与结果分析
3 1 实验环境与数据集
系统采用Caffe[12]开源框架实现,实验环境为Ubuntu64位操作系统,内存32GB,CPU为IntelCorei5 6300HQ,GPU为GeForceGTXTitan X。训练、测试1位数字分类器模型使用NISTSD19中的数据集,训练、测试2和3位粘连数字
分类器使用Synthetic数据集,训练、测试长度分类器的数据集为NISTSD19和Synthetic均匀分布的混合数据集。数据集样本图片如图7~9所示,由于样本种类较多,从每个分类器的数据集中选取了10类样本作为代表。表2显示了用于三个分类器的训练集和测试集的数据量。所有数据在输入网络之前已将图片尺寸归一化为96×96
。
图7 1位数字数据集
Fig.7 1 digitdigitaldataset
图8 2位粘连数字数据集
Fig.8 2 bitadhesivedigitaldataset
表2 各分类器数据量
Tab.2 Datavolumeofeachclassifier
分类器LC1C2C3
分类数3101001000
训练集×10350671611220
测试集×103101355420
验证SRUMC模型的测试集使用NISTSD19中HSF_7提
取的数字串,样本如图10所示,有2位、3位、4位、5位和6位
共五个类别的字符串,并且这五个类的数据集在训练网络时并
未使用。
图9 3位粘连数字数据集
Fig.9 3 bitadhesivedigitaldataset
图10 模型的测试集
Fig.10 Testsetformodel
动态阈值测定结果如图11所示,由图可以确定该研究使
用的动态选择阈值T大小为0.95
。
图11 识别准确率与T值关系
Fig.11 RelationbetweenrecognitionaccuracyandTvalue
本文使用随机梯度下降法(stochasticgradientdescent,
SGD)进行训练,使用128[13]的小批次反向传播,动量因子为
0.9,权重衰减为5×10-4,初始学习率为10-2,损失函数为交
叉熵损失函数,迭代次数为30000。
3 2 实验设计
为验证本文提出的SRUMC模型有效性,设计以下几个实
验,测试同一实验下除实验条件不同外,其他实验条件相同。
实验1 分别用本文提出的四个网络训练网络,测试出单
个分类器的识别准确率,与LeNet 5网络训练的结果作对比。
实验2 将四个分类器合并为一个模型,在不加入动态选
择策略时与Hochuli等人[4]提出的用一个分类器实现端到端
的无分割识别算法对比。
实验3 加入动态选择策略,也就是本文提出的SRUMC
模型,与实验2不加入动态选择策略进行对比。
实验4 与现有较好识别结果的算法进行对比。
3 3 实验结果分析
表3是实验1的结果,由表3可见本文提出的LeNet
Residual搭建的每个分类器都获得了更高的准确率,验证了本
文提出的将残差网络加入传统LeNet 5网络,提高手写数字识
别准确率的可行性。
表3 残差模块对分类器准确率的影响对比
Tab.3 Comparisonoftheinfluenceofresidualmoduleon
theaccuracyofclassifier/%
分类器LeNet ResidualLeNet 5
长度分类器(L)99.9999.98
1位数字分类器(C1)99.5499.14
2位数字分类器(C2)99.7199.30
3位数字分类器(C3)99.3098.10
表4是实验2的结果,由实验结果可以看出用多个分类器
共同工作进行手写数字字符串的识别比用一个分类器识别出
所有手写数字串的方法更好,可以取得更高的准确率。
表4 多分类器共同工作与单分类器独自工作识别结果
Tab.4 Recognitionresultsofmultipleclassifiersworking
togetherandsingleclassifierworkingalone/%
方法多分类器单分类器
准确率98.5296.05
表5是实验3的结果,使用的测试集是从Synthetic和
NISTSD19两个数据集中按照正态分布随机抽取的,由表可见
加入动态选择策略可以提升1个百分点的识别准确率。
表5 动态选择对分类器准确率的影响对比
Tab.5 Comparisonoftheinfluenceofdynamicselectionon
theaccuracyofclassifier/%
是否有动态选择测试数目正确个数准确率
有(SRUMC)3000298899.6
无3000298599.5
表6是实验4的结果,对比SRUMC模型和现有识别较好
结果的算法,数据集使用HSF_7系列中提取的数字串,分类为
2位、3位、4位、5位和6位共五个类别。对比1,与Britto等
人[14]提出的采用基于HMM的两阶段识别方法对比,该方法
的思想是弥补在基于隐式分割策略中由于分割和识别之间的
必要折中而导致识别性能方面的损失。对比2,与Sadri等
人[15]基于过度分割的方法对比,该方法的思想是处理多个分
割假设作为优化问题,使用遗传算法解决优化问题。对比3,
与Sadri等人[15]的第二组算法进行比较,该算法在遗传算法的
顶部定义了一组启发式算法来处理多个分割假设。对比4,与
Gattal等人[16]提出的另一种过分割算法对比,该方法的思想是
利用滑动窗口,并在滑动窗口上组合轮廓信息。由表中数据可
见,本文提出的SRUMC模型具有更高的识别准确率。
表6 SRUMC模型与其他识别算法对比
Tab.6 ComparisonofSRUMCmodeland
otherrecognitionalgorithms/%
长度BriSadSad_2GatSRUMC
294.895.598.997.699.3
391.691.497.297.398.5
491.391.096.196.598.1
588.388.095.895.996.6
689.088.696.196.697.2
通过将数字串分组的方式,用无分割的方法代替基于分割
的字符串识别算法,降低算法的复杂度并提高系统健壮性;通
过训练四个分类器共同工作分类1110类,代替单个分类器分
类1110类,提高识别准确率;通过使用动态选择策略,避免长
度分类器误分类对系统的影响。本文通过以上方法降低了算
法复杂度、节约了时间且提高了识别的准确率,并增强了系统
的健壮性。
·
5
2
2
2
·
第7期任晓奎,等:基于多分类器的无分割手写数字字符串识别算法
4 结束语
手写数字识别作为模式识别的一个重要分支,已经逐渐应用于现实生活。卷积神经网络具有位置可变性和局部连接等特性,理论上越深的网络训练出的模型应越好,但是随着网络层次的加深,网络难以优化。残差网络通过短连接,在加深网络深度的同时,使得网络容易优化,从而提高模型的识别准确率和收敛速度。通过使用多分类器对分组数字进行识别的方法,避免了传统分割方法的复杂度高、识别准确率低的问题;将残差结构应用于LeNet 5网络,并加入动态选择策略,构建深层次的SRUMC网络模型。SRUMC模型在2、3、4、5、6位长的字符串上分别取得了99.3%、98.5%、98.1%、96.6%和97 2%的识别准确率,具有较高的准确率。但是对于越长的字符串识别准确率越低,所以,下一步的工作是探索更好的算法,提高长度很长的字符串的识别准确率。
参考文献:
[1]VellasquesE,OliveiraLS,BrittoJrAS,etal.Filteringsegmentationcutsfordigitstringrecognition[J].PatternRecognition,2008,41(10):3044 3053.
[2]RibasFC,OliveiraLS,BrittoJrAS,etal.Handwrittendigitsegmen tation:acomparativestudy[J].In
ternationalJournalonDocumentAnalysisandRecognition,2013,16(2):567 578.
[3]MatanO,BurgesJ,LeCunY,etal.Multi digitrecognitionusingaspacedisplacementneuralnetwork[C]//AdvancesinNeuralInforma tionProcessingSystems.1992:488 495.
[4]HochuliAG,OliveiraLS,BrittoJrAS,etal.Segmentation freeap proachesforhandwrittennumeralstringrecognition[J].PatternRe cognition,2018,84(2):1 8.
[5]KarenS,AndrewZ.Verydeepconvolutionalnetworksforlarge scaleimagerecognition[EB/OL].(2014 09 04).[2015 04 10].ht tps://arxiv.org/abs/1409.1556.
[6]HeKaiming,ZhangXiangyu,RenShaoqing,etal.De
epresiduallear ningforimagerecognition[C]//ProcofIEEEConferenceonCompu terVisionandPatternRecognition.WashingtonDC:IEEEComputerSociety,2016:770 778.
[7]LeCunY,BottouL,BengioY,etal.Gradient basedlearningappliedtodocumentrecognition[J].ProceedingsoftheIEEE,1998,86
(11):2278 2324.
[8]王秀席,王茂宁,张建伟,等.基于改进的卷积神经网络LeNet 5的车型识别方法[J].计算机应用研究,2018,37(7):2215 2218.(WangXiuxi,WangMaoning,ZhangJianwei,etal.Vehicleidentifica tionmethodbasedonimprovedconvolutionalneuralnetworkLeNet 5[J].ApplicationResearchofComputers,2018,37(7):2215 2218.)
[9]李勇,林小竹,蒋梦莹.基于跨连接LeNet 5网络的面部表情识别[J].自动化学报,2
018,44(1):176 182.(LiYong,LinXiaozhu,JiangMengying.Facialexpressionrecognitionbasedonthecross con nectedLeNet 5network[J].ActaAutomaticaSinica,2018,44(1):176 182.)
[10]马苗,陈芳,郭敏,等.基于改进LeNet 5的街景门牌号码识别方法[J].云南大学学报:自然科学版,2016,38(2):197 203.(MaMiao,ChenFang,GuoMin,etal.TheidentificationmethodofstreetmapnumberbasedonimprovedLeNet 5isintroduced[J].JournalofYunnanUniversity:NaturalScience,2016,38(2):197 203.)[11]张军阳,王慧丽,郭阳,等.深度学习相关研究综述[J].计算机应用研究,2018,35(7):1921 1928,1936.(ZhangJunyang,WangHuili,GuoYang,etal.Researchoverviewofdeeplearning[J].Appli cationResearchofComputers,2018,35(7):1921 1928,1936.)[12]JiaY,ShelhamerE,DonahueJ,etal.Caffe:convolutionalarchitectureforfastfeatureembedding[C]//ProcofACMInternati
onalConfe renceonMultimedia.NewYork:ACMPress,2014.
[13]王一宁,秦品乐,李传朋,等.基于残差神经网络的图像超分辨率改进算法[J].计算机应用,2018,38(1):246 254.(WangYi ning,QinPinle,LiChuanpeng,etal.Animprovedsuper resolutional gorithmbasedonresidualneuralnetwork[J].JournalofComputerApplications,2018,38(1):246 254.)
[14]BrittoJrAS,SabourinR,BortolozziF,etal.Therecognitionofhand writtennumeralstringsusingatwo stageHMM basedmethod[J].In ternationalJournalonDocumentAnalysis&Recognition,2003,5(2):102 117.
[15]SadriJ,ChingY,TienD.Ageneticframeworkusingcontextualknow ledgeforsegmentationandrecognitionofhandwrittennumeralstrings[J].PatternRecognition,2007,40(3):898 919.
[16]GattalA,YoucefC,BilalH.Segmentationandrecognitionsystemforunknown lengthhandwrittendigitstrings[J].PatternAnalysis,2017,20(2):307 323.
(上接第2205页)
[25]OuyangWanli,ZhouHui,LiHongsheng,etal.Jointlylearningdeepfeatures,deformableparts,occlusionandclassificationforpedestriandetection[J].IEEETransonPatternAnalysisandMachineIn telligence,2018,40(8):1874 1887.
[26]CaiZhaowei,FanQuanfu,FerisRS,etal.Aunifiedmulti scaledeepconvolutionalneuralnetworkforfastobjectdetection[C]//ProcofEuropeanConferenceonComputerVision.Berlin:Springer,2016:354 370.
[27]高宗,李少波,陈济楠,等.基于YOLO网络的行人检测方法[J].计算机工程,2018,44(5):215 219,226.(GaoZong,LiShaobo,ChenJinan,etal.PedestriandetectionmethodbasedonYOLOnet work[J].ComputerEngineering,2018,44(5):215 219,226.)[28]ForsythD.Objectdetectionwithdiscriminativelytrainedpart basedmodels[J].Computer,2014,47(2):6 7.
[29]SermanetP,KavukcuogluK,ChintalaS,etal.Pedestriandetectionwithunsupervisedmulti stagefeaturelearning[C]//ProcofIEEEConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2013:3626 3633.
[30]DollárP,AppelR,BelongieS,etal.Fastfeaturepyramidsforobjectdetection[J].IEEETransonPatternAnalysisandMachineIn telligence,2014,36(8):1532 1545.
[31]CosteaAD,NedevschiS.Wordchannelbasedmultiscalepedestrian
detectionwithoutimageresizingandusingonlyoneclassifier[C]//ProcofIEEEConferenceonComputerVisionandPatternRecogni tion.Piscataway,NJ:IEEEPress,2014:2393 2400.
[32]TocaC,CiucM,PatrascuC.NormalizedautobinomialMarkovchan nelsforpedestriandetection[C]//ProcofBritishMachineConfe rence.Swansea:BMVAPress,2015:175.1 175.13.
[33]郝旭政,柴争义.一种改进的深度残差网络行人检测方法[J].计算机应用研究,2019,36(5):1569 1572,1584.(HaoXuzheng,ChaiZhengyi.Improvedpedestriandetectionmethodbasedondepthresidualnetwork[J].ApplicationResearchofComputers,2019,36(5):1569 1572,1584.)
[34]LimJJ,ZitnickCL,DollárP.Sketchtokens:alearnedmid levelrep resentationforcontourandobjectdetection[C]//ProcofIEEECon ferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2013:3158 3165.
[35]PaisitkriangkraiS,ShenC,VanDenHengelA.Strengtheningtheef fectivenessofpedestriandetectionwithspatiallypooledfeatures[C]//ProcofEuropeanConferenceonComputerVision.2014:546 561.
[36]DollarP,WojekC,SchieleB,etal.Pedestriandetection:anevalua tionofthestateoftheart[J].IEEETransonPatternAnalysisandMachineIntelligence,2012,34(4):743 761.
·
6
2
2
2
·计算机应用研究 第37卷
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论