基于多分类器的无分割手写数字字符串识别算法--688IT编程网

收稿日期：２０１９０３１０；修回日期：２０１９０４１９基金项目：辽宁省博士启动基金资助项目（２０１７０５２００９８）；辽宁省自然科学基金资助项目（

２０１５０２０１００）；辽宁省普通高等教育本科教学改革研究项目（５５１６１０００１０９５）；辽宁省教育厅一般项目（ＬＪ２０１７ＱＬ０１３）作者简介：任晓奎（１９６５），男，辽宁阜新人，副教授，主要研究方向为计算机视觉、信号检测与处理等；丁鑫（１９９５），女（通信作者），辽宁铁岭人，硕士研究生，主要研究方向为图像处理（１２９２９３８６８６＠ｑｑ．ｃｏｍ）；陶志勇（１９７８），男，辽宁葫芦岛人，副教授，博士，主要研究方向为多媒体通信；何欣键（１９９１），男，四川遂宁人，助理工程师，主要研究方向为信号处理．

基于多分类器的无分割手写数字字符串识别算法

任晓奎１，２，丁　鑫１，陶志勇１，２

，何欣键３

（１．辽宁工程技术大学电子与信息工程学院，辽宁葫芦岛１２５１０５；２．阜新力兴科技有限责任公司，辽宁阜新

１２３０００；３．中国电网四川阿坝州电力有限责任公司，四川阿坝６２３２００）摘　要：手写体

数字字符串识别常用于邮件自动分拣、银行票据和财务报表的录入中，针对其分割识别算法复杂度较高、准确率较低的问题，提出一种多分类器下无分割手写数字字符串识别算法。该算法的核心是采用四个分类器实现粘连字符串的无分割识别；将残差结构应用于ＬｅＮｅｔ５网络，以增加网络深度，提高识别准确率，加

快收敛速度；使用动态选择策略，以避免长度分类器误分类对识别结果的影响。实验结果表明，在Ｎ

ＩＳＴＳＤ１９一位数字和Ｓｙｎｔｈｅｔｉｃ数据集训练网络下，使用ＮＩＳＴＳＤ１９上长度为２、３、４、５、６的字符串验证网络，其识别准确率

分别为９

９．３％、９８．５％、９８．１％、９６．６％和９７．２％。关键词：图像处理；手写数字字符串识别；多分类器；无分割；动态选择中图分类号：ＴＰ３９１　文献标志码：Ａ　文章编号：１００１３６９５（２０２０）０７０６３２２２２０５ｄｏｉ：１０．１９７３４／ｊ．ｉｓｓｎ．１００１３６９５．２０１９．０３．００９７

Ｕｎｄｉｖｉｄｅｄｈａｎｄｗｒｉｔｔｅｎｎｕｍｂｅｒｓｔｒｉｎｇｒｅｃｏｇｎｉｔｉｏｎａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎ

ｍｕｌｔｉｐｌｅｃｌａｓｓｉｆｉｅｒｓ

ＲｅｎＸｉａｏｋｕｉ１，２，ＤｉｎｇＸｉｎ１，ＴａｏＺｈｉｙｏｎｇ１，２，ＨｅＸｉｎｊｉａｎ

３

（１．ＳｃｈｏｏｌｏｆＥｌｅｃｔｒｏｎｉｃｓ＆ＩｎｆｏｒｍａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇ，ＬｉａｏｎｉｎｇＴｅｃｈｎｉｃａｌＵｎｉｖｅｒｓｉｔｙ，ＨｕｌｕｄａｏＬｉａｏｎｉｎｇ１２５１０５，Ｃｈｉｎａ；２．ＦｕｘｉｎＬｉｘｉｎｇＴｅｃｈｎｏｌｏｇｙＣｏ，Ｌｔｄ，ＦｕｘｉｎＬｉａｏｎｉｎｇ１２３０００，Ｃｈｉｎａ；３．ＳｔａｔｅＧｒｉｄＡｂａＥｌｅｃｔｒｉｃＰｏｗｅｒＣｏｍｐａｎｙＬｉｍｉｔｅｄ，ＡｂａＳｉｃｈｕａｎ６２３２００，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ｈａｎｄｗｒｉｔｔｅｎｎｕｍｅｒａｌｓｔｒｉｎｇｒｅｃｏｇｎｉｔｉｏｎｉｓｏｆｔｅｎｕｓｅｄｉｎａｕｔｏｍａｔｉｃｍａｉｌｓｏｒｔｉｎｇ，ｂａｎｋｂｉｌｌｓａｎｄｆｉｎａｎｃｉａｌｓｔａｔｅｍｅｎｔｓ

ｉｎｐｕｔ．Ｔｏｏｖｅｒｃｏｍｅｔｈｅｈｉｇｈｃｏｍｐｌｅｘｉｔｙａｎｄｌｏｗａｃｃｕｒａｃｙｏｆｉｔｓｓｅｇｍｅｎｔａｔｉｏｎａｎｄｒｅｃｏｇｎｉｔｉｏｎａｌｇｏｒｉｔｈｍ，ｔｈ

ｉｓｐａｐｅｒｐｒｏｐｏｓｅｄａｎｏｎｓｅｇｍｅｎｔａｔｉｏｎｈａｎｄｗｒｉｔｔｅｎｎｕｍｅｒａｌｓｔｒｉｎｇｒｅｃｏｇｎｉｔｉｏｎａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｍｕｌｔｉｃｌａｓｓｉｆｉｅｒ．Ｔｈｅｃｏｒｅｏｆｔｈｅａｌｇｏｒｉｔｈｍｕｓｅｄｆｏｕｒ

ｃｌａｓｓｉｆｉｅｒｓｔｏｒｅａｌｉｚｅｎｏｎｓｅｇｍｅｎｔｅｄｒｅｃｏｇｎｉｔｉｏｎｏｆｓｔｉｃｋｙｓｔｒｉｎｇｓ

，ａｐｐｌｉｅｄｒｅｓｉｄｕａｌｓｔｒｕｃｔｕｒｅｔｏＬｅＮｅｔ５ｎｅｔｗｏｒｋｔｏｉｎｃｒｅａｓｅｎｅｔｗｏｒｋｄｅｐｔｈ

，ｉｍｐｒｏｖｅｄｒｅｃｏｇｎｉｔｉｏｎａｃｃｕｒａｃｙａｎｄｓｐｅｅｄｅｄｕｐｃｏｎｖｅｒｇｅｎｃｅ，ａｎｄｕｓｅｄｄｙｎａｍｉｃｓｅｌｅｃｔｉｏｎｓｔｒａｔｅｇｙｔｏａｖｏｉｄｔｈｅｉｍｐａｃｔｏｆｆａｌｓｅｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｌｅｎｇｔｈｃｌａｓｓｉｆｉｅｒｓｏｎｒｅｃｏｇｎｉｔｉｏｎｒｅｓｕｌｔｓ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅｒｅｃｏｇｎｉｔｉｏｎａｃｃｕｒａ

ｃｙｏｆＮＩＳＴＳＤ１９ｉｓ９９．３％，

９８．５％，９８．１％，９６．６％ａｎｄ９７．２％ｒｅｓｐｅｃｔｉｖｅｌｙｂｙｕｓｉｎｇａ

２，３，４，５，６ｌｅｎｇｔｈｓｔｒｉｎｇｖａｌｉｄａｔｉｏｎｎｅｔｗｏｒｋｏｎＮＩＳＴＳＤ１９．Ｋｅｙｗｏｒｄｓ：ｉｍａｇｅｐｒｏｃｅｓｓｉｎｇ；ｈａｎｄｗｒｉｔｔｅｎｄｉｇｉｔａｌｓｔｒｉｎｇｒｅｃｏｇｎｉｔｉｏｎ；ｍｕｌｔｉｃｌａｓｓｉｆｉｅｒ；ｎｏｓｅｇｍｅｎｔａｔｉｏｎ；ｄｙｎａｍｉｃｓｅｌｅｃｔｉｏｎ

０　引言

自２０世纪８０年代以来，光学字符识别技术成为模式识别的研究热点。而手写体数字字符串识别技术作为其重要分支，得到了长足的发展。在实际应用中，如邮件自动分拣系统、财务报表、银行单据的自动化处理等都需要手写体数字字符串识别技术。手写体数字字符串识别难点在于不同人的书写习惯不同，数字形式多样，数字间存在重叠、连笔等情况，数字串长度未知。手写数字字符串识别分为基于分割方式的识别和无分割方式的识别。在基于分割的识别方法中，由于粘连位置的可变性，寻最佳分割点困难，为了保证产生最佳切割点，通常采用过度分割的策略，其基本思想是尽可能多地分割图像以产生最佳分割切割。尽管过度分割最大限度地提高了生成良好分割点的几率，但同时也会大大增加计算成本，因为必须通过分类器评估的分割假设数量随着分割次数的增多呈指数增长。

Ｖｅｌｌａｓｑｕｅｓ等人［１］

提出一种减少过度分割影响策略，其目标是

使用ＳＶＭ分类器过滤掉不必要的分割。Ｒｉｂａｓ等人［２］

比较了各种分割算法，并根据性能、分割假设的数量以及处理时间对

它们进行评估。虽然基于分割的方法实现了手写数字字符串

的识别，但由于基于分割的算法受数字粘连、重叠影响严重，鲁

棒性不高，人们开始逐渐使用无分割的识别算法。Ｍ

ａｔａｎ等人［３］

首次尝试应用卷积神经网络（ＣＮＮ）来识别具有不分割字符的手写数字字符串，这种方法被命名为空间位移神经网络（ＳＤＮＮ），ＳＤＮＮ提供了一系列后处理的输出矢量，以便出最

佳可能的标记序列，即使作为一项重要贡献，

ＳＤＮＮ没有实现比分割方法更好的结果。近年来卷积神经网络在图像识别领域应用越来越广泛，深度的特征提取与鲁棒性强的优点提升了

无分割识别算法的性能。Ｈ

ｏｃｈｕｌｉ等人［４］

提出基于卷积神经网络的端到端解决方案，创建了大小为１位、２位和３位粘连数字串的合成数据集，并证实了引入上下文信息的重要性。相关方法已经对手写数字字符串识别性能进行了显著提升，通过对现有算法的研究与实际场景的应用提出了以下问题和思考：

ａ）根据Ｈｏｃｈｕｌｉ等人提出的创建大小为１位、２位和３位粘连数字串的合成数据集进行端到端的训练，是否可以通过多个分类器实现数字字符串识别。

ｂ）相关研究［５］

表明网络结构的深度对特征提取起到了重

第３７卷第７期２０２０年７月　计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓＶｏｌ３７Ｎｏ７

Ｊｕｌ．２０２０

要作用，并且由于相关防止过拟合技术的发展，使得小数量级的数据训练深度神经网络成为可能。因此，在防止发生过拟合的同时，是否能采用更为深度的ＣＮＮ，提升手写数字字符串识别的准确率。

根据以上思考，提出了多分类器下基于卷积神经网络的ＳＲＵＭＣ（ｓｔｒｉｎｇｒｅｃｏｇｎｉｔｉｏｎｕｎｄｅｒｍｕｌｔｉｐｌｅｃｌａｓｓｉｆｉｅｒｓ，多分类器下字符串识别）模型，实现手写数字字符串的识别。提取图像ＲＯＩ后，构建未知识别训练库；适当改变神经网络模型ＬｅＮｅｔ５中个别层的参数，并加入残差结构，分别训练各分类器；最终根据ｓｏｆｔｍａｘ结果判断是否需要动态选择策略，输出识别结果，避免分割策略复杂的同时，提高识别准确率。

１　相关工作

１１　卷积神经网络

卷积神经网络是一种前馈神经网络，是近年发展起来并引起广泛重视的一种高效识别方法。人工神经网络在引入卷积计算思想后，使用局部互连、权值共享方法，使得神经网络更符合生物神经元的稀疏特性。一般地，ＣＮＮ的基本结构包括两层，其一为特征提取层，每个神经元的输入与前一层的局部接受域相连，并提取该局部的特征，一旦该局部特征被提取后，它与其他特征间的位置关系也随之确定下来；其二是池化层，也叫下采样层，使用下采样保证局部不变性，使网络可以多层叠加，学习到的特征具有更好的表达效果。以上独特的结构特点使得ＣＮＮ在图像识别、物体检测等领域被广泛应用。

１２　残差网络

Ｈｅ等人［６］提出的深度残差网络（ｒｅｓｉｄｕａｌｎｅｔｗｏｒｋ，ＲｅｓＮｅｔ）于２０１５年在ＩｍａｇｅＮｅｔ和ＣＯＣＯ下面五个领域比赛中获得第一名。ＲｅｓＮｅｔ网络引入残差计算的方法，加深网络的深度，提高网络的性能。普通网络越深越难以优化，网络结构的加深使得训练和测试的准确率下降。残差网络中的快捷连接实现了网络的恒等映射，堆叠非线性层拟合残差映射，使得网络容易优化。本文每个残差块包含两个卷积层，卷积核大小受ＶＧＧ［５］网络启发，大小设为３×３，如图１

所示。

图１　残差结构

Ｆｉｇ．１　Ｆｒｅｓｉｄｕａｌｓｔｒｕｃｔｕｒｅ

字符串截取方式

定义残差结构模块为

ｙ＝Ｆ（ｘ，｛Ｗｉ｝）＋ｘ（１）其中：ｘ表示输入向量，ｙ表示输出向量；函数Ｆ（ｘ，｛Ｗ

ｉ

｝）是残

差网络的目标映射。图１中，Ｆ＝Ｗ

２

σ（Ｗ１ｘ＋ｂ）＋ｂ，σ表示ＲｅＬＵ激活函数，ｂ表示偏置节点，Ｆ＋ｘ通过短连接实现。若

维度不同，通过短连接执行一个线性映射Ｗ

ｓ

来匹配两者维度，如式（２）所示。

ｙ＝Ｆ（ｘ，｛Ｗｉ｝）＋Ｗｓｘ（２）ＢＮ层用来对某一个层网络的输入数据进行归一化处理，也就是使得每一维特征均值为０，标准差为１，如式（３）所示。

＾ｘ（ｋ）＝ｘ（ｋ）－Ｅ［ｘ（ｋ）］

ｖａｒ［ｘ（ｋ）

槡］（３）

其中：Ｅ［ｘ（ｋ）］指每一批训练数据神经元ｘ（ｋ）的平均值；分母是

每一批数据神经元ｘ（ｋ）的标准差，但此公式仅对网络某层的输

出数据作归一化，会影响到本层网络所学习到的特征，强制把

本层的数据作归一化处理，标准差也限制在１，破坏掉了本层

网络学习到的特征。于是引入ｓｃａｌｅ层，ｓｃａｌｅ层包含γ、β两个

学习参数，如式（４）所示。

ｙ（ｋ）＝γ（ｋ）＾ｘ（ｋ）＋β（ｋ）（４）值得一提的是ＢＮ层必须与ｓｃａｌｅ层一同使用，否则网络不收敛。修正线性单元ＲｅＬＵ有单侧抑制和稀疏激活性，数学

表达式如式（５）所示。ＢＮ层和ｓｃａｌｅ用在卷积层之后，ＲｅＬＵ

激活函数之前是因为非线性单元的输出分布形状会在训练过

程中变化，归一化无法消除它的方差偏移，相反，全连接和卷积

层的输出一般是一个对称、非稀疏的分布，更加类似高斯分布，

归一化会产生更加稳定的分布。

ｆ（ｘ）＝ｍａｘ（０，ｘ）（５）１３　改进思想

ＬｅＮｅｔ５网络［７］是一个用来识别孤立手写数字的经典卷积神经网络，该网络在小规模的孤立手写体数字识别中取得较好

的结果。ＬｅＮｅｔ５

的网络结构如图２所示，ＬｅＮｅｔ５网络由输入层、卷积层、池化层、全连接层和输出层组成。输入层将要识别

的图像输入到网络，卷积层通过可学习的卷积核对图像特征进

行提取，池化层的应用可以提高网络的泛化能力，对扭曲、形变

的图像仍然有较高的识别精度，全连接层实现特征空间的转

换，输出层解决线性多类别的分类问题。

图２　ＬｅＮｅｔ５网络结构图

Ｆｉｇ．２　ＬｅＮｅｔ５ｎｅｔｗｏｒｋｓｔｒｕｃｔｕｒｅｄｉａｇｒａｍ

改进的ＬｅＮｅｔ５模型被应用于各种识别场景下，如王秀席等人［８］将改进ＬｅＮｅｔ５模型应用于车型识别；李勇等人［９］将改

进ＬｅＮｅｔ５模型应用于面部表情识别；马苗等人［１０］将改进

ＬｅＮｅｔ５模型应用于街景门牌号码识别。本文通过增加网络的

深度来提高单个分类器的识别准确率，基于网络深度对传统

ＬｅＮｅｔ５模型进行改进，通过使用残差结构来增加网络的深度，

残差结构如图１所示。在提高网络准确率的同时，使网络能够

更好地收敛并避免退化问题的出现。网络的改进思想是：

ａ）保留ＬｅＮｅｔ５的池化层和卷积层，移除网络的全连接层；

ｂ）只在网络的第一卷积层和残差结构之后设置池化层；ｃ）残

差结构不设池化层，通过设置卷积核参数ｓｔｒｉｄｅ＝２实现特征

尺寸减半，在特征尺寸减半的同时，特征维度增加一倍来保证

时间复杂度相同。

２　ＳＲＵＭＣ模型

本文提出了多分类器下基于卷积神经网络的手写数字字符串识别模型，并称之为ＳＲＵＭＣ模型，实现了对未知长度的

手写数字串无分割识别，在加深网络层数与制定动态路径选择

策略中提高识别的准确率。

模型的整体结构如图３所示。首先对图像进行预处理将数字分组，分组的目的是将图像转换为部分图像识别，分组后

数字为１位数字、２位粘连数字或３位粘连数字；其次适当修

改ＬｅＮｅｔ５网络参数，加入残差结构，将网络改到适当深度，再

依次训练各分类器；最后，经动态选择策略将单独网络整合成

一个完整网络。下面将分别介绍四个分类器的网络结构。

３

２

第７期任晓奎，等：基于多分类器的无分割手写数字字符串识别算法　

图３　ＳＲＵＭＣ模型整体结构

Ｆｉｇ．３　ＯｖｅｒａｌｌｓｔｒｕｃｔｕｒｅｏｆＳＲＵＭＣｍｏｄｅｌ

２１　长度分类器网络结构

长度分类器（Ｌ）用来预测分组后的数字长度，构建的长度

分类器的网络结构如图４所示，

输入层的尺寸为匹配后面的数字分类器设置为９

６×９６，网络包含卷积层、池化层，局部响应归一化（ｌｏｃａｌｒｅｓｐｏｎｓｅｎｏｒｍａｌｉｚａｔｉｏｎ，ＬＲＮ）层、全连接层、ｄｒｏｐｏｕｔ层和输出层。输入图片尺寸为９６×９６，经大小为７×７的卷积核，滑动步长为１，ｐａｄｄｉｎｇ为０的卷积处理后生成２０个特征图，经激活函数激活后送入池化层，池化方式为最大池化，窗口

大小为２

，将池化后的特征图经ＬＲＮ处理，ＬＲＮ层通过对输入数剧的局部归一操作，执行了一种侧抑制的机

制。侧抑制指的是被激活神经元抑制相邻神经元，局部响应归一化借鉴侧抑制的思想来实现局部抑制，有利于增加泛化能力，提高识别率。

再经过第二次卷积，卷积核大小为５×

５，滑动步长为２，ｐａｄｄｉｎｇ为０，生成５０个特征图，经激活函数后，再经过池化窗口为２×

２的最大池化后，

将下采样后的特征图输入全连接层，全连接层数为１，在全连接层之后放置一个ｄｒｏｐｏｕｔ层，它以一定的概

率把隐含层的输出节点设置为０

，在更新权值时不更新与此节点相连的权值，减少了一定的计算量，且权值的更新不再依赖于固定隐含节点的共同作用，避免了某些特征只在特定特征下才有效的问题。ｄｒｏｐｏｕｔ层可以增强卷积神经网络的泛化能

力，有效防止过拟合，本文将ｄ

ｒｏｐｏｕｔ层参数设为０．５。最后输出层通过ｓ

ｏｆｔｍａｘ函数实现三分类［１１］

。图４　长度分类器的网络结构

Ｆｉｇ．４　Ｎｅｔｗｏｒｋｓｔｒｕｃｔｕｒｅｏｆｌｅｎｇｔｈｃｌａｓｓｉｆｉｅｒ

２２　数字分类器网络结构

数字分类器网络结构如图５所示，该网络充分考虑残差网

络和ＬｅＮｅｔ５网络的优点，将两者融合为一个网络，提高识别准确率的同时保证网络可以快速收敛，将该网络命名为ＬｅＮｅｔ

Ｒｅｓｉｄｕａｌ

，１位数字、２位粘连数字和３位粘连数字分类器网络结构一样。输入图像为９６×９６的单通道图像，进入卷积层，使

用７×７的卷积核ｃｏｎｖ１对图像进行卷积，步长为１，ｐａｄｄｉｎｇ为３，卷积核数量为６４，卷积操作后得到３２个大小为９６×９６的特征图。池化层采用重叠池化，池化窗口大小为３×３，步长为２，ｐａｄｄｉｎｇ为０，使用重叠池化可以降低错误识别率，池化后得到６４个４８×４８大小的下采样图。残差网络由ｃｏｎｖ卷积层、批量正则化层（ｂａｔｃｈｎｏｒｍａｌｉｚａｔｉｏｎｌａｙｅｒ，ＢＮ）、ｓｃａｌｅ层、ＲｅＬＵ、ｃｏｎｖ、ＢＮ、ｓｃａｌｅ组成，结构如图１所示。在本文中，残差块中卷积核ｃｏｎｖ有两种设置参数：一种卷积核大小为３×３，步长为１，ｐａｄｄｉｎｇ为１；另一种是卷积核大小为３×３，步长为２，ｐａｄｄｉｎｇ为１，各层参数设置如图５所示。经过所有残差结构后，输出５１２个大小为３×３的特征图，将此特征图输入池化层，进行下采样处

理，池化层的池化窗口设置为３×

３，池化步长为３，ｐａｄｄｉｎｇ为０，将下采样后的特征结构送入输出层，输出层通过ｓｏｆｔｍａｘ函

数实现分类。

图５　ＬｅＮｅｔＲｅｓｉｄｕａｌ网络结构

Ｆｉｇ．５　ＬｅＮｅｔＲｅｓｉｄｕａｌｎｅｔｗｏｒｋｓｔｒｕｃｔｕｒｅ

２３　动态选择

长度分类器在测试过程中的误分类情况如表１所示，为了

减少长度分类器带来消极影响，使用动态选择的策略降低影响。动态选择的主要思想是通过考虑分类结果的第二高输出（

ｔｏｐ２）来减小混淆的干扰，ｔｏｐ１和ｔｏｐ２分别指分类器分类结果排序的概率值。

表１　长度分类器（Ｌ）的测试误分类矩阵Ｔａｂ．１　Ｔｅｓｔｅｒｒｏｒｃｌａｓｓｉｆｉｃａｔｉｏｎｍａｔｒｉｘｏｆｌｅｎｇｔｈｃｌａｓｓｉｆｉｅｒ

／％

误分类１２３１９９．９９０．０１０２０．００６９９．９８７０．００７３

０．０６

０．１１

９８．３

设Ｌｉ＝ｐｉ

（ｘ）是输入ｘ由ｉ（ｉ＝１，２）位数字组成的概率；

ｃ１（ｘ）＝ｍａｘ０≤ｊ≤９

ｐｊ（ｘ）、ｃ２（ｘ）＝ｍａｘ００≤ｊ≤９

９ｐｊ（ｘ）以及ｃ３

（ｘ）＝ｍａｘ０００≤ｊ≤９

９９ｐｊ

（ｘ）是输入ｘ分别由１位、２位和３位数字分类器产生的最大概率。根据式（６），将输入ｘ分配给类ω。

Ｐ（ω

｜ｘ）＝Ｌ（ｘ）＜Ｔ，ｍａｘ（Ｃｔｏｐ１（Ｌ）（ｘ），（Ｃｔｏｐ２（Ｌ）（ｘ））ｏｔｈｅｒｗｉｓｅ，Ｃｔｏｐ１（Ｌ）

（ｘ{

））（６）

其中：Ｐ（ω

｜ｘ）代表输入为ｘ，输出为类ω的概率；Ｌ（ｘ）表示长度分类器的ｔｏｐ１概率值；Ｔ代表阈值；Ｃｔｏｐ１（Ｌ）（ｘ）和Ｃｔｏｐ２（Ｌ）（

ｘ）分别表示Ｌ识别ｘ的长度为ｉ的ｔｏｐ１值和ｔｏｐ２值后，输入到对

应ｉ

长度的数字分类器得到识别结果的概率值。若长度分类器Ｌ分类出分组数字为ｉ位数字的ｔｏｐ１概率

值大于阈值Ｔ

，那么直接将分组数字传递ｉ位数字分类器。若小于阈值Ｔ，则将该分组数字分别输入这三个数字分类器，比

较这三个数字分类器的ｔ

ｏｐ１概率值，ｔｏｐ１大的值即为识别的最终结果。整个动态选择分类器识别过程如图６

所示。

图６　动态选择分类器识别过程

Ｆｉｇ．６　Ｄｙｎａｍｉｃｓｅｌｅｃｔｉｏｎｃｌａｓｓｉｆｉｅｒｒｅｃｏｇｎｉｔｉｏｎｐｒｏｃｅｓｓ

·４２２２·计算机应用研究　

第３７卷

３　实验与结果分析

３１　实验环境与数据集

系统采用Ｃａｆｆｅ［１２］开源框架实现，实验环境为Ｕｂｕｎｔｕ６４位操作系统，内存３２ＧＢ，ＣＰＵ为ＩｎｔｅｌＣｏｒｅｉ５６３００ＨＱ，ＧＰＵ为ＧｅＦｏｒｃｅＧＴＸＴｉｔａｎＸ。训练、测试１位数字分类器模型使用ＮＩＳＴＳＤ１９中的数据集，训练、测试２和３位粘连数字

分类器使用Ｓｙｎｔｈｅｔｉｃ数据集，训练、测试长度分类器的数据集为ＮＩＳＴＳＤ１９和Ｓｙｎｔｈｅｔｉｃ均匀分布的混合数据集。数据集样本图片如图７～９所示，由于样本种类较多，从每个分类器的数据集中选取了１０类样本作为代表。表２显示了用于三个分类器的训练集和测试集的数据量。所有数据在输入网络之前已将图片尺寸归一化为９６×９６

。

图７　１位数字数据集

Ｆｉｇ．７　１ｄｉｇｉｔｄｉｇｉｔａｌｄａｔａｓｅｔ

图８　２位粘连数字数据集

Ｆｉｇ．８　２ｂｉｔａｄｈｅｓｉｖｅｄｉｇｉｔａｌｄａｔａｓｅｔ

表２　各分类器数据量

Ｔａｂ．２　Ｄａｔａｖｏｌｕｍｅｏｆｅａｃｈｃｌａｓｓｉｆｉｅｒ

分类器ＬＣ１Ｃ２Ｃ３

分类数３１０１００１０００

训练集×１０３５０６７１６１１２２０

测试集×１０３１０１３５５４２０

验证ＳＲＵＭＣ模型的测试集使用ＮＩＳＴＳＤ１９中ＨＳＦ＿７提

取的数字串，样本如图１０所示，有２位、３位、４位、５位和６位

共五个类别的字符串，并且这五个类的数据集在训练网络时并

未使用。

图９　３位粘连数字数据集

Ｆｉｇ．９　３ｂｉｔａｄｈｅｓｉｖｅｄｉｇｉｔａｌｄａｔａｓｅｔ

图１０　模型的测试集

Ｆｉｇ．１０　Ｔｅｓｔｓｅｔｆｏｒｍｏｄｅｌ

动态阈值测定结果如图１１所示，由图可以确定该研究使

用的动态选择阈值Ｔ大小为０．９５

。

图１１　识别准确率与Ｔ值关系

Ｆｉｇ．１１　ＲｅｌａｔｉｏｎｂｅｔｗｅｅｎｒｅｃｏｇｎｉｔｉｏｎａｃｃｕｒａｃｙａｎｄＴｖａｌｕｅ

本文使用随机梯度下降法（ｓｔｏｃｈａｓｔｉｃｇｒａｄｉｅｎｔｄｅｓｃｅｎｔ，

ＳＧＤ）进行训练，使用１２８［１３］的小批次反向传播，动量因子为

０．９，权重衰减为５×１０－４，初始学习率为１０－２，损失函数为交

叉熵损失函数，迭代次数为３００００。

３２　实验设计

为验证本文提出的ＳＲＵＭＣ模型有效性，设计以下几个实

验，测试同一实验下除实验条件不同外，其他实验条件相同。

实验１　分别用本文提出的四个网络训练网络，测试出单

个分类器的识别准确率，与ＬｅＮｅｔ５网络训练的结果作对比。

实验２　将四个分类器合并为一个模型，在不加入动态选

择策略时与Ｈｏｃｈｕｌｉ等人［４］提出的用一个分类器实现端到端

的无分割识别算法对比。

实验３　加入动态选择策略，也就是本文提出的ＳＲＵＭＣ

模型，与实验２不加入动态选择策略进行对比。

实验４　与现有较好识别结果的算法进行对比。

３３　实验结果分析

表３是实验１的结果，由表３可见本文提出的ＬｅＮｅｔ

Ｒｅｓｉｄｕａｌ搭建的每个分类器都获得了更高的准确率，验证了本

文提出的将残差网络加入传统ＬｅＮｅｔ５网络，提高手写数字识

别准确率的可行性。

表３　残差模块对分类器准确率的影响对比

Ｔａｂ．３　Ｃｏｍｐａｒｉｓｏｎｏｆｔｈｅｉｎｆｌｕｅｎｃｅｏｆｒｅｓｉｄｕａｌｍｏｄｕｌｅｏｎ

ｔｈｅａｃｃｕｒａｃｙｏｆｃｌａｓｓｉｆｉｅｒ／％

分类器ＬｅＮｅｔＲｅｓｉｄｕａｌＬｅＮｅｔ５

长度分类器（Ｌ）９９．９９９９．９８

１位数字分类器（Ｃ１）９９．５４９９．１４

２位数字分类器（Ｃ２）９９．７１９９．３０

３位数字分类器（Ｃ３）９９．３０９８．１０

表４是实验２的结果，由实验结果可以看出用多个分类器

共同工作进行手写数字字符串的识别比用一个分类器识别出

所有手写数字串的方法更好，可以取得更高的准确率。

表４　多分类器共同工作与单分类器独自工作识别结果

Ｔａｂ．４　Ｒｅｃｏｇｎｉｔｉｏｎｒｅｓｕｌｔｓｏｆｍｕｌｔｉｐｌｅｃｌａｓｓｉｆｉｅｒｓｗｏｒｋｉｎｇ

ｔｏｇｅｔｈｅｒａｎｄｓｉｎｇｌｅｃｌａｓｓｉｆｉｅｒｗｏｒｋｉｎｇａｌｏｎｅ／％

方法多分类器单分类器

准确率９８．５２９６．０５

表５是实验３的结果，使用的测试集是从Ｓｙｎｔｈｅｔｉｃ和

ＮＩＳＴＳＤ１９两个数据集中按照正态分布随机抽取的，由表可见

加入动态选择策略可以提升１个百分点的识别准确率。

表５　动态选择对分类器准确率的影响对比

Ｔａｂ．５　Ｃｏｍｐａｒｉｓｏｎｏｆｔｈｅｉｎｆｌｕｅｎｃｅｏｆｄｙｎａｍｉｃｓｅｌｅｃｔｉｏｎｏｎ

　ｔｈｅａｃｃｕｒａｃｙｏｆｃｌａｓｓｉｆｉｅｒ／％

是否有动态选择测试数目正确个数准确率

有（ＳＲＵＭＣ）３０００２９８８９９．６

无３０００２９８５９９．５

表６是实验４的结果，对比ＳＲＵＭＣ模型和现有识别较好

结果的算法，数据集使用ＨＳＦ＿７系列中提取的数字串，分类为

２位、３位、４位、５位和６位共五个类别。对比１，与Ｂｒｉｔｔｏ等

人［１４］提出的采用基于ＨＭＭ的两阶段识别方法对比，该方法

的思想是弥补在基于隐式分割策略中由于分割和识别之间的

必要折中而导致识别性能方面的损失。对比２，与Ｓａｄｒｉ等

人［１５］基于过度分割的方法对比，该方法的思想是处理多个分

割假设作为优化问题，使用遗传算法解决优化问题。对比３，

与Ｓａｄｒｉ等人［１５］的第二组算法进行比较，该算法在遗传算法的

顶部定义了一组启发式算法来处理多个分割假设。对比４，与

Ｇａｔｔａｌ等人［１６］提出的另一种过分割算法对比，该方法的思想是

利用滑动窗口，并在滑动窗口上组合轮廓信息。由表中数据可

见，本文提出的ＳＲＵＭＣ模型具有更高的识别准确率。

表６　ＳＲＵＭＣ模型与其他识别算法对比

Ｔａｂ．６　ＣｏｍｐａｒｉｓｏｎｏｆＳＲＵＭＣｍｏｄｅｌａｎｄ

ｏｔｈｅｒｒｅｃｏｇｎｉｔｉｏｎａｌｇｏｒｉｔｈｍｓ／％

长度ＢｒｉＳａｄＳａｄ＿２ＧａｔＳＲＵＭＣ

２９４．８９５．５９８．９９７．６９９．３

３９１．６９１．４９７．２９７．３９８．５

４９１．３９１．０９６．１９６．５９８．１

５８８．３８８．０９５．８９５．９９６．６

６８９．０８８．６９６．１９６．６９７．２

通过将数字串分组的方式，用无分割的方法代替基于分割

的字符串识别算法，降低算法的复杂度并提高系统健壮性；通

过训练四个分类器共同工作分类１１１０类，代替单个分类器分

类１１１０类，提高识别准确率；通过使用动态选择策略，避免长

度分类器误分类对系统的影响。本文通过以上方法降低了算

法复杂度、节约了时间且提高了识别的准确率，并增强了系统

的健壮性。

５

２

第７期任晓奎，等：基于多分类器的无分割手写数字字符串识别算法　

４　结束语

手写数字识别作为模式识别的一个重要分支，已经逐渐应用于现实生活。卷积神经网络具有位置可变性和局部连接等特性，理论上越深的网络训练出的模型应越好，但是随着网络层次的加深，网络难以优化。残差网络通过短连接，在加深网络深度的同时，使得网络容易优化，从而提高模型的识别准确率和收敛速度。通过使用多分类器对分组数字进行识别的方法，避免了传统分割方法的复杂度高、识别准确率低的问题；将残差结构应用于ＬｅＮｅｔ５网络，并加入动态选择策略，构建深层次的ＳＲＵＭＣ网络模型。ＳＲＵＭＣ模型在２、３、４、５、６位长的字符串上分别取得了９９．３％、９８．５％、９８．１％、９６．６％和９７２％的识别准确率，具有较高的准确率。但是对于越长的字符串识别准确率越低，所以，下一步的工作是探索更好的算法，提高长度很长的字符串的识别准确率。

参考文献：

［１］ＶｅｌｌａｓｑｕｅｓＥ，ＯｌｉｖｅｉｒａＬＳ，ＢｒｉｔｔｏＪｒＡＳ，ｅｔａｌ．Ｆｉｌｔｅｒｉｎｇｓｅｇｍｅｎｔａｔｉｏｎｃｕｔｓｆｏｒｄｉｇｉｔｓｔｒｉｎｇｒｅｃｏｇｎｉｔｉｏｎ［Ｊ］．ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２００８，４１（１０）：３０４４３０５３．

［２］ＲｉｂａｓＦＣ，ＯｌｉｖｅｉｒａＬＳ，ＢｒｉｔｔｏＪｒＡＳ，ｅｔａｌ．Ｈａｎｄｗｒｉｔｔｅｎｄｉｇｉｔｓｅｇｍｅｎｔａｔｉｏｎ：ａｃｏｍｐａｒａｔｉｖｅｓｔｕｄｙ［Ｊ］．Ｉｎ

ｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｎＤｏｃｕｍｅｎｔＡｎａｌｙｓｉｓａｎｄＲｅｃｏｇｎｉｔｉｏｎ，２０１３，１６（２）：５６７５７８．

［３］ＭａｔａｎＯ，ＢｕｒｇｅｓＪ，ＬｅＣｕｎＹ，ｅｔａｌ．Ｍｕｌｔｉｄｉｇｉｔｒｅｃｏｇｎｉｔｉｏｎｕｓｉｎｇａｓｐａｃｅｄｉｓｐｌａｃｅｍｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ［Ｃ］／／ＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ．１９９２：４８８４９５．

［４］ＨｏｃｈｕｌｉＡＧ，ＯｌｉｖｅｉｒａＬＳ，ＢｒｉｔｔｏＪｒＡＳ，ｅｔａｌ．Ｓｅｇｍｅｎｔａｔｉｏｎｆｒｅｅａｐｐｒｏａｃｈｅｓｆｏｒｈａｎｄｗｒｉｔｔｅｎｎｕｍｅｒａｌｓｔｒｉｎｇｒｅｃｏｇｎｉｔｉｏｎ［Ｊ］．ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２０１８，８４（２）：１８．

［５］ＫａｒｅｎＳ，ＡｎｄｒｅｗＺ．Ｖｅｒｙｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓｆｏｒｌａｒｇｅｓｃａｌｅｉｍａｇｅｒｅｃｏｇｎｉｔｉｏｎ［ＥＢ／ＯＬ］．（２０１４０９０４）．［２０１５０４１０］．ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１４０９．１５５６．

［６］ＨｅＫａｉｍｉｎｇ，ＺｈａｎｇＸｉａｎｇｙｕ，ＲｅｎＳｈａｏｑｉｎｇ，ｅｔａｌ．Ｄｅ

ｅｐｒｅｓｉｄｕａｌｌｅａｒｎｉｎｇｆｏｒｉｍａｇｅｒｅｃｏｇｎｉｔｉｏｎ［Ｃ］／／ＰｒｏｃｏｆＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．ＷａｓｈｉｎｇｔｏｎＤＣ：ＩＥＥＥＣｏｍｐｕｔｅｒＳｏｃｉｅｔｙ，２０１６：７７０７７８．

［７］ＬｅＣｕｎＹ，ＢｏｔｔｏｕＬ，ＢｅｎｇｉｏＹ，ｅｔａｌ．Ｇｒａｄｉｅｎｔｂａｓｅｄｌｅａｒｎｉｎｇａｐｐｌｉｅｄｔｏｄｏｃｕｍｅｎｔｒｅｃｏｇｎｉｔｉｏｎ［Ｊ］．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥ，１９９８，８６

（１１）：２２７８２３２４．

［８］王秀席，王茂宁，张建伟，等．基于改进的卷积神经网络ＬｅＮｅｔ５的车型识别方法［Ｊ］．计算机应用研究，２０１８，３７（７）：２２１５２２１８．（ＷａｎｇＸｉｕｘｉ，ＷａｎｇＭａｏｎｉｎｇ，ＺｈａｎｇＪｉａｎｗｅｉ，ｅｔａｌ．ＶｅｈｉｃｌｅｉｄｅｎｔｉｆｉｃａｔｉｏｎｍｅｔｈｏｄｂａｓｅｄｏｎｉｍｐｒｏｖｅｄｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋＬｅＮｅｔ５［Ｊ］．ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ，２０１８，３７（７）：２２１５２２１８．）

［９］李勇，林小竹，蒋梦莹．基于跨连接ＬｅＮｅｔ５网络的面部表情识别［Ｊ］．自动化学报，２

０１８，４４（１）：１７６１８２．（ＬｉＹｏｎｇ，ＬｉｎＸｉａｏｚｈｕ，ＪｉａｎｇＭｅｎｇｙｉｎｇ．ＦａｃｉａｌｅｘｐｒｅｓｓｉｏｎｒｅｃｏｇｎｉｔｉｏｎｂａｓｅｄｏｎｔｈｅｃｒｏｓｓｃｏｎｎｅｃｔｅｄＬｅＮｅｔ５ｎｅｔｗｏｒｋ［Ｊ］．ＡｃｔａＡｕｔｏｍａｔｉｃａＳｉｎｉｃａ，２０１８，４４（１）：１７６１８２．）

［１０］马苗，陈芳，郭敏，等．基于改进ＬｅＮｅｔ５的街景门牌号码识别方法［Ｊ］．云南大学学报：自然科学版，２０１６，３８（２）：１９７２０３．（ＭａＭｉａｏ，ＣｈｅｎＦａｎｇ，ＧｕｏＭｉｎ，ｅｔａｌ．ＴｈｅｉｄｅｎｔｉｆｉｃａｔｉｏｎｍｅｔｈｏｄｏｆｓｔｒｅｅｔｍａｐｎｕｍｂｅｒｂａｓｅｄｏｎｉｍｐｒｏｖｅｄＬｅＮｅｔ５ｉｓｉｎｔｒｏｄｕｃｅｄ［Ｊ］．ＪｏｕｒｎａｌｏｆＹｕｎｎａｎＵｎｉｖｅｒｓｉｔｙ：ＮａｔｕｒａｌＳｃｉｅｎｃｅ，２０１６，３８（２）：１９７２０３．）［１１］张军阳，王慧丽，郭阳，等．深度学习相关研究综述［Ｊ］．计算机应用研究，２０１８，３５（７）：１９２１１９２８，１９３６．（ＺｈａｎｇＪｕｎｙａｎｇ，ＷａｎｇＨｕｉｌｉ，ＧｕｏＹａｎｇ，ｅｔａｌ．Ｒｅｓｅａｒｃｈｏｖｅｒｖｉｅｗｏｆｄｅｅｐｌｅａｒｎｉｎｇ［Ｊ］．ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ，２０１８，３５（７）：１９２１１９２８，１９３６．）［１２］ＪｉａＹ，ＳｈｅｌｈａｍｅｒＥ，ＤｏｎａｈｕｅＪ，ｅｔａｌ．Ｃａｆｆｅ：ｃｏｎｖｏｌｕｔｉｏｎａｌａｒｃｈｉｔｅｃｔｕｒｅｆｏｒｆａｓｔｆｅａｔｕｒｅｅｍｂｅｄｄｉｎｇ［Ｃ］／／ＰｒｏｃｏｆＡＣＭＩｎｔｅｒｎａｔｉ

ｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭｕｌｔｉｍｅｄｉａ．ＮｅｗＹｏｒｋ：ＡＣＭＰｒｅｓｓ，２０１４．

［１３］王一宁，秦品乐，李传朋，等．基于残差神经网络的图像超分辨率改进算法［Ｊ］．计算机应用，２０１８，３８（１）：２４６２５４．（ＷａｎｇＹｉｎｉｎｇ，ＱｉｎＰｉｎｌｅ，ＬｉＣｈｕａｎｐｅｎｇ，ｅｔａｌ．Ａｎｉｍｐｒｏｖｅｄｓｕｐｅｒｒｅｓｏｌｕｔｉｏｎａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｒｅｓｉｄｕａｌｎｅｕｒａｌｎｅｔｗｏｒｋ［Ｊ］．ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓ，２０１８，３８（１）：２４６２５４．）

［１４］ＢｒｉｔｔｏＪｒＡＳ，ＳａｂｏｕｒｉｎＲ，ＢｏｒｔｏｌｏｚｚｉＦ，ｅｔａｌ．ＴｈｅｒｅｃｏｇｎｉｔｉｏｎｏｆｈａｎｄｗｒｉｔｔｅｎｎｕｍｅｒａｌｓｔｒｉｎｇｓｕｓｉｎｇａｔｗｏｓｔａｇｅＨＭＭｂａｓｅｄｍｅｔｈｏｄ［Ｊ］．ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｎＤｏｃｕｍｅｎｔＡｎａｌｙｓｉｓ＆Ｒｅｃｏｇｎｉｔｉｏｎ，２００３，５（２）：１０２１１７．

［１５］ＳａｄｒｉＪ，ＣｈｉｎｇＹ，ＴｉｅｎＤ．Ａｇｅｎｅｔｉｃｆｒａｍｅｗｏｒｋｕｓｉｎｇｃｏｎｔｅｘｔｕａｌｋｎｏｗｌｅｄｇｅｆｏｒｓｅｇｍｅｎｔａｔｉｏｎａｎｄｒｅｃｏｇｎｉｔｉｏｎｏｆｈａｎｄｗｒｉｔｔｅｎｎｕｍｅｒａｌｓｔｒｉｎｇｓ［Ｊ］．ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２００７，４０（３）：８９８９１９．

［１６］ＧａｔｔａｌＡ，ＹｏｕｃｅｆＣ，ＢｉｌａｌＨ．Ｓｅｇｍｅｎｔａｔｉｏｎａｎｄｒｅｃｏｇｎｉｔｉｏｎｓｙｓｔｅｍｆｏｒｕｎｋｎｏｗｎｌｅｎｇｔｈｈａｎｄｗｒｉｔｔｅｎｄｉｇｉｔｓｔｒｉｎｇｓ［Ｊ］．ＰａｔｔｅｒｎＡｎａｌｙｓｉｓ，２０１７，２０（２）：３０７３２３．

（上接第２２０５页）

［２５］ＯｕｙａｎｇＷａｎｌｉ，ＺｈｏｕＨｕｉ，ＬｉＨｏｎｇｓｈｅｎｇ，ｅｔａｌ．Ｊｏｉｎｔｌｙｌｅａｒｎｉｎｇｄｅｅｐｆｅａｔｕｒｅｓ，ｄｅｆｏｒｍａｂｌｅｐａｒｔｓ，ｏｃｃｌｕｓｉｏｎａｎｄｃｌａｓｓｉｆｉｃａｔｉｏｎｆｏｒｐｅｄｅｓｔｒｉａｎｄｅｔｅｃｔｉｏｎ［Ｊ］．ＩＥＥＥＴｒａｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，２０１８，４０（８）：１８７４１８８７．

［２６］ＣａｉＺｈａｏｗｅｉ，ＦａｎＱｕａｎｆｕ，ＦｅｒｉｓＲＳ，ｅｔａｌ．Ａｕｎｉｆｉｅｄｍｕｌｔｉｓｃａｌｅｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｆｏｒｆａｓｔｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ［Ｃ］／／ＰｒｏｃｏｆＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ．Ｂｅｒｌｉｎ：Ｓｐｒｉｎｇｅｒ，２０１６：３５４３７０．

［２７］高宗，李少波，陈济楠，等．基于ＹＯＬＯ网络的行人检测方法［Ｊ］．计算机工程，２０１８，４４（５）：２１５２１９，２２６．（ＧａｏＺｏｎｇ，ＬｉＳｈａｏｂｏ，ＣｈｅｎＪｉｎａｎ，ｅｔａｌ．ＰｅｄｅｓｔｒｉａｎｄｅｔｅｃｔｉｏｎｍｅｔｈｏｄｂａｓｅｄｏｎＹＯＬＯｎｅｔｗｏｒｋ［Ｊ］．ＣｏｍｐｕｔｅｒＥｎｇｉｎｅｅｒｉｎｇ，２０１８，４４（５）：２１５２１９，２２６．）［２８］ＦｏｒｓｙｔｈＤ．Ｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎｗｉｔｈｄｉｓｃｒｉｍｉｎａｔｉｖｅｌｙｔｒａｉｎｅｄｐａｒｔｂａｓｅｄｍｏｄｅｌｓ［Ｊ］．Ｃｏｍｐｕｔｅｒ，２０１４，４７（２）：６７．

［２９］ＳｅｒｍａｎｅｔＰ，ＫａｖｕｋｃｕｏｇｌｕＫ，ＣｈｉｎｔａｌａＳ，ｅｔａｌ．Ｐｅｄｅｓｔｒｉａｎｄｅｔｅｃｔｉｏｎｗｉｔｈｕｎｓｕｐｅｒｖｉｓｅｄｍｕｌｔｉｓｔａｇｅｆｅａｔｕｒｅｌｅａｒｎｉｎｇ［Ｃ］／／ＰｒｏｃｏｆＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥＰｒｅｓｓ，２０１３：３６２６３６３３．

［３０］ＤｏｌｌáｒＰ，ＡｐｐｅｌＲ，ＢｅｌｏｎｇｉｅＳ，ｅｔａｌ．Ｆａｓｔｆｅａｔｕｒｅｐｙｒａｍｉｄｓｆｏｒｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ［Ｊ］．ＩＥＥＥＴｒａｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，２０１４，３６（８）：１５３２１５４５．

［３１］ＣｏｓｔｅａＡＤ，ＮｅｄｅｖｓｃｈｉＳ．Ｗｏｒｄｃｈａｎｎｅｌｂａｓｅｄｍｕｌｔｉｓｃａｌｅｐｅｄｅｓｔｒｉａｎ

ｄｅｔｅｃｔｉｏｎｗｉｔｈｏｕｔｉｍａｇｅｒｅｓｉｚｉｎｇａｎｄｕｓｉｎｇｏｎｌｙｏｎｅｃｌａｓｓｉｆｉｅｒ［Ｃ］／／ＰｒｏｃｏｆＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥＰｒｅｓｓ，２０１４：２３９３２４００．

［３２］ＴｏｃａＣ，ＣｉｕｃＭ，ＰａｔｒａｓｃｕＣ．ＮｏｒｍａｌｉｚｅｄａｕｔｏｂｉｎｏｍｉａｌＭａｒｋｏｖｃｈａｎｎｅｌｓｆｏｒｐｅｄｅｓｔｒｉａｎｄｅｔｅｃｔｉｏｎ［Ｃ］／／ＰｒｏｃｏｆＢｒｉｔｉｓｈＭａｃｈｉｎｅＣｏｎｆｅｒｅｎｃｅ．Ｓｗａｎｓｅａ：ＢＭＶＡＰｒｅｓｓ，２０１５：１７５．１１７５．１３．

［３３］郝旭政，柴争义．一种改进的深度残差网络行人检测方法［Ｊ］．计算机应用研究，２０１９，３６（５）：１５６９１５７２，１５８４．（ＨａｏＸｕｚｈｅｎｇ，ＣｈａｉＺｈｅｎｇｙｉ．Ｉｍｐｒｏｖｅｄｐｅｄｅｓｔｒｉａｎｄｅｔｅｃｔｉｏｎｍｅｔｈｏｄｂａｓｅｄｏｎｄｅｐｔｈｒｅｓｉｄｕａｌｎｅｔｗｏｒｋ［Ｊ］．ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ，２０１９，３６（５）：１５６９１５７２，１５８４．）

［３４］ＬｉｍＪＪ，ＺｉｔｎｉｃｋＣＬ，ＤｏｌｌáｒＰ．Ｓｋｅｔｃｈｔｏｋｅｎｓ：ａｌｅａｒｎｅｄｍｉｄｌｅｖｅｌｒｅｐｒｅｓｅｎｔａｔｉｏｎｆｏｒｃｏｎｔｏｕｒａｎｄｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ［Ｃ］／／ＰｒｏｃｏｆＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥＰｒｅｓｓ，２０１３：３１５８３１６５．

［３５］ＰａｉｓｉｔｋｒｉａｎｇｋｒａｉＳ，ＳｈｅｎＣ，ＶａｎＤｅｎＨｅｎｇｅｌＡ．Ｓｔｒｅｎｇｔｈｅｎｉｎｇｔｈｅｅｆｆｅｃｔｉｖｅｎｅｓｓｏｆｐｅｄｅｓｔｒｉａｎｄｅｔｅｃｔｉｏｎｗｉｔｈｓｐａｔｉａｌｌｙｐｏｏｌｅｄｆｅａｔｕｒｅｓ［Ｃ］／／ＰｒｏｃｏｆＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ．２０１４：５４６５６１．

［３６］ＤｏｌｌａｒＰ，ＷｏｊｅｋＣ，ＳｃｈｉｅｌｅＢ，ｅｔａｌ．Ｐｅｄｅｓｔｒｉａｎｄｅｔｅｃｔｉｏｎ：ａｎｅｖａｌｕａｔｉｏｎｏｆｔｈｅｓｔａｔｅｏｆｔｈｅａｒｔ［Ｊ］．ＩＥＥＥＴｒａｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，２０１２，３４（４）：７４３７６１．

６

２

·计算机应用研究　第３７卷

688IT编程网

基于多分类器的无分割手写数字字符串识别算法

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

基于多分类器的无分割手写数字字符串识别算法

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式