基于深度学习特征的图像检索方法
任夏荔;陈光喜;曹建收;蔡天任
【摘 要】As for the problem that the high dimensional image's feature uses large storage space,and considering that some of these features have a high degree of correlation,a principal components analysis via deep learning features based on image retrieval method was proposed.Deep learning features were extracted based on convolutional neural network.By analyzing the correlation of features and using principal component analysis algorithm,dimensions of the features were reduced while information loss was minimized.Binary hash codes were used for fast image retrieval.Experimental results show that the retrieval performance is better than the property of the method that using all of the untreated characteristics to encode and retrieval on the Caltech101 and Caltech256 datasets.%针对图像高维特征占用巨大存储空间的问题,考虑到其中一些特征存在高度相关性,提出一种基于深度学习特征的图像检索方法.利用卷积神经网络,提取基于深度学习的图像特征;通过分析特征本身存在的相关性,采用主成分分析算法,对特征降维的同时尽量降低信息
的损失;在此基础上对特征进行哈希编码,利用编码做快速图像检索.Caltech101和Caltech256数据集上的实验结果表明,相比直接使用原始深度特征进行编码检索,所提方法的检索性能更好.
【期刊名称】《计算机工程与设计》
【年(卷),期】2018(039)002
【总页数】8页(P503-510)
【关键词】图像检索;卷积神经网络;深度学习;主成分分析;哈希编码
【作 者】任夏荔;陈光喜;曹建收;蔡天任
【作者单位】桂林电子科技大学计算机与信息安全学院,广西桂林541004;桂林电子科技大学计算机与信息安全学院,广西桂林541004;桂林电子科技大学计算机与信息安全学院,广西桂林541004;桂林电子科技大学计算机与信息安全学院,广西桂林541004
【正文语种】中 文
【中图分类】TP391.41
0 引 言
基于内容的图像检索(content-based image retrieval,CBIR)是指,在给定查询图像的前提下,无需人工对图像进行注释,依据图像本身包含的像素信息、颜、纹理、形状、空间关系等客观视觉特征,在图像数据库中搜索并查出符合查询条件的相应图像。其中最基本的问题之一就是如何实现对图像的有效表达,正因为如此,关于特征的提取和表达一直得到了广泛关注。传统的特征表示往往需要根据先验知识手工来提取,工作量大,效果不尽人意,同时也不符合智能化的要求。出现以上结果的一个关键原因在于可被计算机识别的低水平的图像像素和人类感知的高水平语义概念之间存在语义鸿沟。如何缩小甚至跨越这一鸿沟,便成为了当前特征表示的研究重点。Hinton等[1]采用深度学习赢得了ImageNet图像分类的比赛,验证了深度学习特征是比传统的人工特征更具优势的特征表示方法。如今,基于深度学习的特征表示在很多方面都有广泛的应用,具有代表性的包括声音、文本信息的处理[2-4],以及图像分类[1]、图像识别[5,6]、目标检测[7-10]。
在图像处理领域,被广泛使用的基于深度学习的特征是通过卷积神经网络(convolutional neu
ral network,CNN)提取的,CNN的设计是受大脑工作模式的启发,将多个神经元组织成一层层的神经网络,通过组合低层单一的特征形成抽象的高层特征,模仿人脑的机制来解释数据。通过CNN提取的图像特征往往高达几千维,而且其中一些特征之间存在高度的相关性。
本文针对CNN特征的这一特点,采用一种特殊的方式——主成分分析(principal components analysis,PCA)来处理提取的CNN特征。PCA主要用于数据的降维,但它并不是盲目删除一部分特征,而是通过组合那些存在相关性的特征来达到降维的目的,即在减少图像特征数量的同时,尽量降低信息的损失;然后,对经过主成分分析后的特征进行哈希编码,通过比较目标图像编码与图像库中图像编码的海明距离,判断两幅图像是否相似,从而实现图像检索。通过实验,在一定程度上说明了采用本文的方法,比直接使用所有特征进行编码检索,其检索性能更好。
1 相关工作
近些年来,在计算机视觉领域,人们使用人工特征提取的方式,例如SIFT、HOG,作为特征提取的主流方法,取得了一定的成果,但其效果依然不能令人满意。在2012年ImageNet比赛中,Krizhevsky等[1]用CNN将120万张带标签的图片进行分类,且取得了很高的准确率,
获得了当年的冠军。从此以后,基于CNN的研究进行得如火如荼。
CNN对图像中的目标检测也带来了大幅度的提升,目标检测需要确定每个物体的位置和类别。被广泛采用的基于深度学习物体检测流程是在RCNN[10]中提出的。首先采
特征正则化的作用
用selective search的方法提出候选区域,利用深度卷积网络从候选区域取特征,然后利用支持向量机等线性分类器进行分类。structObj+FGS[8]是着重于准确定位方面的研究,两个改进之处相互补充,mAP在原来的基础上有了更进一步的提升。
在图像理解方面,CNN也被广泛使用。Oriol Vinyals等[11]提出一种基于CNN并结合计算机视觉和机器翻译的方法生成可以描述图像的句子。Andrej Karpathy等[12]采用一种RCNN的方法,即对图像的局部提取CNN特征,生成局部的描述词,最终根据一定的规则,将词汇合成句子。
在图像检索中,Kongkai Xia等[13]提出了一种可以同时学习图像特征表示和哈希函数的监督哈希方法,该方法首先将成对的语义相似度矩阵因式分解成近似哈希编码,然后使用近似哈希编码以及图像标签来训练深度卷积神经网络,取得了不错的性能。然而,由于采取了矩阵
分解算法,当数据量很大时,会消耗大量的存储和计算时间。Kevin Lin等[14]通过增加一个隐藏层来同时学习图像特征和哈希编码,在数据集MNIST和CIFAR-10上取得了很好的检索性能。
2 研究方法
本文结合基于深度学习的特征提取方法,主成分分析方法和哈希方法,综合三者优势,提出了基于深度学习特征的主成分分析的图像检索方法,模型如图1所示。
图1 本文方法模型
将224×224大小的图片输入CNN网络,经过卷积层和全连接层,训练、提取出4096维的特征向量。由于高维度的特征要占用较大的存储空间,与此同时,后续的步骤中计算两张图片的相似度时也会花费较多的时间,并且,我们发现,4096维的特征存在冗余。基于以上3点,我们利用PCA方法,将线性相关的特征进行组合,降低特征之间的线性相关性,降低特征冗余,同时达到降维的目的,且在减少特征数量的同时,尽可能减少特征携带信息的损失。然后,将经过PCA降维的特征,进行哈希编码,用较短的编码来代表一张图片。
当输入一张要查询的图片,同样将其经过上述一番处理,直至得到哈希编码。然后,用这个编码与图像库里面的图片的哈希编码计算其海明距离,距离越小表明哈希编码越接近,那么可认为这两张图片也越相似。
2.1 基于深度学习的特征提取方法
基于深度学习的特征提取方法是通过卷积神经网络实现的,本文的网络模型结构及参数如图2所示。
本文的使用的CNN-M网络模型是在ILSRC-2012数据集上训练学习得到的。CNN-M网络模型包含5个卷积层(conv1-5),conv1、conv2和conv5后面连接着池化层(pooling),卷积层和池化层都使用了滤波器,因此,为了简化表示,这些池化层被视为卷积层的一部分。最后是3个全连接层(full6-8)。
各层的具体参数见表1。
表1中,卷积层的第一行参数表示卷积滤波器的数量和局部感受野的大小;“st.”表示卷积的步幅,“pad”表示空间填充;LRN[1]表示局部反应正则化;“x2 pooling”表示max-pooling下采样。
full6和full7使用dropout[1]方法来调整某些隐含层节点的权重不工作,本网络结构的dro-pout概率为50%。最后的full8是softmax分类器。其中,激活函数使用矫正线性单元(rectification linear unit,ReLU)[1],ReLU可以缩短深度卷积神经网络的训练时间。本文提取的是full7层的4096维特征。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。