网络信息检索中的图像检索技术
作者:杨丽
来源:《中国管理信息化》2013年第03
        [ ] 图像检索是网络信息检索中的重要的组成部分,而其检索技术却相对滞后。基于内容的图像检索已成为网络信息检索技术的研究热点。本文分析并总结了图像检索的概念,综述了基于内容的图像检索系统和相关技术。
        [关键词] 网络信息检索; 基于内容; 图像检索技术
        [中图分类号] G354.47 [文献标识码] A [文章编号] 1673 - 0194201303- 0073- 02
        随着网络信息资源的迅速增加,信息多样化的程度不断加大,诸如图形、图像、音频、视频、动画等多媒体信息日渐丰富,其中图像信息的需求尤为大量,而当前主要以文本方式进行检索的技术已不能满足人们对信息的需求。
        基于文本的检索是搜索引擎将网站、网页的内容索引为一系列的关键字,当用户输入相应关键字后,系统根据数据库中的倒排文档将关键字映射为网站或网页的地址。图像信息基于文
本的检索技术,即根据图像信息的文件名、路径名、ALT标签等,将其标注为一系列关键字的描述,然后通过检索这些描述以达到检索图像信息的目的。这种检索技术很不实用。首先,由于目前的计算机视觉和人工智能技术都无法自动对图像进行标注,要由人工完整地标注网络上的所有图像,不但费时费力,而且往往是不准确或不完整的;其次,不同用户对于同一张图像的看法不尽相同,导致对图像的标注没有一个统一标准;再次,这种方法将注意力局限在图像的著录特征,即文字描述上,不能充分揭示和描述图像中有代表性的画面内容特征。所以基于内容的图像检索技术应用而生。
        1 基于内容的图像检索技术
        基于内容的图像检索一般是指静止图像的检索。这种图像检索技术通过分析图像的内容,提取其颜、形状、纹理等可视特征,建立特征索引存储于特征库中,在检索时,用户只需把自己对图像的模糊印象描述出来(绘制的草图或通过扫描仪等在线输入的图像),就可以通过多次的近似匹配,在大容量图像库中查询到所需图像。基于内容的图像检索具有较强的客观性。
        基于内容的图像检索算法涉及的相关技术比较多,主要有:图像的分析与特征向量的提
取技术、特征向量数据的组织与存储技术、图像数据的组织与存储技术等。
        1.1 基于颜特征的图像检索
        颜特征是图像检索中最基础的一种检索依据,颜是人识别图像的主要感知特征之一。在基于颜特征的检索算法中,通常用颜直方图来表示图像的颜特征。直方图能较好地反映图像中各颜的频率分布,横轴表示颜等级,纵轴表示在一个颜等级上,具有该颜的像素在整幅图像中所占的比例。直方图可以对整幅图像进行最大匹配度检索。目前关于彩的索引方法有两类:基于全局彩的索引与基于局部彩的索引。
        全局彩的索引就是按全局彩的分布来索引图像,计算每种颜的像素,检索出具有相同颜内容的像素的图像。其中最为简单有用的工具是灰度直方图。利用图像的灰度直方图作为特征指标来描述图像,一般是利用二维直方图,如红蓝直方图,它是红光图像的灰度值和蓝光图像的灰度值的函数。利用彩直方图进行检索的方法有许多,如:比例直方图法、累加直方图法等。
        彩直方图还不能为像素在图像中的位置提供线索,为了尽可能少地丢失信息,提出了
局部彩方法。局部彩的索引对象是局部相似的颜区域,它考虑了颜的分类和一些初级的颜特征。用形状面积、圆度、离心率等来描述形状的特征矢量。
        1.2 基于形状特征的检索
        形状是刻划物体的本质特征之一,利用形状来检索可提高检索的准确性和效率。基于形状的检索不仅包括传统意义的基于二维形状的检索,还包括三维形状的检索。
        基于图像内物体形状的检索,首要问题是采用合适的图像分割算法把不同对象从图像中分割出来,关键是寻符合人眼感知特性的形状特征。目前,较好的方法是采用图像的自动分割方法结合识别目标的前景和背景模型来得到比较精确的形状特征。图像自动分割方法的具体思路是:将图像分块后,将每个块看成是一幅小图像,计算每个小图像的颜直方图特征,则每个块间的直方图是不一样的,为分析边缘特征,将相邻两个块构成一个比较对,将每个块间的差值记录下来,同时记录差值在一定范围内的数目,这样就形成一个颜特征差值表。图像对象空间位置发生变化,其特征差值表也就不同。
        1.3 基于纹理特征的检索
        纹理是指图像在局部区域内可能呈现出不规则性而在整体上却表现出某种规律性。纹理特征是图像中难以描述的特征,它是一种反映图像像素灰度级空间分布的属性。如果一个物体内部以灰度级变化明显而又不是简单的调变化,那么该物体就有纹理。
        纹理分析的方法基本可以分为统计法、结构法、模型法和空间法/频率域联合分析法等4类。基于统计的方法是对图像中的颜强度的空间分布信息进行统计,主要用于分析像木纹、沙地、草坪等细致而不规则的物体;基于结构的方法将重点放在分析纹理元之间的相互关系和排列规则上,适用于像布料或砖瓦等一类元素组成的纹理以及排列比较规则的物体;基于模型的方法是假设纹理按某种类型分布,如Markov随机场模型、分形模型等。基于空间/频率域联合分析法主要包括Cabor变换法和小波变换法等。
        1.4 基于知识的图像检索
        基于知识的图像检索也是基于内容检索的重要方法之一。图像本身是一定数量的颜像素点的集合,人类能够识别出像素点集合的含义是人类以自身的知识赋予图像意义的过程。基于知识的图像检索系统为用户提供知识库,针对一个图像需求,搜索引擎依次调入每一幅图像的内容描述,结合知识库中的相关知识,以图像需求为目标进行推理,如果需求目标得
到满足,则确定这幅图像符合检索要求。
        2 基于内容的图像信息检索系统
        目前,基于内容的图像检索技术的研究取得了很大的突破,较有影响力的有以下几个:
        2.1 QBIC系统
        QBICQuery By Image Content)是IBM公司于20世纪90年代研制的图像和动态影像检索系统,其含意是根据图像的内容进行查询。由IBM Almaden研究中心开发,是基于内容的检索系统的典型代表。QBIC在检索过程中用户无须提供文字检索词(它也提供关键词检索),只要输入以图像形式表达的检索要求,即可检索出一系列相似的图像。QBIC系统允许使用示例图像、用户构建的草图、选择的颜与纹理模式、镜头与目标运动等,对大型图像和视频数据库进行查询。
        2.2 Photobook系统
        Photobook系统是由美国麻省理工学院(MIT)的媒体实验室于1994年开发研制的用于
浏览和搜索图像的一套交互式工具,图像在存储时按人脸、形状或纹理特性自动分类,图像根据类别通过显著语义特征压缩编码。
        2.3 Virage系统
        Virage是由Virage公司开发的基于内容的图像搜索引擎。与QBIC相似,Virage支持基于颜、颜布局、纹理和结构(对象边界信息)的可视化查询,但VirageQBIC更进一步,它也支持由4个原子查询的任意组合,用户可以根据他们自己的侧重调整4个原子查询的权重。
        2.4 CORE系统
        CORE是新加坡国立大学开发的一个基于内容的检索系统。其显著的技术特包括:多种特征提取方法、多种基于内容检索方法、使用自组织神经网络对复杂特征度量、建立基于内容索引的新方法以及对多媒体信息进行模糊检索的新技术。
        2.5 VisualSEEK系统
        由美国哥伦比亚大学图像和高级电视实验室开发。它实现了互联网上基于内容的图像自己可以开网站吗/视频检索系统,提供了一套工具供人们在Web上检索图像和视频信息。用户可以把顶部为红橙黄区域、底部为蓝绿区域,这样的图像作为查询日出的草图,使人们在Web上可以方便地搜索和检索图像和视频。
        3 基于内容的图像检索体系结构
        基于内容的图像检索系统与传统基于文本的检索系统完全不同。基于内容的检索系统一般通过可视化界面和用户进行频繁的交互,以便用户能够方便地构造查询和改进检索结果,用户通过选择具有代表性的一幅或多幅例子图像来构造查询,然后由系统查与例子图像在视觉内容上较相似的图像,按相似度大小排列返回给用户,即所谓的通过例子图像的检索(Query By Image Example)。
        基于内容的图像查询和检索是一个逐步求精的循环过程。其过程及各个模块如下:
        3.1 图像的预处理
        在特征抽象子模块里,首先要进行图像的预处理,包括图像格式的转换,尺寸的统一,
图像的增强与去噪,图像的边缘提取,经过边缘提取获得图像的轮廓特征,对其进行进一步轮廓清晰化处理等功能,为图像的特征提取打下基础。
        3.2 图像的目标标识
        图像预处理后,要进行图像的目标标识。目标标识为用户提供一种工具,以全自动或半自动(需要用户干预)的方式标识图像中用户感兴趣的区域或目标对象,以便针对目标进行特征提取并查询。当进行整体内容检索时,利用全局特征,这时不用目标标识功能。目标标识是可选的。
        3.3 图像的特征提取与表达
        图像特征的提取与表达是基于内容的图像检索技术的基础。对图像数据库进行特征提取,提取用户感兴趣的、适合检索要求的特征。特征提取可以是全局性的,即整幅图像,也可以是针对某个目标的,即图像中的子区域,如人的面部特征或指纹特征等。
        3.4 图像数据库
        作为图像查询的后台基地,生成的数据库由图像库、特征库和知识库组成。图像库为数字化的图像信息,特征库包含用户输入的特征和预处理自动提取的内容特征。知识库包含专门和通用知识,有利于查询优化和快速匹配,知识库中知识表达可以更换以适用各种不同的应用领域。
        3.5 图像的查询接口
        在基于内容检索中,由于特征值为高维向量,不具有直观性,因此必须为其提供一个可视化的输入手段。友好的人机交互界面是一个成功检索系统不可缺少的条件,可采用的方式有3种:操纵交互输入方式、模板选择输入方式和用户提交特征样板的输入方式。另外,查询返回的结果需要浏览,应在用户界面提供浏览功能。
        3.6 图像的检索引擎

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。