第一章 前言
1.1引言
随着多媒体技术及 Internet网络的迅速发展,图像来源不断扩大,大容量高速存储系统为图像的海量存储提供了基本保障,各行各业对图像的使用越来越多,图像信息资源的管理和检索也就显得越来越重要。但由于Internet 本身结构上、管理上的问题,想要在Internet 准确、快速、全面地到自己所想要的图像,却变成了件非常不容易的事。
由于Internet现有的问题:内容没有结构;网上信息量庞大且还在不断的增加。因此,网络产生了搜索引擎。虽然这些给网络用户提供了不少的帮助,但由于但离准确、快速、全面地搜索自己所要的图像还相当遥远,所以对图像检索还要作很大的研究。
根据国内外现有的搜索引擎和国际上的有关研究小组的种种资料表明,现有的网络资源和搜索引擎有如下特点:
(1)索引的数据种类丰富,如文字、图像、声音等多媒体。数据的存取协议也是多种多样的,如HTTP、FTP、News、Gopher等;
(2)索引数据量大,以致不可能有某个数据库能包括整个Internet的索引,目前最大的搜索引擎,其中的索引也只不过覆盖了Internet的一小部分;
(3)资源消耗太大,系统需要将HTML文件传送至本地然后分析,大量占用昂贵的网络带宽和CPU资源,增加被搜索结点的负担。另外由于现有的搜索引擎一般是集中式的,所以搜索引擎服务器本身的硬件配置也极高,才能处理庞大的数据量和及时地响应用户的查询请求;
(4)不能有效解决索引失效问题,很多时候,搜索引擎会返回无效的查询结果;
(5)各检索工具各行其事,不能相互协作,在一定意义上讲是一种资源的浪费。
1.2现有的图像检索技术
近年来随着用户对网上图像搜索要求的不断增长,各种图像搜索引擎应运而生,它们各自以不同的工作方式为用户提供各种检索途径,使网上图像信息的搜索变得非常简单,尽管还不很完善,却已经可以满足用户的大多数要求。
1.2.1搜索引擎的工作原理
最基本的搜索引擎的结构,是由Spider不停地从Web网上收集数据,存放在搜索引擎的数据库中。用户通过搜索引擎服务器上的Web接口,提出搜索请求,Web Server通过CGI或其它技术访问数据库,并将用户的搜索请求转换成相应的数据存取语句,送给数据库引擎处理,并把查询结果通过网页显示给用户。
网络搜索的基本原理是通过网络机器人定期在web网页上爬行,然后发现新的网页,把它们取回来放到本地的数据库中,用户的查询请求可以通过查询本地的数据库来得到。
一般来说网络信息检索的实现机制一般有两种,一种是通过手工方式对网页进行索引,它的缺点是Web的覆盖率比较低,同时不能保证最新的信息。查询匹配是通过用户写入的关键字和网页的描述和标题来进行匹配,而不是通过全文的匹配进行的。第二种是对网页进行自动的索引,这种能实现自动的文档分类,实际上采用了信息提取的技术。但是在分类准确性上可能不如手工分类。
在现在所有运行的搜索工具来说,一般都有一个Robot定期的访问一些站点,来检查这些站点的变化,同时查新的站点。一般站点有一个文件用来说明服务器不希望Robot访问的区域,Robot 都必须遵守这个规定。如果是自动索引的话,Robot在得到页面以后,需
要对该页面根据其内容进行索引,根据它的关键字的情况把它归到某一类中。页面的信息是通过元数据的形式保存的,典型的元数据包括标题、IP地址、一个该页面的简要的介绍,关键字或者是索引短语、文件的大小和最后的更新的日期。尽管元数据有一定的标准,但是很多站点都采用自己的模板。文档提取机制和索引策略对Web搜索引擎的有效性有很大的关系。高级的搜索选项一般包括:布尔方法或者是短语匹配和自然语言处理。一个查询所产生的结果按照提取机制被分成不同的等级提交给用户。最相关的放在最前面。每一个提取出来的文档的元数据被显示给用户。同时包括该文档所在的URL地址。
另外有一些关于某一个主题的专门的引擎,它们只对某一个主题的内容进行搜索和处理,这样信息的取全率和精度相对就比较高。
目前,图像搜索引擎主要通过以下两种方法识别图像:
(1)自动查图像文件。通过两个HTML标签,即IMGSRC和HREF来检测是否存在可显示的图像文件,IMGSRC表示“显示下面的图像文件”,导向的是嵌入式图像;而HREF则表示“下面是一个链接”,导向的是被链接的图像。搜索引擎通过检查文件扩展名来判断其导向的是否为图像文件,如果文件扩展名是.gif或.jpg,即是一个可显示的图像。
(2)人工干预出图像。进行分类,由人工对网上的图像及站点进行选择。这种方法可以产生准确的查询体系,但劳动强度太大,因此要限制处理图像的数量。
由于图像不同于文本,需要人们按照各自的理解来说明其蕴含的意义,因此图像检索比文本的查询和匹配要困难得多。
1.2.2 图像搜索引擎的检索途径
1.关键词检索
传统的图像检索技术是基于关键字的精确匹配检索,系统内的图像用关键字标识,检索线索是与标识相一致的关键字,即输入是关键字,输出是图像。它又包括两种途径:
(1)基于图像外部信息进行检索。即根据图像的文件名或目录名、路径名、链路、ALT标签以及图像周围的文本信息等外部信息进行检索,这是目前图像搜索引擎采用最多的方法。在出图像文件后,图像搜索引擎通过查看文件名或路径名确定文件内容,也可以通过查看图像的标题来匹配检索词。
(2)基于手工标注的检索。手工对图像的内容(如物体、背景、颜等)进行描述并分类,将其标注为一系列关键字,并建立索引。检索时,将主要在这些描述词中搜索用户输入的关键字。这种查询方式是比较准确的,一般可以获得较好的查准率,但需人工参与,劳动强度大,因而限制了可处理的图像数量。另外,由于图像所包含的信息量庞大,不同用户对于同一张图像的看法又不尽相同,导致了对图像的标注缺乏统一标准。
2. 图像可视属性的检索
而基于图像内容的检索主要是由图像分析软件自动抽取图像的颜、形状、纹理等特征,建立特征索引库,其输入为用户要查的图像的大致特征描述或示例,通过一定相似性匹配规则,输出为与之具有相近特征的图像,按相似程度排列,供用户选择,从而把在传统图像检索技术中一般用户难以完成的图像特征描述、提取与识别等难题,交由系统去解决。
这是一种基于图像本身特征层次的检索,特别适用于检索目标明确的查询要求,但目前这种较成熟的检索技术主要应用于图像数据库的检索。在图像搜索引擎中应用这种检索技术还有一定困难,但己有部分图像搜索引擎尝试了这种检索方法。
1.2.3对几个基本引擎的分析
(1)InfoSeek是一个简单但是功能强大的索引,它的一个优点是有一个面向主题搜索的可扩展的分类。你可以把你的搜索短语和相似的分类目录的主题短语相互参照,而那些主题短语会自动加到你的查询中去。使你的搜索有更好的主题相关性。同时它也支持对图象的查询。它能够漫游Web,Usenet,Usenet FAQs等等。不支持布尔操作,但是可以使用符号"+"和"-"。
(2)AltaVista 是一个大容量的,基于Robot 索引的Search Engine。它能帮你在WWW网上搜索你所需要的网页,新闻组,图像,视频音频片段。AltaVista 还支持多种语言和简单的自然语言查询。AltaVista 覆盖面约为WWW 网上可索引的网页的30%
(3)Scour成立于1998年,自称是第一个基于web的多媒体搜索引擎。虽严格讲,它并非是一个图像搜索引擎,但可以将检索限制在图像搜索上。
它的工作原理是在文件名、路径名或ALTspider软件标签中搜索检索词。主要使用关键词检索,可以用"+"或"-"来增加或排除关键词,使用尽可能少的关键词会更有效。在高级检索中,可以将检索结果图像限制在GIF、BMP、JPEG等格式中。检索结果显示简图、图像类型(如GIF、BMP)、图像大小、最后被查的日期、检索词的匹配数量、标引使用的关键词、成功下载的可靠程度等,并同时给出图像文件的URL和源站点的URL。
主要缺陷是标引深度不足,查准率较低,但查全率较好。
(4) 这是由NCRTEC组织开发的一个"真正人工建立的完全的关键词式索引"。 Amazing Picture Machine后面的教师负责选择图像丰富的站点,然后对每幅选定的图像内容进行描述,给出关键词。因此它的最大特点就是人工干预,关键词检索是主要的检索手段。
Amazing Picture Machine的搜索结果将显示一个简短的标题、有关图像的说明(如彩或黑白)、文件的大小、文件类型及象素多少等,但不显示简图。单击该标题可得到原图像,但需由该URL回溯才能出源站点。
由于人工干预检索过程,它的查准率极好,但这也限制了它的查全率。它的检索范围很有限,只包括web上人工选择的部分站点。
(5)Lycos对所收录的图像进行了详尽的内容描述,并支持短语检索,从而使其查准率大大提高。它根据文件扩展名识别图像,在描述词、文件名、目录名或ALT字段中查询检索词。结果显示的信息极为丰富,包括简图、图像大小、最后检索日期、图像文件名、图像内容描述词、图像所在页面等。点击简图将得到原图及更多的信息,如著作权人和更多的相关图像。比较而言它的检索效果很好,速度也很快。
1.2.4 搜索引擎的基本要点
(1)索引文档的容量:现在最大的搜索引擎可能包含了超过100,000,000个链接,但这也只是整个Web网上的一小部分。因为收集资料的Robot,只能从“已知”的链接开始收集网页资料,而只有一小部分Web网页和这些“已知”的网页有连接;现在还没有一个搜索引擎能够随网页内容的更新比较及时地更新索引;
(2)覆盖面:地理覆盖面和主题覆盖面;
(3)索引更新频率:不同的搜索引擎,索引更新频率相差很大,有的是几周,有的是一年。索引更新频率有两种定义,一种比较少用的定义是新的网页能被收录进索引数据库中,另一种是同一页多少时间才被检查一次,有必要时更新索引。有的搜索引擎会对经常更新的网页和多人访问的网页进行更频繁的重建索引工作;
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论