摘要 文章简要介绍了从基于内容的视频分析与检索问题的提出到所涉及的关键技术以及目前研究状况,并简要介绍了现阶段在这方面的研究热点及以后要做的工作。
一、问题的提出:
    互联网的出现给人类带来了很大的便利,特别是实现资源共享之后的互联网,但面对这浩如烟海的资源到底哪些是对自己有利用价值的呢?而90年代以来,多媒体技术和网络技术的突飞猛进,人们正快速的进入一个信息化社会。现代技术已能运用各种手段采集和生产大量各种类型的多媒体信息数据,出现了数字图书馆、数字博物馆、数字电影、可视电话、交互电视、会议电视、点播视频服务、远程教育以及远程医疗等多种新的服务形式和信息交流手段,在众多的多媒体信息中最大也是最主要的一种就是视频信息,人类接受的信息约有70%来自视觉,视频所携带的信息量远远大于语音和数据。在视频信息高度膨胀的今天,随之而来的问题就是对海量视频信息的高效检索和浏览,即人们如何快速有效地查看大量的视频信息,并从中出自己感兴趣的内容。
    传统的视频信息检索方案是使用文字标示符进行检索,具体到对视频帧的查询是借助对帧图像的编号和注释来进行的,首先给帧图像加上一个对其描述的文字或数字注释,然后在检索时
对注释进行检索,这样一来对帧图像的查询就变成了基于注释的查询。这种方法虽然简单,但不能完全满足对视频数据检索的需要,首先视频数据量很大,用手工方式添加注释工作量很大,而且效率很低;其次视频内容丰富很难用文字标签完全表达;再次文字描述是一种特定的抽象,特定的标签只适合特定的查询;最后文字标签是靠观察者加上去的,因此受主观因素的影响,不同的观察者可能有不同的描述[1]。从而需要一种客观全面的视频自动检索方法,基于内容的视频检索(Content-Based Video RetrievalCBVR)应运而生。它根据视频的内容及上下文关系,对大规模视频数据库中的视频数据进行检索。提供这样一种算法:在没有人工参与的情况下,自动提取并描述视频的特征和内容。区别于传统的基于关键字的检索手段。融合了图像理解、模式识别、计算机视觉等技术。
近年来随着多媒体信息在娱乐、商业、生产、医学、安全、国防、军事等领域的大量应用,基于内容的视频检索技术己经成为近年来国内外研究的热点问题研究视频数据的高效分类、处理和索引技术,建立和完善视频信息的快速浏览检索机制,开发功能强大、使用便捷的视频信息浏览检索系统,既具有极大的理论价值,也具有巨大的应用潜力。
二、解决方案
    视频标注:视频标注是通过人工的方式将某一段视频进行主观的属性标注,然后以文本的方法进行检索。视频标注技术己相当成熟,但有其固有的不足,第一,要人工手动完成,工作量极大,且效率很低。第二,某些视频和感知特征很难用文字来描述。第三,主观性很强,没有统一的标准,不同的人对同一段视频有不同的理解,必然导致不同的标注结果。
    视频摘要:视频摘要以自动或半自动的方式,从原视频中提取有意义的部分,将它们合并而成的紧凑的、能充分表现视频语义内容的视频概要。视频摘要技术也有一定的发展,同时给基于内容的视频检索提供了思路,但与真正的基于内容的视频检索有一定的距离。
    基于非压缩域的视频内容检索:基于非压缩域的视频内容检索是以视频的低层特征为基础进行分析,特征提取等,最后以视频的本质特征为检索依据,完全实现检索的自动化。基于非压缩域的视频内容检索己有相当的研究成果,但由于其所有算法均要在完全解压的基础上进行,而视频数据不但数据量很大,而且运算量也很大,所以在具体实现时并不理想。
    基于压缩域的视频内容检索:基于压缩域的视频内容检索是在不完全解压或不解压的前提下以视频流的低层特征为基础进行分析、特征提取等,最后以视频的本质特征为检索依据,完全实现检索的自动化。由于基于压缩域的视频内容检索在没有解压或没有完全解压的前提下
进行,所以其优点是:第一,大大减小了数据量,第二,减少了数据运算量,从而大大提高了系统的效率。
三、国外研究现状
1QBICIBM生活中数据库系统的实际例子研究中心开发的基于内容的检索系统,它是第一个功能齐全的视频数据库系统,也是基于内容检索系统的典型代表,对视频数据库发展有较远的影响。QBIC系统支持示例查询和用户草图查询,抽取颜、纹理、形状特征、以及镜头和目标运动等信息,并采用R-tree作为高维索引结构,进而结合关键字对大型图像和视频数据库进行检索。
2Infor media数字视频库工程是卡耐基梅隆大学(CMU)关于数字视频媒体的处理与管理的一个重大项目,是较为完整的基于内容视频分析原型系统的先驱。该系统率先将数字音频处理技术和文本处理技术运用到基于内容视频分析中,通过语音识别和文字识别获取视频语义、辅助视频分段、抽取有意义的视频片段生成视频摘要,支持自动的全方位的视频信息查询,以支撑基于内容的视频浏览、检索和服务。
3videoQ是一套全自动的面向对象的基于内容的视频查询系统,是由哥伦比亚大学的图像
与高级电视实验室研制的一个原型系统。它拓展了基于关键词或主题浏览的传统检索方式,提出了全新的基于丰富视觉特征和时空关系的查询技术,可以帮助用户查询视频中的对象,其目的在于探究视频中潜在的所有视觉线索并用于面向对象的基于内容的视频查询。目前VideoQ支持着一个巨大的视频数据库,同时,VideoQ又是一个面向Web的视频搜索系统。
4visual SEEK是一个视觉特征查询系统,WebSEEK是一个面向WWW的文本/图像/视频查询系统,它们是由哥伦比亚大学开发的。visualSEEK/WebSEEK的主要特点是根据图像区域的空间关系检索和从压缩域提取的视觉特征,它们采用的视觉特征是颜集和基于小波变换的纹理特征,为了加快检索速度,使用了二叉树索引算法。这套系统具有某些概念强大的模块:基于内容的图像检索概念、根据用户相似度反馈的查询优化、视觉信息的自动提取、查询结果视频/图像的缩微表示、图像/视频的主题浏览功能、基于文本的查、对查询结果的操作等。
5CVEPSCOLUMBIA大学开发的视频检索和操作系统的软件原型,支持自动视频分割,基于关键帧和对象的视频检索和压缩视频编辑。
6JAKOB是意大利Plerm大学开发的视频数据库查询系统,该系统通过镜头提取器把视频
数据分割成镜头,从每个镜头中选取一些具有代表性的帧。根据颜和纹理描述这些代表帧,然后计算与这些短序列相关的运动特征并给出一个动态描述。当向该系统提交一个查询或是例子直接查询时,查询模型会对它做出解释,排列好匹配参数,给出最相似的镜头。用户可以浏览这些结果,必要的话,改变参数,反复地进行查询。
7viSIONKANSAS大学开发的数字视频图书馆原型系统,在该系统中综合了视频处理和语音识别,根据基于视频和音频内容的两段式算法,自动把视频分成大量具有逻辑语义的视频剪辑,在系统中加入标题译码器和字指示器提取文本信息,通过他们索引视频剪辑。
8gnalgle足球视频搜索引擎是Alllsterdam大学开发的足球视频分析系统。该系统基于web应用,具有树型结构框架。用户可以很方便的到如进球,黄牌,红牌警告,换人,或者搜索到特殊的球员。
9Rochester大学的体育视频分析系统,能较好的对体育比赛视频进行物体目标和事件的检测,并且最终形成精彩镜头的视频摘要,该系统已用于2004年奥运会,将足球比赛视频处理,传送到用户的手机上。
四、国内研究现状
1Tv-FI(Tsinghua Video Find It)是由清华大学开发的视频节目管理系统,功能包括:视频数据入库,基于内容的浏览、检索等。
2iVideo是由中国科学院计算技术研究所数字化技术研究室开发的视频检索系统,是一套基于J2EE平台的具有视频分析、内容管理、基于Web检索和浏览等功能的视频检索系统。
    3Videowser是由国防科技大学胡晓峰教授和李国辉教授主持的研究组所开发的原型系统。该研究组的研究工作主要集中在视频的结构分析方面,他们对镜头分割、关键帧提取和镜头聚类等问题进行了研究和探讨,最近该研究组开始了对音频特征提取和检索方面的研究。以及多媒体研究中心和系统工程系研究开发出了新闻节目浏览检索系统伽(New Video CAR)和多媒体信息查询和检索系统。
    4、浙江大学潘云鹤院士和庄越挺教授研究组主要针对视频检索和视频相似度衡量等问题进行的研究,提出了基于镜头质心特征向量的视频相似度衡量方法,从而提供了一种从图像序列特征方面来进行视频检索的方法。另外,该研究组还试图从视频流中的闭路(Closed-Caption)中提取信息来进行视频检索。
    5、北京大学高文教授主持的研究组主要进行在复杂背景下的人脸检测与跟踪系统方面的研究,他们设计并实现了一种基于特征子脸(Eigen Subface)的人脸检测与跟踪系统,它首先利用模板匹配的方法进行粗检测(利用一种灰度分布的人脸模板),并在此基础上收集有效的反例样本集(非人脸样本集),来提高识别的精度。目前该研究组正在进行综合音频特征和图像序列特征的唇读(Lip-reading/Speech-reading)研究。
    6Ifind信息检索系统是微软亚洲研究院的张宏江博士所带领的小组研制出的系统,取得的成果最为突出。
五、关键技术
    第一部分为镜头分割,第二部分为关键帧提取,第三部分为基于特征的视频索引与存储组织。
镜头分割:
镜头分割的主要思想为依据两帧图像的特征值的差值与给定阂值进行比较,如果差值大于给定的阂值,说明两帧的特征变化较大,可以认为两帧为不同的主题,在此两帧之间进行镜头
分割;如果差值小于给定的阂值,则说明两帧的特征变化较小,可以认为两帧为同一主题,可以继续进行下两帧的比较[1][7]
特征提取:
    视频特征主要包括文本特征、声音特征和图像特征。
    从基于内容的角度来说,文本特征指的是由视频内容本身抽取出来的文本信息,主要是自动语音识别(ASR)和视频字符识别(VOCR)的结果。自动语音识别和视频字符识别所得到的文本信息可以像传统文本那样抽取特征和进行索引。基本的声音特征包括全局和局部的频谱信息,在此之上还可以获得响度、音调、亮度、带宽、调合性等信息,或者是安静、语音、音乐、汽车、爆炸等分类信息。基于这些信息,人们可以进行基于声音的检索或者过滤。由于图像是视频中不可或缺的要素,同时图像检索已经有了相当长时间的研究,所以图像特征的研究较为广泛。对一个镜头,一般先根据某种标准来选取一个或几个关键帧,然后再对关键帧提取图像特征。常用的图像特征包括颜、纹理和形状,这是当前基于内容的图像和视频检索中最常用的特征。近几年来,语义概念特征成为研究的热点。语义概念特征是指对视频的语义层次上的描述特征。它是通过机器学习的方法,利用文本、声音和图像等特征来自动
建模和抽取的。语义概念特征能够允许人们自然地在语义层次上进行检索,同时对更有效的浏览也有很大的帮助。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。