网络音视频语义信息抽取网络音视频语义信息抽取系统系统
李莲春李莲春,,周金治
(西南科技大学信息工程学院,四川 绵阳 621010)
摘  要:针对海量网络数据的描述与管理问题,提出音视频语义信息抽取系统。根据网络音视频流数据包的特征,采用正则表达式制定协议包识别规则。在此基础上,通过分析音视频传输协议结构,提取音视频数据从网络接口层、网络层、传输层到应用层的多层语义信息,并形成UCL 标签。实验结果表明,在保证流完整性的前提下,该算法的召回率和准确率均达到80%以上。 关键词关键词::网络音视频数据;多层语义理解;语义抽取;正则表达式;UCL 语义标签
Semantic Information Extraction System
for Network Audio and Video
LI Lian-chun, ZHOU Jin-zhi
(School of Information Engineering, Southwest University of Science and Technology, Mianyang 621010, China)
【Abstract 】In allusion to the problems of describing and managing massive network data, this paper presents a semanti
c information extraction system for audio/video. According to the characteristics of network audio/video streams, it formulates protocol identification rules using regular expression. On this basis, multilayer semantic information from network interface layer, network layer, transport layer and application layer is extracted by analyzing the structure of audio/video transmission protocol. Meanwhile a Uniform Content Locator(UCL) label is constituted. Experimental results show that the proposed algorithm has recall and accuracy both over 80% under the requirement of complete flows.
【Key words 】network  audio and video data; multilayer semantic comprehension; semantic extraction; regular expression; Uniform Content Locator(UCL) semantic label
DOI: 10.3969/j.issn.1000-3428.2011.13.089
计  算  机  工  程 Computer Engineering 第37卷  第13期
V ol.37    No.13 2011年7月
July 2011
·开发研究与设计技术开发研究与设计技术·· 文章编号文章编号::1000—3428(2011)13—0269—03 文献标识码文献标识码::A
中图分类号中图分类号::TN912.3
1  概述
美国科学家A.L.Barabasi 等人用统计物理学的实验方法发现,万维网是一个无尺度网络,也就是说绝大多数网民相对集中地访问少数热门站点。也许正是由于网络的无尺度特性导致了网络拥塞,可以设想,能否挖掘出这少数的热门站点,对其进行加工和整理,使纷繁芜杂的信息变得条理化,让用户更加快捷地获得自己想要的信息。
信息抽取是应对信息爆炸的有效方式之一。但目前对信息抽取技术的研究主要集中在Web 网页[1],而对音视频的研究大多是针对视频帧而言的,如提取视频中的文本[2]、物体轮廓等。文献[3]实现了对视频的URL 、名称、上传者等描述信息抽取,不过其抽取对象是视频网站。本文主要从数据包出发进行语义抽取,意在挖掘网络节点的热度信息,为流行度预测、缓存策略设计提供一定的参考依据。
2  音视频数据分层语义抽取模型
网络音视频数据分层语义抽取是指从网络接口层、网络层、传输层到应用层,对音视频数据包进行多层次的不同粒度的深度语义挖掘[4]。通过DPI(Deep Packet Inspection)技术对数据封包进行解析,并实现数据流的语义集成。其分层抽取
示意图如图1所示。
概念(流) 指在某一段时间内,具有相同四元组<SrcIP, DesIP, SrcPort, DesPort>,即源IP 地址、目的IP 地址、源端口号、目的端口号的一系列网络数据包,其中,
<DesIP, SrcIP, DesPort, SrcPort>与<SrcIP, DesIP, SrcPort, DesPort>属于同一个流。
(1)网络层和传输层:对大规模IP 数据包进行解析,提取
数据包的源IP
地址、目的IP 地址、源端口号、目的端口号等语义信息,推知该数据包采用的协议类型。
图1  音视频数据分层语义抽取模型
(2)应用层:应用层主要是分析信令协议,确定RTP 端口
号,以及统计用户请求信息,包括URL 、资源大小、文件名、请求时间、媒体类型等。
(3)语义集成:根据TCP 头中的SYN 、RST 、FIN 等标志判断流的起始和结束,根据四元组到流的数据包集合S i 。再对这一系列的数据包进行语义集成,形成各条音视频流的语义标签。
3  基于正则表达式的语义抽取
音视频语义抽取的系统框架如图2所示。首先从网络层、传输层进行底层语义挖掘,获取数据包的IP 地址、端口号;然后与协议特征库进行比对识别出RTSP 协议包以及传输音视频数据的HTTP 协议包;接着进行数据包分流,并对同一
基金项目基金项目::国家“863”计划基金资助项目(2007AA01Z151) 作者简介作者简介::李莲春(1985-),女,硕士研究生,主研方向:网络多媒体通信;周金治,副教授
收稿日期收稿日期::2010-12-16    E-mail :lotus315@qq
270 计算机工程2011年7月5日
数据流的包集合S i进行语义抽取和集成,建立一个网络节点处的UCL样本数据库。
图2 语义抽取系统
3.1 音视频数据包识别
关于应用层协议识别的研究很多,但是音视频传输不仅可以采用专有的流媒体协议,如RTSP/MMS/RTP,还可采用通用的应用层协议,如HTTP/TCP等。而HTTP协议可以传输文本、图片、音视频等多种类型的数据,因此仅靠识别应用层协议识别音视频流是不够准确的。
HTTP和RTSP协议都是基于请求/响应格式,请求行的末尾是协议版本号,响应消息也总以版本号开始,而版本号中分别包含了字符串“HTTP”和“RTSP”。另外HTTP的请求消息中包含了“GET”、“HEAD”等字段,RTSP的请求消息中包含了“DESCRIBE”、“PLAY”等字段。因此,以这些字符串为特征字,建立业务相关的特征字数据库,以此制定正则表达式。限于篇幅,表1仅列出了部分正则表达式。
表1 协议识别中的部分正则表达式
规则正则表达式说明
R1 ^(\bGET\b|\bHEAD\b).*\bHTTP\b HTTP请求数据包
R2 ^\bHTTP\b HTTP响应数据包
R3 ^(\bDESCRIBE\b|\bPLAY\b).*\bRTSP\b RTSP请求数据包
R4 ^\bRTSP\b RTSP响应数据包
正则匹配到第一个关键字就停止R5 \bContent-Type\b:\s*(\bvideo\b|\baudio\b) 媒体类型
通过匹配规则R1~R4不仅可以分离出HTTP和RTSP数据包,还可以区分响应消息和请求消息。对于RTSP/RTP协议传输的流媒体,数据传输所使用的端口号是在RTSP中协商的,分析RTSP得到RTP的端口号则可以分离出音视频数据包。而HTTP规范被多种协议所遵照使用,用规则R1和R2识别出的HTTP协议数据包既含Web流量,也含其他流量。进一步分析可知在GET请求方法后跟随的Request-URI 中通常包含文件后缀名,比如后缀名为MP3、AVI、RMVB 等,则判定请求的内容是音视频文件。但是由于目前编码格式众多,用这种方法具有一定的局限性,很难列出所有的编码。为此本文采用规则R5来识别HTTP协议中的音视频数据,即判定响应消息中的Content-Type字段,它定义了数据的MIME类型,若包含关键字“audio”或“video”,则判定为音视频数据。
3.2 语义信息抽取
3.2.1 协议结构分析
HTTP与RTSP的协议结构相似,一般由3个部分组成:一个起始行(Request-Line或Status-Line),一个或多个头部域(message header)和可能的主体(message body)。
Request-Line中包含了资源请求地址。message header中包含的是一些描述性资料,可能出现的元素有:<Content-Type>指出了消息体类型/媒体类型;<Content- Length>以字节为单位给出了媒体资源的大小;<Date>表示了消息发送的
时间和日期,可用于定位用户访问资源的具体时间。定义类似正则表达式:(?<=Content-Type:\s+).*,则可以提取出域名后面对应的域值。
其中,RTSP协议DESCRIBE方法中的<Content-Type>字段更倾向于指示表示描述文件的类型,表示描述可以采用包括会话描述SDP在内的多种格式。从SDP中可以得到会话名称(媒体标题)、媒体类型、音视频带宽等信息。
3.2.2 音视频语义抽取算法
运用正则表达式进行语义抽取时,最简单的方法是顺序遍历流中的数据包,直到全部匹配成功,则后续报文不再送去匹配。但这样存在如下影响抽取结果的因素:(1)HTTP和RTSP会话中都可能包含多个请求响应对,而每个请求响应对又可能包含相同的头部域名,不同的域值。(2)RTSP协议中的响应消息通常分为多个报文传输,有可能一个message header被截断分在了2个报文中。通过分析数据包发现:(1)请求响应消息都是成对出现,而且是在前一个响应消息全部传输完之后,才进行下一次请求。(2)语义信息都集中在前N个数据包中,例如HTTP协议中要提取的信息,主要集中在3次握手后的GET请求报文和响应报文。因此,文中结合协议结构和正则匹配实现语义抽取,定义一个系统:输入:待进行语义抽取的流S i。
输出:音视频数据的URI地址、标题、大小、类型等。
(1)构造一个结构体Req_Sta,用于描述请求响应消息对。其中包含5个成员:Requst用于指向请求消息,Status用于指向响应消息,Cseq表示请求响应消息对的序列号,Pre和Next分别指向前后的请求响应消息对。
(2)取报文的应用层数据并判断其是否匹配特征数据库K={GET, DESCRIBLE, SETUP, …, PLAY}中的字符,如果不匹配则暂存到对应的数据区,并跳转到步骤(4)。否则标记为一个新的请求响应消息对的开始,新建一个Req_Sta结构,序列号Cseq加1,并存储报文到对应数据区。
(3)检测到新的请求响应消息对的时候,将前一个请求响应消息对中的多个报文送入匹配引擎一起匹配,如果全部匹配成功,则不再对后续报文进行处理。
(4)重复步骤(2),继续对下一个报文进行处理,直到N个报文处理完毕。
3.2.3 UCL标签建立
根据上述算法对数据包进行深度挖掘之后,得到的是杂乱无章的元信息。为了更好地定位音视频信息,在建立数据库时,定义UCL[5]向量:U=(u1,u2,…,u i,…,u n),n是UCL的分量数。如表2所示,其中每一个资源属性可对应多个用户属性。
表2 音视频UCL标签定义
类属元素名称说明举例
u1:URI来源www.nit/UserFiles/niuzai.mp3
u2:Title标题牛仔很忙
u3:Lengt大小  3 907 712 Byte
u4:Type类型音频
资源
属性
u5:SrcIP源IP 192.168.1.70
u6:DesIP目的IP 192.168.1.10
u7:TPL访问大小907 712 Byte 用户
属性
u8:Date访问日期Wed, 06 Jan 2010
构建UCL标签库之后,则可以大致估算在时间段T资源
i的流行度
Popularity
()
P i:
Popularity Popularity
Count
1
()(,)
()j
P i P i j
C i
=∑
其中,C Count(i)表示资源i被访问的次数,是对DesIP的求和;P Popularity(i,j)=T TPL(j)/L Length(i)表示用户j(j=1,2,···,C Count(i))对媒体资源i的喜好程度。
第37卷第13期271
李莲春,周金治:网络音视频语义信息抽取系统
相对于文献[6]中的定义,仅以用户请求次数来决定一个
媒体资源的流行度,式(1)考虑了用户实际的访问大小,因为
用户请求了媒体资源,但是否观看,观看了多长时间也是反
映其流行度的指标之一。根据C Count(i)和
Popularity ()
P i则可以挖掘出时间段T内经过网络节点的热门音视频。
4 测试分析
测试数据来源于局域网内不同主机访问指定的音视频网站,见表3,并以这已知的站点信息作为系统性能的评价标准,同时访问其他的Web网站作为背景流。利用网络封包分析软件wireshark在网卡的混杂模式下捕获所有的数据包,形成样本数据。本文共进行了3次抓包过程:(1)先打开抓包软件,再访问音视频站点,在访问结束后结束抓包。(2)先打开抓包软件,再访问音视频站点,访问没有结束便结束抓包。
(3)先访问音视频网站,再打开抓包软件,访问结束后结束抓包。3次抓包分别得到样本数据sample1、sample2和sample3。
表3 音视频数据源
音视频流音视频源地址
1 www.hebtv/broadcast/request_bc.php?id=159315
2 www.hebtv/broadcast/request_bc.php?id=159303
实验中定义了3个评价指标来验证系统性能:(1)花费时间,指从读入数据包到分流再到抽取出语义信息形成UCL标签,整个系统运行所花的时间。(2)召回率,即正确抽取出的语义数目/总共需要抽取的语义数目。(3)准确率,即正确抽取出的语义数目/总共抽取出的语义数目。
系统对3份样本数据中的音视频流进行语义抽取,均生成了表2所示的UCL标签,其统计结果如表4所示。
表4 系统的性能测试结果
样本名称数据包大小/KB 花费时间/s 召回率/(%) 准确率/(%)
sample1    5 534 10.370 100.0 100.0
sample2    4 835 9.986 87.5 87.5
sample3    3 797    5.421 62.5 83.3
从运行结果可以看出,对样本数据sample1的抽取结果最理想。因为sample1捕获了整条音视频流的所有数据包,而sample2和sample3所包含的音视频流是不完整的,所以一些UCL元素未能抽取到或者某些统计存在误差。由此得出,对于本文提出的音视频语义抽取系统,影响抽取结果的主要因素是流的完整性,实际运用中必须对网络节点进行较长时间的监控,才能得到比较准确的结果。
5 结束语
本文提出的系统从一个二维的角度实现网络数据包的统计:(1)从网络接口层到应用层的纵向信息统计;(2)对相同底层的网络数据包进行应用层横向语义信息抽取。通过实验验证,该系统具有可行性和有效性,制定的UCL标签能在一定程度上反映网络音视频数据流的传输特性。但目前的系统不具有普适性,复杂多变的音视频传输协议使其无法适用于所有的
情形。另外网络节点数据量大,实时处理比较困难,还只能对数据包进行在线拦截、离线分析。因此,怎样对海量的网络数据流进行实时语义抽取、将UCL信息有效地应用到流行度预测和体用户行为分析中还有待进一步验证。
参考文献
[1] Chang C H, Kayed M, Girgis M R, et al. A Survey of Web
Information Extraction Systems[J]. IEEE Transactions on Knowledge and Data Engineering, 2006, 18(10): 1411-1428. [2] Lyu M R, Song Jiqiang, Cai Min. A Comprehensive Method for
Multilingual Video Text Detection, Localization, and Extraction[J].
IEEE Transactions on Circuits and Systems for Video Technology, 2005, 15(2): 243-255.
[3] 宫继兵, 唐杰. 基于Ontology的视频描述信息抽取系统[J].
计算机工程, 2009, 35(18): 34-36.
[4] 程红, 马建国, 余超, 等. 网络多层语义深度挖掘及流媒
体缓存策略研究[J]. 电视技术, 2008, 32(11): 64-66.
[5] 马建国, 邢玲, 李幼平, 等. 数据广播中的UCL 标引与传输
机制[J]. 电子学报, 2004, 32(10): 1621-1624.
[6] 罗治国, 孙巍, 王行刚. 一种基于传输成本的流媒体缓存替
换算法及其性能评价[J]. 通信学报, 2004, 25(2): 61-67.
编辑任吉慧
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ (上接第256页)
从图3可以看出,不引入拥挤距离和相似度比引入拥挤距离和相似度得到更多的解。但这些解大部分都聚集在2个单目标最优解附近,其他区域的解比较少甚至没有。前者得到7个解,后者虽然只得到5个解,但这5个解互相之间的距离都比较远,没有聚集现象,在解空间中的分布更加均匀。这说明算法引入拥挤距离和相似度对适应度进行调整可以有效抑制解的聚集现象,使获得的解分布更加均匀,从而提高了多目标划分的质量。
5 结束语
本文对嵌入式系统的软/硬件划分进行了研究,并分析了当前软/硬件划分中存在的不足,针对数字音视频解码器的软/硬件划分提出一种改进粒子软/硬件划分算法,最终的优化结果验证了算法的有效性和合理性,下一步继续将该算法应用到多处理器系统上,进一步扩大该算法的应用范围和领域。
参考文献
[1] 邢冀鹏, 邹雪城, 刘政林, 等. 一种基于改进模拟退火算法的
软/硬件划分技术[J]. 微电子学与计算机, 2006, 23(5): 31-37. [2] Dick R P, Jha N K. MOGAC: A Multiobjective Genetic Algorithm
for Hardware-software Cosynthesis of Distributed Embedded Systems[J]. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems, 1998, 17(10): 920-935.
[3] 卢小张, 刘伟, 陶耀东. 基于NSGA-II的嵌入式系统软/硬件
划分方法[J]. 计算机应用, 2009, 29(1): 238-241.
[4] Kennedy J, Eberhart R C. Particle Swarm Optimization[C]//
Proceedings of the IEEE International Conference on Neural Networks. [S. 1.]: IEEE Piscataway, 1995: 1942-1948.
[5] Kennedy J, Eberhart R C. A Discrete Binary Version of Particle
Swarm Algorithm[C]//Proceedings of 1997 Conference on System, Man, and Cybernetics. [S. 1.]: IEEE Press, 1997: 4104- 4108. [6] Deb K. An Efficient Constraint Handling Method for Genetic
Algorithm[J]. Computer Methods in Applied Mechanics and Engineering, 2000, 186(4): 311-338.
[7] 袁浩. 基于粒子算法的WSN 路径优化[J]. 计算机工程,
2010, 36(4): 91-93.
编辑索书志

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。