MSAM:针对视频问答的多阶段注意力模型
作者:梁丽丽 刘昕雨 孙广路 朱素霞
来源:《哈尔滨理工大学学报》2022年第04期
摘要:视频问答(VideoQA)任务需要理解视频和问题中的语义信息生成答案。目前,基于注意力模型的VideoQA方法很难完全理解和准确定位与问题相关的视频信息。为解决上述问题,提出一种基于注意力机制的多阶段注意力模型网络(MSAMN)。该网络将视频、音频以及文本等多模态特征输入到多阶段注意力模型(MSAM)中,通过逐阶段的定位方式精准到与回答问题相关的视频信息,用于答案生成。为了提高特征融合的有效性,提出一种三模态压缩级联双线性(TCCB)算法计算不同模态特征之间的相关性。MASMN在ZJL数据集上进行实验,平均准确率均为54.3%,比传统方法提高了近15%,比现有方法提高了近7%。
关键词:视频问答;多阶段注意力模型;多模态特征融合
正则化正交匹配追踪 DOI:10.15938/j.jhust.2022.04.014
中图分类号: TP391.3
文献标志码: A
文章编号: 1007-2683(2022)04-0107-11
MSAM:Video Question Answering Based
on Multi-Stage Attention Model
LIANG Li-li,LIU Xin-yu,SUN Guang-lu,ZHU Su-xia
(School of Computer Science and Technology, Harbin University of Science and Technology, Harbin 150080, China)
Abstract:The video question answering (VideoQA) task requires understanding of semantic information of both the video and question to generate the answer.At present, it is difficult for VideoQA methods that are based on attention model to fully understand and accurately locate video information related to the question.To solve this problem, a multi-stage attention model network (MSAMN) is proposed.This network extracts multi-modal features such as video, audio and text and feeds these features into the multi-stage attention model (MSAM), which is able to accurately locate the video information through a stage-by-stage localization method.In order to improve the effectiveness of featur
e fusion, a triple-modal compact concat bilinear (TCCB) algorithm is proposed to calculate the correlation between different modal features.This network is tested on the ZJL dataset.The average accuracy rate is 54.3%, which is nearly 15% higher than the traditional method and nearly 7% higher than the exist method.
Keywords:video question answering; multi-stage attention model; multi-modal feature fusion
0引言
近年来,由于视频问答任务具有较强的应用价值,现已成为计算机视觉、自然语言处理等领域的研究热点,该任务是对视频内容和问题进行理解,生成一个符合逻辑的答案[1]。现有视频问答方法分为以下4个类别[2]:编码器-解码器、注意力模型、记忆网络模型和其他方法。
现阶段大多数方法利用注意力機制思想来解决视频问答任务。注意力模型计算问题与视频之间的语义相似性,为与问题相关的视频分配更高的权重得分。但现有的基于注意力模型
的视频问答方法存在两个方面的不足:①难以有效地理解复杂的视频信息。现有方法未能充分利用视频中丰富的模态信息,且未能选择有代表性的模态信息作进一步的分析和推理;②难以准确地定位与问题相关的视频信息。现有方法未能动态地理解问题和视频的语义信息,且未能精准定位到与问题相关的视频信息。
针对上述问题,本文提出了一种多阶段注意力模型(multi-stage attention model, MSAM)用来精准定位与问题相关的视频特征。MSAM共分为3个阶段且每个阶段所关注的对象有所侧重:第1阶段注意力模型是在视频序列中到与问题相关的关键通道。第2阶段注意力模型是在第1个阶段的基础上,从关键通道中到与问题相关的关键区域,实现进一步的精准定位。第3阶段注意力模型在第1阶段的基础上对融合的视频表示进行关注,通过多个特征协同合作来理解问题,从而得到与问题相关的视频表示。基于MSAM的提出,因此构建了多阶段注意力模型网络(multi-stage attention model network,MSAMN)来解决视频问答任务。实验表明本文提出的方法在视频问答任务中的分类准确率有明显提高,同时提出的MSAMN具有较好的泛化性能。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论