MSAM针对视频问答的多阶段注意力模型--688IT编程网

MSAM:针对视频问答的多阶段注意力模型

作者：梁丽丽　刘昕雨　孙广路　朱素霞

来源：《哈尔滨理工大学学报》2022年第04期

摘要：视频问答（VideoQA）任务需要理解视频和问题中的语义信息生成答案。目前，基于注意力模型的VideoQA方法很难完全理解和准确定位与问题相关的视频信息。为解决上述问题，提出一种基于注意力机制的多阶段注意力模型网络（MSAMN）。该网络将视频、音频以及文本等多模态特征输入到多阶段注意力模型（MSAM）中，通过逐阶段的定位方式精准到与回答问题相关的视频信息，用于答案生成。为了提高特征融合的有效性，提出一种三模态压缩级联双线性（TCCB）算法计算不同模态特征之间的相关性。MASMN在ZJL数据集上进行实验，平均准确率均为54.3%，比传统方法提高了近15%，比现有方法提高了近7%。

关键词：视频问答;多阶段注意力模型;多模态特征融合

正则化正交匹配追踪 DOI：10.15938/j.jhust.2022.04.014

中图分类号： TP391.3

文献标志码： A

文章编号： 1007-2683（2022）04-0107-11

MSAM：Video Question Answering Based

on Multi-Stage Attention Model

LIANG Li-li，LIU Xin-yu，SUN Guang-lu，ZHU Su-xia

（School of Computer Science and Technology， Harbin University of Science and Technology， Harbin 150080， China）

Abstract：The video question answering （VideoQA） task requires understanding of semantic information of both the video and question to generate the answer.At present， it is difficult for VideoQA methods that are based on attention model to fully understand and accurately locate video information related to the question.To solve this problem， a multi-stage attention model network （MSAMN） is proposed.This network extracts multi-modal features such as video， audio and text and feeds these features into the multi-stage attention model （MSAM）， which is able to accurately locate the video information through a stage-by-stage localization method.In order to improve the effectiveness of featur

e fusion， a triple-modal compact concat bilinear （TCCB） algorithm is proposed to calculate the correlation between different modal features.This network is tested on the ZJL dataset.The average accuracy rate is 54.3%， which is nearly 15% higher than the traditional method and nearly 7% higher than the exist method.

Keywords：video question answering; multi-stage attention model; multi-modal feature fusion

0引言

近年来，由于视频问答任务具有较强的应用价值，现已成为计算机视觉、自然语言处理等领域的研究热点，该任务是对视频内容和问题进行理解，生成一个符合逻辑的答案[1]。现有视频问答方法分为以下4个类别[2]：编码器-解码器、注意力模型、记忆网络模型和其他方法。

现阶段大多数方法利用注意力機制思想来解决视频问答任务。注意力模型计算问题与视频之间的语义相似性，为与问题相关的视频分配更高的权重得分。但现有的基于注意力模型

的视频问答方法存在两个方面的不足：①难以有效地理解复杂的视频信息。现有方法未能充分利用视频中丰富的模态信息，且未能选择有代表性的模态信息作进一步的分析和推理;②难以准确地定位与问题相关的视频信息。现有方法未能动态地理解问题和视频的语义信息，且未能精准定位到与问题相关的视频信息。

针对上述问题，本文提出了一种多阶段注意力模型（multi-stage attention model， MSAM）用来精准定位与问题相关的视频特征。MSAM共分为3个阶段且每个阶段所关注的对象有所侧重：第1阶段注意力模型是在视频序列中到与问题相关的关键通道。第2阶段注意力模型是在第1个阶段的基础上，从关键通道中到与问题相关的关键区域，实现进一步的精准定位。第3阶段注意力模型在第1阶段的基础上对融合的视频表示进行关注，通过多个特征协同合作来理解问题，从而得到与问题相关的视频表示。基于MSAM的提出，因此构建了多阶段注意力模型网络（multi-stage attention model network，MSAMN）来解决视频问答任务。实验表明本文提出的方法在视频问答任务中的分类准确率有明显提高，同时提出的MSAMN具有较好的泛化性能。

688IT编程网

MSAM针对视频问答的多阶段注意力模型

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

MSAM针对视频问答的多阶段注意力模型

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式