第 38 卷第 10 期2023 年 10 月
Vol.38 No.10
Oct. 2023液晶与显示
Chinese Journal of Liquid Crystals and Displays
融合序列影像相关区域信息的光流估计网络
安彤1,贾迪1,2*,张家宝1,蔡鹏1
(1.辽宁工程技术大学电子与信息工程学院,辽宁葫芦岛 125105;
2.辽宁工程技术大学电气与控制工程学院,辽宁葫芦岛 125105)
摘要:针对现有光流估计方法在目标轮廓分割不清晰、缺乏细粒度的问题,本文提出融合序列影像相关区域信息的光流估计网络。通过特征编码器和全局编码器分别提取图像的编码特征和上下文特征,并通过下采样处理缩减特征尺寸。在构建4D相关体前,对输入的连续两帧特征图进行分区处理,以强弱相关的方式计算稠密的视觉相似度,建立更为精细的4D 相关体积。在迭代更新阶段,提出残差卷积滤波器和细粒度模块,分别应用于处理相关体和光流传递,使得在融合相关体信息
和光流信息前保留更多的局部小位移信息。在KITTI-2015数据集和MPI-Sintel数据集上与其他方法进行对比,光流估计评价指标分别提升了8.2%和6.15%。本文给出的网络模型可以更好地提高光流估计的准确性,有效解决了光流场过于平滑、缺乏细粒度和忽略小物体运动等问题。
关键词:计算机视觉;深度学习;光流;区域匹配;迭代更新
中图分类号:TP391.4 文献标识码:A doi:10.37188/CJLCD.2022-0384
Optical flow estimation via fusing sequence image intensity
correlation information
AN Tong1,JIA Di1,2*,ZHANG Jia-bao1,CAI Peng1
(1.College of Electronic and Information Engineering, Liaoning Technical University, Huludao 125105, China;
2.College of Electrical and Control Engineering, Liaoning Technical University, Huludao 125105, China)
Abstract: Aiming at the problems of unclear target contour segmentation and poor granularity in existing optical flow estimation methods,an optical flow estimation via fusing sequence image intensity correlation information is proposed.
First, The coding features and contextual features of the images are extracted by the feature encoder and the global encoder, respectively, and the feature sizes are reduced by downsampling processing. Then, before constructing 4D correlation volume, the input two consecutive frames of feature maps are divided into regions to calculate dense visual similarity in the form of strong and weak correlation to build a more refined 4D correlation volume.Finally,in the iterative update stage,the residual 文章编号:1007-2780(2023)10-1434-11
收稿日期:2022-11-18;修订日期:2023-01-18.
基金项目:国家自然科学基金(No.61601213);辽宁省自然科学基金(No.LJ2020FWL004);中国博士后科学基金(No.2017M61125)
Supported by National Natural Science Foundation of China(No.61601213);National Natural Science
Foundation of Liaoning Province(No.LJ2020FWL004);China Postdoctoral Science Foundation(No.
2017M61125)
*通信联系人,E-mail:1319423118@qq
第 10 期安彤,等:融合序列影像相关区域信息的光流估计网络
convolution filter and the fine-grained module are proposed to be applied to process the correlation volume and optical flow transmission,respectively,which allows to retain more local small displacement information before fusing the correlation volume information and optical flow information. In comparison with other methods on the KITTI-2015 and MPI-Sintel, the optical flow estimation evaluation metric (Endpoint error, EPE) is improved by 8.2% and 6.15%, respectively. The network model given in this paper can better improve the accuracy of optical flow estimation and effectively solve the problems of the optical flow prediction field being over smooth, lacking of fine granularity and ignoring of small object motion.
Key words: computer vision; deep learning; optical flow; region matching; iterative update
1 引言
光流估计是计算机视觉的核心问题之一,在视频理解[1]、动作识别[2]、目标跟踪[3]、全景拼接[4]等领域具有重要的应用,在各类视频分析任务中可以更好地反映目标的运动信息,被认为是一种重要的视觉线索。然而,目前的光流估计网络仍存在过度平滑、缺乏细粒度、无纹理曲面难以准确估计的问题。
传统光流估计方法常基于亮度一致性和空间平滑度能量最小化的方式获得光流估计结果。Horn等[5]采用全局方法估计图像的稠密光流场,基于亮度恒定与光流场平滑假设构造能量函数提出一种光流变分框架。Black等[6]提出一种鲁棒的光流估计框架,对违反空间平滑和亮度恒定这两个约束条件进行统一处理。为了解决二次方惩罚项偏差较大的问题,T
V-L1[7]采用替换L1数据项和总变差正则化较好地剔除了异常值。一些学者又通过结合能量最小化以及描述符匹配策略建立区域层次结构[8],引入新的高阶正则化项解决了该框架中的相关问题。
近年来,基于深度学习的光流估计方法取得了快速进展。可通过训练好的神经网络直接对帧间光流进行预测,缺点是会产生局部噪声和模糊结果。针对该问题,Simonyan等[9]采用变分法、Ilg[10]等采用叠加多网络的思想来进行改进,较好地解决了该问题。此后,Ranjan等[11]结合传统算法中的金字塔理念提出SpyNet网络,由粗到精地完成了光流估计,更好地处理了光流算法中的大位移问题。Sun等[12]提出PWC-Net网络同样采用了由粗到精的金字塔思想,引入经典算法中的相关体处理(Cost Volume),以端到端的训练方式完成了网络性能的提升。Yang等[13]提出的VCN网络进一步改进了相关体处理方法,通过引入4D卷积提高了光流估计的准确性。这些方法均采用由粗到精的金字塔处理方式进行迭代优化,并在迭代中不共享权重。
与以上方法相比,建立在FlownetS和PWC 网络架构基础上的IRR[14]网络能够细化网络间的共享权重,但由于该网络过大(38M参数),只能完成5次迭代。Devon等[15]给出一种更加精细的模块设计(2.7M参数),在推理过程中可以进行上百次迭代,获得更加精确的结果。
随着深度学习的发展,许多工作将视觉问题转化为优化问题,将优化的思想融入到网络体系结构中。Amos等[16]提出的OptNet网络将优化问题作为单个层嵌入到深度网络中,并提供了更好的反向传播功能,使该网络具备较强的学习能力。Agrawal等[17]在求解优化过程中引入更为严格的参数化编程,较好地避免了可微应用中使用凸优化存在的问题。
Zachary Teed等[18]提出一种光流估计网络(RAFT),结合以上算法思想,提取像素级特征,为所有像素建立多尺度4D关联信息,循环迭代更新光流场,有效提高了光流估计的准确率。但RAFT也存在着一些待解决的问题:首先,由于RAFT在高分辨率和低分辨率的条件下为所有特征对都建立了相关体积,每次更新都需要获得全像素位移的信息导致引入过多误差信息,降低了后续光流估计的准确率。其次,在迭代更新模块部分,RAFT依赖于静态滤波器融合光流和相关体积,这也使得最终的光流预测图产生过于平滑的结果。
为了解决上述RAFT中存在的问题,本文在构建4D相关体前,对输入的连续两帧特征图进行分区处理,以强弱相关的方式计算稠密的视觉相似度,以此计算建立更为精细的4D相关体积。在迭代更新阶段,本文在卷积门循环单元(ConvGRU)模块的基础上加入了残差卷积滤波器和细粒度
1435
第 38 卷
液晶与显示
模块,在融合光流信息和相关体信息前尽可能地保留更多的局部小位移信息。
本文通过特征提取模块、计算视觉相似度模块和光流迭代更新模块获得最终的光流估计结果,本文的主要贡献如下:
(1)提出采用分区处理强弱相关信息的方法,能够较好地剔除误差,建立更为精细的4D 相关体,从而获得更加准确的相关体信息;
(2)引入残差卷积滤波器,使光流信息不会随着卷积滤波器的迭代加深而出现过于平滑的
结果;
(3)采用细粒度模块,在尽可能扩大感受野的同时,使模块更加关注局部小位移的特征信息。
2 本文方法
图1为本文给出的光流估计网络结构,由特征提取模块、视觉相似度计算模块和迭代更新模块3部分构成。
特征提取器模块由特征编码器和全局编码器两部分构成。输入的前后帧图片经过特征提取器模块分别提取下采样8倍的特征图和上下文信息。视觉相似度计算模块由分区强弱相关计算和相关金字塔构成。分区强弱相关计算会对特征图进行特征权重的空间重构,并通过相关金字塔得到不同尺度的相关体积。迭代更新模块由基准移动编码模块和卷积门控循环单元构成。光流信息会通过对不同尺度的相关体积进行按位查询,得到与预测光流位移相对应的相关体,查询得到的相关
体和光流位移经过基准移动编码模块(图1中B 标识模块)进行信息的融合。最终,输出融合结果将与上下文信息一起作为卷积门控循环单元的输入,迭代12次后得到更为精细的光流预测图。
对给定的输入连续两帧图像,分别表示为I a
与I b 。输入图像的宽和高分别记为H 和W 。2.1 特征提取模块
特征提取模块由特征编码器和全局编码器两部分构成。特征编码器以权重共享的方式作用
于I a 与I b ,并以1/8的分辨率输出编码后的特征
F a 、F b ∈R H /8×W /8×D ,其中F a 、F b 分别为图像I a 、I b 的输出,
D 为特征图的维度。此外,全局编码器网络的体系结构与特征编码器网络相同。它将从第一张输入图像I a 上提取特征,并输出编码后的特征F c ∈R H /8×W /8×D 。编码器的网络设计如图2所示。
2.2 视觉相似度计算模块
计算视觉相似度是光流估计中的一个核心步骤,在整体结构中起到了至关重要的作用
图1 光流估计网络结构
Fig.1 
Optical flow estimation network structure
图2 编码器结构Fig.2 Encoder structure
1436
第 10 期
安彤,等:融合序列影像相关区域信息的光流估计网络
但之前的许多工作并没有在这一步投入太多关注,计算方式大多以直接做全局特征向量的內积为主。全局的特征匹配往往是直接对两张特征图以像素点为单位计算点积,即取所有特征向量对之间的点积形成相关体。当给定特征图F a 的像素坐标(u ,v )和特征图F b 的像素坐标(
x ,y )
,相
关体积C 即可通过矩阵运算获得:
C (u ,v ,x ,y )=F a (u ,v )⋅F b (x ,y ) .
(1)
在光流估计任务中,连续两帧图像间,大位移的像素点占比极少,远距离的像素相关性较小,即第一帧图像中位于上方的像素通常情况下不会位移到第二帧图像的下方。在这种情况下,做全局的相关计算就会引入许多误差信息。但若直接忽略远距离的特征点,一些大位移像素的相关关系将被完全清零,这可能导致一些
更致命的误差。经过上述的分析,本文提出了基于分区思想的强弱相关计算方法。该方法可以在构建相关金字塔的基础上,强化对局部区域的关注度,从而减少对全局信息的错误判断。
如图3所示,输入的特征图会被横向切分成2n 个区域(Region ),通过区域间的范围阈值来设定两帧间像素的映射。在本文中,分条区域的个数被设置成偶数,这种做法的原因是当对图片进行分区处理时,选择偶数计算更为方便。对特征提取模块求出的特征图F a 和F b ,分区(Region )的表达方式如式(2)所示:
ìí
î
ï
ïïïF a =∪i ∈(1,2n )region (i )F b =∪j ∈(1,2n )region (j ) ,(2)
其中,
i 和j 分别表示F a 和F b 的分条区域索引。对于不同映射关系的像素点,本文通过设置相应的可学习相关因子来强化两帧区域内的强弱相关性。这种方法的好处在于既能获得全像素对的相关信息,降低对大位移像素离值的敏感性,又能极大程度地减少区域外的误相关带来的误差。加入强弱关系后的相关体积C final 的计算方式如式(3)和式(4)所示:
ìí
î
ï
ïC ′i j =λj ⋅region ()i ⊗region ()j j =h ()i  ,(3)C final =
∪i ∈()1,2n ,j ∈(
)
1,2n C ′i j  ,
(4)
其中:
h (⋅)表示帧间各个分条区域间的映射关系,与之对应的λj 是可学习的自适应相关因子,用
来表示不同程度的相关性;
⊗为帧间对应区域内像素的点积;
C ′i j 表示区域i 和区域j 加入强弱关系后的相关体积。本模型利用sigmoid 函数将λj 的取值范围约束在0~1之间。
至此,对于F a 中的每一个特征点,均计算出F b
中所有特征点与它的相关关系,即相关体积C final ,其维度为w ×h ×w ×h 。需要说明的是这里的w 和h 是原始图片的下采样8倍后的宽和高,即
(w ,
h )=(
W 8,H
8
)
。之后本文采用4个不同大小(卷积步长分别为1,2,4,8)的卷积核对相关体积的后两个维度进行降采样得到4层金字塔{C 0v ′ ,
 }C 1v ′ ,  C 2v ′ ,  C 3v ′,相关金字塔标号q
与其维度的关系
图3 横向切分做边缘区域点映射的强-弱相关与中心区域点映射的强-弱相关(以分条颜的深浅表示相关的强度,对
应位置区域认定为强相关,相关因子置1,其余颜越弱,相关性越弱)。
Fig.3 Strength -weakness correlation of the edge -region point mapping with the center -region point mapping done by the
horizontal cut (The strength of the correlation is indicated by the shade of the color of the bars , The correlation factor is set to 1 when the corresponding position area is identified as strong correlation. The weaker the rest of the color , the weaker the correlation ).
1437
第 38 卷
液晶与显示
如式(5)所示:
C q v ′→h ×w ×h /2k ×w /2k  .
(5)
如图4所示,基于相关金字塔{C 0v ′ ,  C 1v ′  ,  C 2v ′ ,
 } C 3v ′,本文定义了查询操作。给定当前光流位移是(
f 1 ,  f 2)
I a 中的每个像素点p (u ,v )都可以被映射到I b 的估计值p ′(
x ,y )
,即(x ,y )= (
u +f 1()u  , )v +f 2
()v 。设p ′的邻域点集为L (p ′)r
,L (p ′)r
计算如式(6)所示:
L (p ′)
正则匹配一张图片
r
={p ′+dp|dp ∈Z 2 , ||dp||≤r } ,(6)
其中:dp 为查范围且取整数;r 为搜索半径,设定为4像素;
Z 为正整数集。将该邻域内的所有点看作是I a 中像素点p 在I b 上的潜在位置。后续在迭代更新光流的过程中,可借助插值查询操作从相关金字塔{C 0v ′ ,  C 1v ′ ,  C 2v ′ ,  C 3v ′}中索引得到像素级别的相关特征信息,最后将不同金字塔层的查询结果在特征维度上进行合并,得到最终的相关体C last 。
综上所述,本文以分条区域做强弱相关的方式计算视觉相似度,其好处在于既能获得全像素对的相关信息,又能极大减少由全局匹配所引入的错误信息,进而获得更加准确的相关体信息,为后续光流场迭代更新计算提供支持。2.3 迭代更新模块
本文主要通过迭代更新模块中的光流序列
{f 1
 ,
…, f N
}完成光流估计,其迭代更新过程可以描述为:
f k +1=f k +Δf k  ,
(7)
其中:
Δf k 为每次迭代后的更新量,f k 为当前光流,f k +1为更新后的光流,k 为迭代更新次数。
迭代更新模块主要由基准移动编码模块和
卷积门控循环单元(ConvGRU )构成。本文使用
卷积门控循环单元对上下文信息和光流信息进行迭代更新,并且提出了基准移动编码模块来增强光流预测图的细粒度。
如图5所示,在基准移动编码模块中,输入为:(1)根据当前光流位移(f k )在相关金字塔中检索出的相关体C last ;(2)当前光流位移(f k )。
相关体C last 经过卷积滤波器来融合不同相关金字塔层的信息,但基于卷积的基准移动编码模块会产生过于平滑的结果。为了缓解小位移运动
在卷积堆叠运算后难以维持局部细致化的问题,本文在卷积滤波器的基础上加入了残差连接(图5中的红线),用于修正局部的小位移运动,增强最终光流预测图的细粒度。最终卷积滤波器的输出C output 计算方式如式(8)所示:
C output =C last +
relu (Conv 3×3(relu (Conv 3×3(C last )))) .(8)
此外,对当前光流位移(f k )采用细粒度模块进行处理。细粒度模块由3个核大小为3的卷积核并行构成。并行3个小卷
积核不仅弥补了感受野小的不足,同时使得模块更加关注局部的小运动特征。具体处理方法如式(9)和式(10)所示:flow_i =relu (
Conv 3×3(f k
))  ,
  i =1  , 2 , 3 , (9)F output =cat (flow_1  , f low_2  , f low_3) ,
(10)其中:flow_i (i =1  , 2 , 3)为光流位移(f k )由3个并行的3×3卷积核经不同输出通道处理获得的光流特征,
F output 为光流特征拼接结果,cat (⋅)为拼接操作,
relu 为激活函数。卷积滤波器的输出C output 和细颗粒模块的输出F output
在特征维度上进
图4 基于相关金字塔的查询操作。橙部分为不同尺
度下的查询点的邻域点集。
Fig.4 Lookup operator based on correlation pyramid. The
orange part is the neighborhood dot product of the
query points at different scales.
图5 基准移动编码模块结构设计
Fig.5 Basic motion encoder module structure design
1438

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。