基于重组性高斯自注意力的视觉Transformer--688IT编程网

基于重组性高斯自注意力的视觉Transformer

赵亮 1, 2

周继开

摘要在目前视觉Transformer 的局部自注意力中, 现有的策略无法建立所有窗口之间的信息流动, 导致上下文语境建模能力不足. 针对这个问题, 基于混合高斯权重重组(Gaussian weight recombination, GWR)的策略, 提出一种新的局部自注意力机制SGW-MSA (Shuffled and Gaussian window-multi-head self-attention), 它融合了3种不同的局部自注意力, 并通过GWR 策略对特征图进行重建, 在重建的特征图上提取图像特征, 建立了所有窗口的交互以捕获更加丰富的上下文信息. 基于SGW-MSA 设计了SGWin Transformer 整体架构. 实验结果表明, 该算法在mini-imagenet 图像分类数据集上的准确率比Swin Transformer 提升了5.1%, 在CIFAR10图像分类实验中的准确率比Swin Transformer 提升了5.2%, 在MS COCO 数据集上分别使用Mask R-CNN 和Cascade R-CNN 目标检测框架的mAP 比Swin Transformer 分别提升了5.5%和5.1%，相比于其他基于局部自注意力的模型在参数量相似的情况下具有较强的竞争力.关键词 Transformer, 局部自注意力, 混合高斯权重重组, 图像分类, 目标检测

引用格式赵亮, 周继开. 基于重组性高斯自注意力的视觉Transformer. 自动化学报, 2023, 49(9): 1976−1988DOI 10.16383/j.aas.c220715

Vision Transformer Based on Reconfigurable Gaussian Self-attention

ZHAO Liang 1, 2 ZHOU Ji-Kai 1

Abstract In the current vision Transformer ＇s local self-attention, the existing strategy cannot establish the inform-ation flow between all windows, resulting in the lack of context modeling ability. To solve this problem, this paper proposes a new local self-attention mechanism shuffled and Gaussian window-multi-head self-attention (SGW-MSA)based on the strategy of Gaussian weight recombination (GWR), which combines three different local self-attention forces, and reconstructs the feature map through GWR strategy, and extracts image features from the reconstruc-ted feature map. The interaction of all windows is established to capture richer context information. This paper designs the overall architecture of SGWin Transformer based on SGW-MSA. The experimental results show that the accuracy of this algorithm in the mini-imagenet image classification dataset is 5.1% higher than that in the Swin Transformer, the accuracy in the CIFAR10 image classification experiment is 5.2% higher than that in the Swin Transformer, and the mAP using the Mask R-CNN and Cascade R-CNN o

bject detection frameworks on the MS COCO dataset are 5.5% and 5.1% higher than that in the Swin Transformer, respectively. Compared with other models based on local self-attention, it has stronger competitiveness in the case of similar parameters.

Key words Transformer, local self-attention, Gaussian weight recombination (GWR), image classification, objec-tion detection

resizedCitation Zhao Liang, Zhou Ji-Kai. Vision Transformer based on reconfigurable Gaussian self-attention. Acta Auto-matica Sinica , 2023, 49(9): 1976−1988

目前计算机视觉领域使用的方法有两大类, 分

别是卷积神经网络(Convolutional neural net-works, CNN)和Transformer. 其中CNN 是图像分类[1]、目标检测[2]和语义分割[3]等计算机视觉任务的主流方法, 自AlexNet [4]诞生并在ImageNet 图像分类挑战中获得冠军以后, 研究者们开始通过各种方法设计卷积神经网络, 使得网络变得更深、更密集、更复杂[5−8], 在随后的几年内出现了很多经典的卷积神经网络. VGGNet [5]探索了CNN 的深度及性能之间的关系, 通过使用很小的卷积叠加增加网络的深度达到提升网络精度的效果; DenseNet [6]通过从特征图的角度入手, 为每一个模块加入密集连接达到了更好的性能和更少的参数量; ResNet [7]通过引

收稿日期 2022-09-10 录用日期 2023-01-13

Manuscript received September 10, 2022; accepted January 13,2023

国家自然科学基金(51209167, 12002251), 陕西省自然科学基金(2019JM-474), 陕西省岩土与地下空间工程重点实验室开放基金(YT202004), 陕西省教育厅服务地方专项计划(22JC043)资助

Supported by National Natural Science Foundation of China (51209167, 12002251), Natural Science Foundation of Shaanxi Province (2019JM-474), Open Fund Project of Key Laboratory of Geotechnical and Underground Space Engineering in Shaanxi Province (YT202004), and Shaanxi Provincial Department of Education Service Local Special Plan Project (22JC043)本文责任编委黄华

Recommended by Associate Editor HUANG Hua

1. 西安建筑科技大学信息与控制工程学院西安 710055

2. 陕西省岩土与地下空间工程重点实验室西安 710055

1. College of Information and Control Engineering, Xi ＇an Uni-versity of Architecture and Technology, Xi ＇an 710055

2. Sh-aanxi Provincial Key Laboratory of Geotechnical and Under-ground Space Engineering, Xi ＇an 710055

第 49 卷第 9 期自动化学报Vol. 49, No. 92023 年 9 月

ACTA AUTOMATICA SINICA

September, 2023

入残差结构解决了随着网络层数的加深出现梯度消失的问题; GoogLeNet[9]使用密集成分来近似最优的稀疏结构, 在提升性能的同时不增加计算量; Ef-ficientNet[10]提出了一种多维度混合的模型缩放方法, 可以同时兼顾模型的精度以及速度. 在CNN模型性能越来越强的同时, 另一类视觉Transformer 的方法横空出世. Transformer由于其自注意力模块具有捕捉长距离依赖[11]的能力广泛被应用于自然语言处理的任务中, 而后被用到了计算机视觉任务中并取得了比CNN方法更优的效果. 在文献[12−15]中将自注意力模块嵌入到CNN中并应用于图像分类、目标检测和语义分割等计算机视觉任务中. Vis-ion Transformer (ViT)[16]不使用卷积神经网络而是通过将图像序列化的方法首次将Transformer架构应用到图像领域中, 并且在ImageNet数据集上取得了比ResNet更好的效果, 而后在短时间内被引入改进[17−20]并应用于各种图像领域的各种下游任务[21−24]. 但是Transformer的复杂度成为了其性能最大的瓶颈, 为了减小因全局自注意力引起的二次复杂度, 现有的方法较多使用局部自注意力机制. 目前现有的局部自注意力机制主要有7类(如图1所示).

1) 目前几乎所有的基于局部自注意力的Trans-former模型都会使用常规窗口自注意力(Window-multi-hea

d self-attention, W-MSA), 通过W-MSA 与其他类型的局部自注意力交替使用来建立窗口之间的通信, 如图1(a)所示.

2) HaloNet[25]通过对窗口进行缩放的操作来收集窗口之外的信息并建立跨窗口的信息交互, 如图1(b)所示.

3) Swin Transformer通过在连续的局部注意力层之间移动窗口的分区建立跨窗口之间的信息通信缓解感受野受限的问题, 如图1(c)所示.

4) CrossFormer[26]提出了跨尺度嵌入层和长短注意力, 有效地建立了长远距离的跨窗口的连接.

5) Shuffle Transformer[27]在连续的局部自注意力层之间加入空间shuffle的操作, 以提供长距离窗口之间的连接并增强建模能力.

6) GG Transformer[28]受到了人类在自然场景中识别物体的Glance和Gaze行为的启发, 能够有效地对远程依赖性和局部上下文进行建模, 4) ~ 6)这3种局部注意力可统一归为图1(d)的形式.

7) Axial-DeepLab[29]将二维自注意力分解为横向和纵向两个一维的自注意力, 如图1(e)所示.

8) CSWin Transformer[30]提出了一种在“十”字等宽窗口内计算自注意力的方式(Cross-shaped window self-attention), 通过横条和纵条窗口自注意力并行实现, 如图1(f)所示.

9) Pale Transformer[31]提出了“十”字等间隔窗口自注意力(Pale-shaped-attention, PS-Attention)，如图1(g)所示.

图1展示了现有的局部自注意力方法. 不同的颜表示不同的窗口, 在每个窗口内执行计算自注意力, 并通过引入各种策略来建立跨窗口之间的连接. 这些工作虽然取得了优异的性能, 甚至优于一些最新的CNN的方法, 但是每个自注意力层中的依赖性仍然具有局限性, 具体表现在当特征图很大时, 通过有间隔的采样点组成的窗口无法建立所有窗口之间的信息流动导致了模型捕获的上下文语义

(a) 常规窗口(a) Regular window (b) 改变尺寸大小的窗口

(b) Resized window

(d) 等间隔窗口

(d) Shuffled window

(e) 轴向窗口(e) Axial window

(f) “十”字窗口

(f) Cross-shaped window

(g) “十”字等间隔窗口

(g) Pale-shaped window

图 1 现有局部自注意力方法

Fig. 1 Existing local self-attention methods

9 期赵亮等: 基于重组性高斯自注意力的视觉Transformer1977

信息的能力不足. 针对上述问题, 本文提出了一种高斯窗口自注意力机制(Gaussian window-multi-head self-attention, GW-MSA), 它包括纵向高斯窗口自注意力(Vertical Gaussian window-multi-head self-attention, VGW-MSA)和横向高斯窗口自注意力(Horizontal Gaussian window-MSA,HGW-MSA)两种类型的局部自注意力. GW-MSA 与图1(d)中的Shuffled W-MSA 联合组成了SGW-MSA, 有效地捕捉更丰富的上下文依赖, 如图2所示, 不同颜的点代表不同的窗口组成, 在GW-MSA 中, 通过混合高斯权重重组GWR 策略重构特征图，并在重构后的特征图上计算局部自注意力. 本文在Swin Transformer 结构的基础

上, 引入SGW-MSA 设计了SGWin Transformer 模型, 在公开数据集CI-FAR10、mini-imagenet 、KITTI 、PASCAL VOC 和MS COCO 上进行了实验, 实验结果表明SGWin Transformer 在图像分类和目标检测的任务上优于其他同等参数量的基于局部自注意力的Transfor-mer 网络.

(a) 等间隔窗口

(a) Shuffled window

(b) 高斯窗口(b) Gaussian window

Horizontal Gaussian window Vertical Gaussian

window

图 2 局部自注意力组合

Fig. 2 Local self-attention combination

1 模型框架

1.1 Swin Transformer 算法

Swin Transformer 提出了一种新的基于Trans-former 的视觉主干网络, 自注意力的计算在局部非重叠窗口内进行. 一方面可以将复杂度从之前的和图像大小成平方的关系变成线性关系, 并且采用非重叠局部窗口, 大大减小了计算量; 另一方面在不同的注意力层之间采用移动窗口的操作, 使得不同窗口之间的信息可以交换. 并且由于性能超越了参

h w W h W w 数量相似的CNN 主干, 推动了Transformer 成为了视觉主干网络的新主流, 在近两年出现了越来越多基于局部自注意力机制的视觉Transformer 方法, 然而目前的各种局部自注意力建立远距离跨窗口连接策略具有一定的局限性. 当特征图很大时，现有的窗口连接的策略无法建立所有窗口之间的信息流动导致无法捕捉足够的上下文信息. 假设特征图的高和宽分别为和 , 局部窗口的高和宽分别为和 , 对于特征图上划分的某一个局部窗口, 该窗口在纵向和横向可以建立最近窗口连接的距离分别为:

在纵向和横向可以建立最远窗口连接的距离分别为

d h min >

W h d w min >W w d h max <h −W h d w

max <w −W w h,w,W h ,W w d h max d w

max d h min (d w

min )

d h

(d w

)

所以具有4种不能建立窗口连接的情况: 1) ; 2) ; 3) ; 4) . 当

之间的关系满足式(5) ~ 式(7)中的一种情况时就会出现特征图过大导致无法建立所有窗口之间信息交互的情况. 当满足式(5)或式(6)时, 窗口之间的纵向距离或者横向距离分

别大于和

时无法建立连接, 当满足式(7)

中的情况时, 窗口之间的纵(横)向距离小于或者大于都无法建立连接.1.2 SGWin Transformer 的整体结构

为了解决当特征图过大时现有的局部自注意力

机制无法建立所有窗口之间的信息交互的问题, 本文提出了一种新的局部自注意力机制SGW-MSA，并在Swin Transformer 的基础上将所有的移动窗口自注意力SW-MSA 替换为SGW-MSA 得到一种新的SGWin Transformer 模型, 模型的整体架构如图3(a) 所示. 主干网络符合标准的视觉分层Transformer 的PVT [32]的结构, 该设计包含了4个阶段的金字塔结构, 每个阶段由Patch embed 或Patch merging 和多个SGWin Transformer block 串联组

1978自动化学报49 卷

合而成. 如图3(b)所示, 每个SGWin Transformer

block 由两组结构串联组成, 第一组结构包括一个W-MSA 模块和一个MLP, 第二组结构由一个SGW-MSA 模块和一个MLP 模块组成, MLP 对输入特征图进行非线性化的映射得到新的特征图,SGW-MSA 局部自注意力机制的示意图如图3(c)所示. 整个模型的计算过程为: 输入图片通过Patch embed 将输入图像下采样4倍, 并得到指定通道数的特征图, 特征图会被送入Stage 1的SGWin Trans-former block 中, 通过W-MSA 、SGW-MSA 模块提取局部特征和图像中的上下文信息并建立所有窗口之间的信息流通, Stage 1最后一个SGWin Trans-former block 的输出会被送入Stage 2中, 除Stage 1之外的所有Stage 会通过一个Patch merging 将上一个阶段输出的特征图尺寸降采样两倍(宽和高

变为原来的二分之一), 通道维度变为原来的两倍.整个网络之后可以接一个Softmax 层和一个全连接层用于图像分类任务, 并且每个阶段的特征图可输入到目标检测的FPN [33]部分中进行多尺度目标检测.

1.3 SGW-MSA 局部自注意力机制

d h min d h

max d w min d w

max 当出现式(5)或式(6)中的情况时, 两个窗口之间的纵(横)向距离大于一定值时就无法建立连接. 当出现式(7)中的情况时, 两个窗口之间的纵(横)向距离大于或小于一定值时都无法建立连接.因此式(7) 中的问题包含式(5)和式(6)存在的问题. 仅考虑式(7)中的情况, 将纵向无法建立窗口连

接的两个距离分别记为和 , 将横向无法建

立窗口连接的两个距离分别记为和 . 如图4

Images

MLP MLP

LN LN LN

SGW-MSA

W-MSA (a) SGWin Transformer 的整体结构

(a) Overall architecture of SGWin Transformer

(b) SGWin Transformer 的基础模块(b) SGWin Transformer block (c) SGW-MSA 局部自注意力机制

Stage 1

SGWin Transformer

block P a t c h e m b e d

H × W × 3h × w × c

h × w × c

h × w × c /3

× 2Stage 2SGWin Transformer

block

P a t c h m e r g i n g

× 2Stage 3SGWin Transformer

block

P a t c h m e r g i n g

S p l i t

C o n c a t

× 6Stage 4SGWin Transformer

block

P a t c h m e r g i n g

× 2

H /4 × W /4 × C

H /8 × W /8 × 2C

H /16 × W /16 × 4C

H /32 × W /32 × 8C

图 3 SGWin Transformer 整体架构

Fig. 3 Overall architecture of SGWin Transformer

9 期

赵亮等: 基于重组性高斯自注意力的视觉Transformer 1979

d h min (d w

min )

d h max (d w

max )所示, 为了能够建立所有窗口之间的信息交互, SGW-MSA 将输入特征图在通道上均匀拆分成3组, 对第一组特征图使用现有的Shuffled W-MSA 等间隔

采样点组成窗口用于纵(横)向距离大于且小于窗口之间的联系; 后两份特征图分别使用横向高斯窗口自注意力HGW-MSA 和纵向高斯窗口自注意力VGW-MSA 计算局部自注意力, 建立Shuffled W-MSA 未能建立的窗口的联系.最后将3个部分的局部自注意力计算结果在通道上进行合并得到最终的输出结果.

h × w × c

h × w × c /3

S p l i t

C o n c a t

Shuffled W-MSA

Horizontal

Gauss W-MSA

Vertical Gauss W-MSA

图 4 SGW-MSA 局部自注意力示意图Fig. 4 SGW-MSA local self-attention diagram

1.3.1 GW-MSA 局部自注意力机制

d h min (d w min )d h max (d w

max )GW-MSA 可用于建立Shuffled W-MSA 未能建立的窗口连接, 分为VGW-MSA 和HGW-MSA 两种不同的形式. 如图5所示, 每个形式的GW-MSA 由混合高斯权重重组GWR 模块、常规局部自注意力W-MSA 和逆混合高斯权重重组(re Gaussian weight recombination, reGWR)模块3个部分组成, 其中GWR 是本文为了建立纵(横)向距离小于

或者大于窗口之间的信息交互提出的一种特征图重组的策略.

h w W h W w W b (W b <W h )w h W b (W b <W w )h w w b W b 假设特征图的高和宽分别为和 , 局部窗口的高和宽分别为和 . GWR 会将输入特征图划分成多个长条形状的基础元素块(Basic element block, BEB), 计算纵向的VGW-MSA 时将特征图按高切分成若干份高宽分别为和的横条基础元素块, 如图6(a)所示. 计算横向的HGW-MSA 时将特征图按宽切分成高宽分别为和的竖条基础元素块, 如图6(b)所示. 当或不能整除时, 取最大可以整除的长度作为重组区域.

d h min (d w

min )d h max (d w

max )为所有的基础元素块建立高斯权重分布表, 结

合高斯权重分布表尽可能使距离小于或

者大于的基础元素块放在一起用于重组

特征图. 然后在重组后的特征图上使用W-MSA 计算局部自注意力. 高斯权重分布表由一维高斯分布公式得到:

A µσ2式中代表权重的幅值, 表示均值, 为方差.GWR 策略的思想就是根据高斯分布的特性. 如图6(c)和图6(d)所示, 纵向基础元素块越靠近图像上边缘或下边缘, 权重越小; 横向基础元素块越靠近左边缘和右边缘, 权重越小. 权重越高的基础元素块对应图像中的位置颜越亮, 代表对应位置的权重越

VGW-MSA

HGW-MSA

横向 BEB

纵向 BEB

GWR 策略

A -ExpJ

W-MSA

reGWR

A -ExpJ 横向高斯权重热力图

纵向高斯权重热力图

图 5 GW-MSA 局部自注意力示意图

Fig. 5 GW-MSA local self-attention diagram

W b

W w

W b

W h

W w

(a) 纵向基础元素块

(a) Vertical basic element

block

(b) 横向基础元素块(b) Horizontal basic element

block

(d) Horizontal basic element

block Gaussian weights

图 6 纵横向基础元素块示意图Fig. 6 Schematic diagram of vertical and

horizontal basic element block

1980自动化学报

49 卷

688IT编程网

基于重组性高斯自注意力的视觉Transformer

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林特征选择原理

自动驾驶系统中的随机森林算法解析

随机森林算法及其在生物信息学中的应用

监督学习中的随机森林算法解析(六)

随机森林算法在数据分析中的应用

机器学习——随机森林,RandomForestClassifier参数含义详解

随机森林的算法

随机森林算法作用

监督学习中的随机森林算法解析(十)

随机森林算法案例

随机森林案例

二分类问题常用的模型

绘制ssd框架训练流程

一种基于信息熵和DTW的多维时间序列相似性度量算法

SVM训练过程范文

如何使用支持向量机进行股票预测与交易分析

二分类交叉熵损失函数binary

tinybert_训练中文文本分类模型_概述说明

基于门控可形变卷积和分层Transformer的图像修复模型及其应用

人工智能开发技术的测试和评估方法

最新文章

基于随机森林的数据分类算法改进

人工智能中的智能识别与分类技术

基于人工智能技术的随机森林算法在医疗数据挖掘中的应用

随机森林回归模型的建模步骤

r语言随机森林预测模型校准曲线

《2024年随机森林算法优化研究》范文

标签列表

688IT编程网

基于重组性高斯自注意力的视觉Transformer

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林特征选择原理

自动驾驶系统中的随机森林算法解析

随机森林算法及其在生物信息学中的应用

监督学习中的随机森林算法解析(六)

随机森林算法在数据分析中的应用

机器学习——随机森林,RandomForestClassifier参数含义详解

随机森林 的算法

随机森林算法作用

监督学习中的随机森林算法解析(十)

随机森林算法案例

随机森林案例

二分类问题常用的模型

绘制ssd框架训练流程

一种基于信息熵和DTW的多维时间序列相似性度量算法

SVM训练过程范文

如何使用支持向量机进行股票预测与交易分析

二分类交叉熵损失函数binary

tinybert_训练中文文本分类模型_概述说明

基于门控可形变卷积和分层Transformer的图像修复模型及其应用

人工智能开发技术的测试和评估方法

最新文章

基于随机森林的数据分类算法改进

人工智能中的智能识别与分类技术

基于人工智能技术的随机森林算法在医疗数据挖掘中的应用

随机森林回归模型的建模步骤

r语言随机森林预测模型校准曲线

《2024年随机森林算法优化研究》范文

标签列表

随机森林的算法