基本信息

  • 📰标题: SA-NET: SHUFFLE ATTENTION FOR DEEP CONVOLUTIONAL NEURAL NETWORKS

  • 🖋️作者: Qing-Long Zhang

  • 🏛️机构: State Key Laboratory for Novel Software Technology at Nanjing University(南京大学计算机软件新技术国家重点实验室)

  • 🔗链接: SA-Net GitHub

  • 🔥关键词: spatial attention, channel attention, channel shuffle, grouped features

摘要概述

项目 内容
📖研究背景 注意力机制(spatial/channel attention)已成为提升深度神经网络性能的关键组件,但融合二者会显著增加计算开销。
🎯研究目的 提出高效Shuffle Attention(SA)模块,以低计算成本整合两种注意力机制。
✍️研究方法 分组通道特征→并行处理→Shuffle Unit建模空间/通道依赖→通道混洗实现跨组信息交互。
🕊️研究对象 ImageNet-1k(分类)、MS COCO(目标检测/实例分割)等基准数据集。
🔍研究结论 SA在ResNet50上仅增加300参数/2.76e-3 GFLOPs,Top-1准确率提升>1.34%,模型复杂度低于SOTA方法。
⭐创新点 通过分组和通道混洗实现高效特征交互,平衡性能与计算效率。

背景

  • 研究背景:注意力机制(channel/spatial attention)通过增强关键特征抑制噪声,显著提升计算机视觉任务性能,但现有方法难以高效融合两种注意力。

  • 过去方案

    • 混合式:GCNet/CBAM等融合双注意力但存在计算复杂度高、收敛困难问题;

    • 简化式:ECA-Net简化channel attention计算,SGE分组处理spatial attention,但均未充分利用双注意力协同效应。

  • 研究动机:基于ShuffleNet多分支并行与SGE分组策略,提出轻量化Shuffle Attention模块,通过分组特征与通道混洗实现高效双注意力融合,解决性能与计算效率的平衡问题。

方法

  • 理论背景
    基于注意力机制中channel attention与spatial attention的互补性,借鉴ShuffleNet的group convolution与channel shuffle思想,提出通过特征分组并行处理实现双注意力高效协同。理论核心在于:
    1) 分组特征可降低计算复杂度;
    2) 通道混洗(channel shuffle)能保持跨组信息交互;
    3) 并行分支结构可保留空间-通道注意力独立性。

  • 技术路线
    file
    1.模块输入与特征分组

  • 输入特征图:模块接收输入特征图 $X \in \mathbb{R}^{C \times H \times W}$ ,其中 $C$ 为通道数,$H \times W$ 为空间尺寸。

  • 分组策略:沿通道维度将 $X$ 划分为 $G$ 组(默认 $G=64$ ),每组子特征 $X_k \in \mathbb{R}^{C / G \times H \times W}$ 。

2.并行双分支注意力机制
每个子特征 $X_k$ 进一步拆分为两个分支(各 $C / 2 G$ 通道),分别处理通道注意力和空间注意力:
(a)通道注意力分支

  • 全局池化:通过全局平均池化(GAP)生成通道统计量 $s \in \mathbb{R}^{C / 2 G \times 1 \times 1}$ ,压缩空间信息)。
  • 自适应校准:使用可学习的缩放参数 $W_1$ 和偏置 $b_1$ 调整通道权重,通过Sigmoid激活生成注意力掩码。
  • 轻量化设计:相比SENet的FC层,参数量更少

(b)空间注意力分支

  • 归一化:对输入 $X_{k 2}$ 应用组归一化(Group Norm)[Wu and He(2018)[25]],稳定训练并增强空间分布一致性。
  • 空间权重生成:类似通道分支,通过可学习参数 $W_2$ 和 $b_2$ 生成空间注意力图。
  • 互补性:空间注意力聚焦“何处重要”,与通道注意力的“何通道重要”形成互补。

3.特征聚合与通道混洗

  • 分支拼接:将两个分支输出沿通道维度拼接为 $X_k^{\prime} \in \mathbb{R}^{C / G \times H \times W}$ 。
  • 跨组信息交互:通过通道混洗(Channel Shuffle)[详见ShuffleNet]打乱组间通道顺序,促进不同子特征间的信息流动(根据实验验证,混洗带来 $0.4 \%$ 精度提升)。

4. 模块输出与整体流程

  • 输出尺寸:最终输出与输入尺寸相同,可直接嵌入现有CNN架构(如ResNet)。
  • 效率对比:SA模块仅增加0.002M参数(ResNet50为例),FLOPs几乎不变,但Top-1精度提升1.34% [1, Table 1]。

结论

  • 提出轻量化Shuffle Attention(SA)模块,通过分组并行处理与通道混洗机制,在几乎不增加计算成本(仅2.76e-3 GFLOPs)的前提下,有效融合spatial/channel双注意力,显著提升CNN特征表达能力

  • 优点:
    1) 采用分组策略与Shuffle Unit实现计算高效性;
    2) 模块化设计兼容主流CNN架构;

  • 缺点:未讨论极端分组数(如G=1或G=C)对性能的影响

  • 主要结论:
    (1) SA模块通过分组特征→并行处理→通道混洗的三阶段设计,实现跨维度注意力协同;
    (2) 在ResNet50等基准模型上验证其有效性(Top-1准确率提升>1.34%),且参数量仅增加300;
    (3) 未来将扩展至ShuffleNet/SKNet等轻量化架构

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

作者

arwin.yu.98@gmail.com

相关文章

SimAM

基本信息 📰标题: SimAM: A Sim...

读出全部