基本信息

  • 📰标题: Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions

  • 🖋️作者: Wenhai Wang

  • 🏛️机构: Nanjing University(南京大学)

  • 🔗链接: GitHub

  • 🔥关键词: Pyramid Vision Transformer, Dense Prediction, Backbone, Convolution-free

摘要概述

项目 内容
📖研究背景 CNN骨干网络普遍采用金字塔结构处理密集预测任务,而ViT仅针对图像分类设计
🎯研究目的 将金字塔结构引入ViT,构建适用于多任务的通用卷积-free骨干网络
✍️研究方法 提出Pyramid Vision Transformer (PVT),融合CNN金字塔结构与Transformer编码器
🕊️研究对象 密集预测任务(如目标检测、实例/语义分割)
🔍研究结论 PVT显著扩展ViT应用范围,可与DETR结合构建端到端无卷积检测系统
⭐创新点 1) 首个金字塔式Transformer骨干网络 2) 兼容密集预测任务 3) 完全无卷积设计

背景

  • 研究背景
    CNN在计算机视觉领域占据主导地位,但存在局部感受野的固有局限。ViT虽在图像分类中表现优异,但其单尺度、低分辨率输出及高计算成本难以适配密集预测任务(如目标检测、分割)。

  • 过去方案

  1. CNN骨干网络(如ResNet、ResNeXt):依赖局部感受野,需手动设计锚框/NMS等组件;

  2. Transformer改进方案

    • 混合架构(如ViT+CNN):仍依赖卷积操作,非纯Transformer设计;

    • 原生ViT:因粗粒度图像分块(32×32像素)导致输出分辨率低,无法支持像素级预测。\
      核心问题:缺乏兼具金字塔结构、全局感受野与计算效率的纯Transformer骨干网络。

  • 研究动机
    构建首个完全无卷积的金字塔式Transformer骨干网络(PVT),通过细粒度分块(4×4像素)、渐进式金字塔缩减及空间缩减注意力(SRA),解决ViT在密集预测任务中的多尺度特征缺失与计算瓶颈,实现端到端无手工组件的检测系统(如PVT+DETR)。

方法

file
图1通过三栏对比了 CNN(ResNet)、 ViT 和 PVT 的结构差异:

1.CNN(左栏):

  • 展示ResNet的4阶段金字塔结构,每个阶段通过卷积 stride $=2$ 降采样。
  • 特征图尺寸从 $\frac{H}{4} \times \frac{W}{4}$ 逐步降至 $\frac{H}{32} \times \frac{W}{32}$ 。

2.ViT(中栏):

  • 单一尺度处理:输入图像被分为 $16 \times 16$ 的块,通过Transformer编码器后输出固定分辨率的序列。
  • 缺乏多尺度特征,需额外上采样才能用于密集预测任务。

3.PVT(右栏):

  • 类似CNN的4阶段金字塔结构,但用 Patch Embedding 和 Transformer Encoder 蒈代卷积。
  • 每个阶段标注了输出分辨率 $\left(\frac{H}{4}\right.$ 到 $\left.\frac{H}{32}\right)$ 和通道数 $\left(C_1\right.$ 到 $\left.C_4\right)$ 。

技术意义
1.多尺度能力:
PVT通过分阶段降采样保留金字塔结构,解决了ViT的单一尺度缺陷,可直接用于目标检测/分割。
2.纯Transformer设计:
与CNN不同,PVT完全依赖自注意力机制,避免了卷积的局部性限制[1,Sec.1]。
3.即插即用性:
图示表明PVT的输出格式与ResNet完全兼容(多尺度特征图),可直接替换CNN等骨干网络。

图3展示了PVT中 单个Transformer Encoder层 的详细结构,包含两个核心模块:

1.Spatial-Reduction Attention(SRA):

  • Query $(Q)$ 保持原始分辨率,与所有位置交互,保持了全局建模能力。
  • $\operatorname{Key}(K)$ 和 Value( $V$ )通过 空间缩减(SR)模块 降采样(标注了缩减比 $R$ )。
  • 注意力矩阵计算为 $\operatorname{Softmax}\left(Q K^T / \sqrt{d}\right) V$ ,但 $K, V$ 的分辨率降低至 $\frac{H}{R} \times \frac{W}{R}$ 。

2.前馈网络(FFN):
标准的两层MLP,中间扩展比为4(与ViT一致)。

file

SRA的核心动机
传统Transformer的多头自注意力(MSA)在视觉任务中面临两大问题:

  • 计算复杂度高:MSA对序列长度 $N=H \times W$ 的复杂度为 $O\left(N^2\right)$ ,高分辨率输入,计算资源消耗过大。

  • 空间信息冗余:相邻像素的Key/Value高度相似,直接计算全局注意力存在大量重复运算。

SRA的算法实现
SRA通过降采样Key/Value显著降低计算量,同时保留全局感受野。给定输入特征 $X \in \mathbb{R}^{H \times W \times C}$ ,SRA按以下步骤处理:

  1. 生成 $Q / K / V$ :
    。 $Q=X W_Q \in \mathbb{R}^{H \times W \times d_k} \quad$(保持原始分辨率)
    -$K, V$ 先通过 空间缩减(Spatial Reduction,SR)降采样:

$$
K_{\text {reduced }}=\operatorname{SR}\left(X W_K\right), \quad V_{\text {reduced }}=\operatorname{SR}\left(X W_V\right)
$$

2.计算注意力: $\operatorname{Attention}(Q, K, V)=\operatorname{Softmax}\left(\frac{Q K_{\text {reduced }}^T}{\sqrt{d_k}}\right) V_{\text {reduced }}$

空间缩减(SR)的数学表达

SR操作包含两步:

  • 均匀池化下采样:
    将 $K, V \in \mathbb{R}^{H \times W \times C}$ 按缩减比 $R$ 划分网格,每个 $R \times R$ 区域取均值或最大值:
    Reshape $(K) \in \mathbb{R}^{\frac{H}{R} \times R \times \frac{W}{R} \times R \times C} \rightarrow$ Pooling $\rightarrow \mathbb{R}^{\frac{H}{R} \times \frac{W}{R} \times C}$
  • 线性投影:
    通过可学习权重 $W_S \in \mathbb{R}^{C \times C^{\prime}}$ 调整维度: $\operatorname{SR}(K)=\operatorname{Norm(Reshape(K)W_{S})\text {(Norm通常为Layer}}$
    Normalization)

复杂度分析
-原始MSA:$O\left(N^2\right)=O\left((H W)^2\right)$
-SRA:$O\left(\frac{(H W)^2}{R^2}\right)$
例如当 $R=8$ 时,计算量降至 $1 / 64$ 。
(论文中PVT-Small的Stage 4设置 $R=8$ )

结论

  • 本研究提出了首个纯Transformer架构的金字塔骨干网络PVT,通过渐进式收缩金字塔和空间缩减注意力(SRA)机制,解决了ViT在密集预测任务中的多尺度特征缺失与计算瓶颈问题,为计算机视觉领域提供了CNN之外的替代性基础架构。

  • 优点

    1. 完全无卷积设计,实现端到端全局建模;

    2. 在参数量可比条件下性能超越主流CNN骨干(如ResNet);

    3. SRA机制显著降低计算复杂度(降至O(N²/R²))。

  • 主要结论

    1. PVT通过渐进式金字塔和SRA层,可在有限计算资源下生成高分辨率多尺度特征;
    2. 在目标检测和语义分割任务中,PVT性能优于同参数量CNN骨干;
    3. 作为Transformer在CV领域的早期探索,PVT为OCR、3D视觉和医学图像等方向提供了可扩展的基础框架。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

作者

arwin.yu.98@gmail.com

相关文章

SimAM

基本信息 📰标题: SimAM: A Sim...

读出全部

SANet

基本信息 📰标题: SA-NET: SHUF...

读出全部