MKD学习报告
2026/6/2 6:14:00 网站建设 项目流程

作品全称: Masked Autoencoders Are Stronger Knowledge Distillers

模型简称: MKD

会议:ICCV2023

代码: 未开源


文章目录

  • 作品全称: Masked Autoencoders Are Stronger Knowledge Distillers
  • 模型简称: MKD
  • 会议:ICCV2023
  • 代码: 未开源
  • 一、研究所面向的问题
  • 二、MKD
    • (1)简单定义
    • (2)核心思想
    • (3)核心贡献
      • 1. 作者提出一种新的 feature-based distillation (基于特征蒸馏)范式 MKD,使用掩码自编码方案有效学习教师网络中的完整知识。MKD 遮挡输入图像的随机 patch,并通过强制学生模仿教师输出来恢复对应的 masked feature。
      • 2. 作者在 MKD 中引入 masked convolution 和 adaptive decoder,使该方法易于和不同架构、不同细粒度视觉任务(如目标检测和语义分割)结合。
      • 3. 大量模型和任务实验验证了方法有效性。对于不同学生架构和任务,MKD 能进一步提升 feature-based distillation 的性能,并建立新的 SOTA。
    • (4)掩码方法
    • (5)自适应解码器
      • 1. 通道对齐
      • 2. 空间对齐(SAM)
      • 3. 解码器
      • 4. 空间恢复模块(SRM)
    • (6). 蒸馏模块

一、研究所面向的问题

如果仅仅让学生简单学习教师,即教师特征中每个像素学生都不加分别的学习,会导致学生学到过多的冗余信息(大量相似信息)。


二、MKD

(1)简单定义

通过掩码自编码范式提升学生的知识学习

(2)核心思想

遮挡学生输入图像中的随机 patch,同时保持教师输入为完整图像;随后通过强制学生模仿教师输出,恢复对应的缺失特征。这样,学生网络会被鼓励在损坏输入图像的条件下预测被遮挡 patch,并学习遮挡区域与周围区域的关系,而不是简单模仿可见 patch 位置上的教师输出特征。

(3)核心贡献

1. 作者提出一种新的 feature-based distillation (基于特征蒸馏)范式 MKD,使用掩码自编码方案有效学习教师网络中的完整知识。MKD 遮挡输入图像的随机 patch,并通过强制学生模仿教师输出来恢复对应的 masked feature。

2. 作者在 MKD 中引入 masked convolution 和 adaptive decoder,使该方法易于和不同架构、不同细粒度视觉任务(如目标检测和语义分割)结合。

3. 大量模型和任务实验验证了方法有效性。对于不同学生架构和任务,MKD 能进一步提升 feature-based distillation 的性能,并建立新的 SOTA。

(4)掩码方法

  • 在patch粒度分辨率下生成一个空间大小与特征层空间大小(此时大小为patch粒度)相同的二值随机掩码图,然后通过不断上采样得到与每个阶段特征分辨率相同的二值掩码图,最终到原图大小的掩码图

  • 虽然论文主要强调他在原图进行掩码,但中间特征层在进行卷积运算时也要保持对应位置持续掩码,所以不同大小的二值掩码图在不同大小的特征图都要使用,对应位置在卷积之前都要先掩码再卷积

(5)自适应解码器

该编码器输入为多个不同空间大小的特征图,所以内部包括了很多的对齐工作,通道对齐以及空间对齐

1. 通道对齐

  • 通过一个1 × 1 1×11×1的卷积核把多尺度特征图( FPN )的通道扩大到与教师模型一致

2. 空间对齐(SAM)

  • 先确定最终对齐到多少的空间分辨率(文中为1 32 \frac{1}{32}321
  • 通过步长为p pp的卷积层或者以1 p \frac{1}{p}p1的因子对空间分辨率进行上采样来实现,其中p = H i H 32 = W i W 32 p = \frac{H_i}{\frac{H}{32}} = \frac{W_i}{\frac{W}{32}}p=32HHi=32WWi是相对于目标大小的倍数

3. 解码器

  • 为每一个特征尺度初始化一个mask token,一个特征中有多少掩码区就复制多少个mask token放在对应位置上等待学习
  • 给每个token加上位置编码
  • 反复送进Transformer Blocks重建特征

4. 空间恢复模块(SRM)

  • 先通过一个Linear使特征通道数变成p 2 × C i T p^2 \times C_i^Tp2×CiT(这里p 2 p^2p2可以理解为,每个通道的每个位置上存了p 2 p^2p2个信息)
  • 然后通过reshape把每个p 2 p^2p2展开,特征就恢复了原来的大小,就可以用来和教师特征做蒸馏了

(6). 蒸馏模块

  • 总蒸馏函数:
    L t o t a l = L t a s k + λ L f e a t + γ L g l o b a l \mathcal{L}_{total} = \mathcal{L}_{task} + λ\mathcal{L}_{feat} + γ\mathcal{L}_{global}Ltotal=Ltask+λLfeat+γLglobal其中,L t a s k L_{task}Ltask是目标检测损失,L f e a t L_{feat}Lfeat是MKD特征蒸馏损失,L g l o b a l L_{global}Lglobal是借鉴FGD方法的全局蒸馏损失,λ λλ,γ γγ是平衡蒸馏损失的权重。

  • MKD特征蒸馏损失:
    L f e a t = 1 2 N ∑ i = 0 P ( F i T − F ^ i S ) 2 \mathcal{L}_{feat}=\frac{1}{2N}\sum_{i=0}^\mathcal{P}(F_i^T-\hat{F}_i^S)^2Lfeat=2N1i=0P(FiTF^iS)2

  • FGD全局蒸馏损失:
    L g l o b a l = ∑ i = 0 P ( R ( F i T ) − R ( F ^ i S ) ) 2 \mathcal{L}_{global}=\sum_{i=0}^\mathcal{P}(R(F_i^T)-R(\hat{F}_i^S))^2Lglobal=i=0P(R(FiT)R(F^iS))2

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询