MKD学习报告-酒店常州论坛

作品全称： Masked Autoencoders Are Stronger Knowledge Distillers

模型简称： MKD

会议：ICCV2023

代码：未开源

文章目录

作品全称： Masked Autoencoders Are Stronger Knowledge Distillers
模型简称： MKD
会议：ICCV2023
代码：未开源
一、研究所面向的问题
二、MKD
- （1）简单定义
- （2）核心思想
- （3）核心贡献
- - 1. 作者提出一种新的 feature-based distillation (基于特征蒸馏）范式 MKD，使用掩码自编码方案有效学习教师网络中的完整知识。MKD 遮挡输入图像的随机 patch，并通过强制学生模仿教师输出来恢复对应的 masked feature。
  - 2. 作者在 MKD 中引入 masked convolution 和 adaptive decoder，使该方法易于和不同架构、不同细粒度视觉任务（如目标检测和语义分割）结合。
  - 3. 大量模型和任务实验验证了方法有效性。对于不同学生架构和任务，MKD 能进一步提升 feature-based distillation 的性能，并建立新的 SOTA。
- （4）掩码方法
- （5）自适应解码器
- - 1. 通道对齐
  - 2. 空间对齐（SAM）
  - 3. 解码器
  - 4. 空间恢复模块（SRM）
- (6). 蒸馏模块

一、研究所面向的问题

如果仅仅让学生简单学习教师，即教师特征中每个像素学生都不加分别的学习，会导致学生学到过多的冗余信息（大量相似信息）。

二、MKD

（1）简单定义

通过掩码自编码范式提升学生的知识学习

（2）核心思想

遮挡学生输入图像中的随机 patch，同时保持教师输入为完整图像；随后通过强制学生模仿教师输出，恢复对应的缺失特征。这样，学生网络会被鼓励在损坏输入图像的条件下预测被遮挡 patch，并学习遮挡区域与周围区域的关系，而不是简单模仿可见 patch 位置上的教师输出特征。

（3）核心贡献

1. 作者提出一种新的 feature-based distillation (基于特征蒸馏）范式 MKD，使用掩码自编码方案有效学习教师网络中的完整知识。MKD 遮挡输入图像的随机 patch，并通过强制学生模仿教师输出来恢复对应的 masked feature。

2. 作者在 MKD 中引入 masked convolution 和 adaptive decoder，使该方法易于和不同架构、不同细粒度视觉任务（如目标检测和语义分割）结合。

3. 大量模型和任务实验验证了方法有效性。对于不同学生架构和任务，MKD 能进一步提升 feature-based distillation 的性能，并建立新的 SOTA。

（4）掩码方法

在patch粒度分辨率下生成一个空间大小与特征层空间大小（此时大小为patch粒度）相同的二值随机掩码图，然后通过不断上采样得到与每个阶段特征分辨率相同的二值掩码图，最终到原图大小的掩码图
虽然论文主要强调他在原图进行掩码，但中间特征层在进行卷积运算时也要保持对应位置持续掩码，所以不同大小的二值掩码图在不同大小的特征图都要使用，对应位置在卷积之前都要先掩码再卷积

（5）自适应解码器

该编码器输入为多个不同空间大小的特征图，所以内部包括了很多的对齐工作，通道对齐以及空间对齐

1. 通道对齐

通过一个1 × 1 1×11×1的卷积核把多尺度特征图（ FPN ）的通道扩大到与教师模型一致

2. 空间对齐（SAM）

先确定最终对齐到多少的空间分辨率（文中为1 32 \frac{1}{32}321）
通过步长为p pp的卷积层或者以1 p \frac{1}{p}p1的因子对空间分辨率进行上采样来实现，其中p = H i H 32 = W i W 32 p = \frac{H_i}{\frac{H}{32}} = \frac{W_i}{\frac{W}{32}}p=32HHi=32WWi是相对于目标大小的倍数

3. 解码器

为每一个特征尺度初始化一个mask token，一个特征中有多少掩码区就复制多少个mask token放在对应位置上等待学习
给每个token加上位置编码
反复送进Transformer Blocks重建特征

4. 空间恢复模块（SRM）

先通过一个Linear使特征通道数变成p 2 × C i T p^2 \times C_i^Tp2×CiT（这里p 2 p^2p2可以理解为，每个通道的每个位置上存了p 2 p^2p2个信息）
然后通过reshape把每个p 2 p^2p2展开，特征就恢复了原来的大小，就可以用来和教师特征做蒸馏了

(6). 蒸馏模块

总蒸馏函数：
L t o t a l = L t a s k + λ L f e a t + γ L g l o b a l \mathcal{L}_{total} = \mathcal{L}_{task} + λ\mathcal{L}_{feat} + γ\mathcal{L}_{global}Ltotal=Ltask+λLfeat+γLglobal其中，L t a s k L_{task}Ltask是目标检测损失，L f e a t L_{feat}Lfeat是MKD特征蒸馏损失，L g l o b a l L_{global}Lglobal是借鉴FGD方法的全局蒸馏损失，λ λλ,γ γγ是平衡蒸馏损失的权重。
MKD特征蒸馏损失：
L f e a t = 1 2 N ∑ i = 0 P ( F i T − F ^ i S ) 2 \mathcal{L}_{feat}=\frac{1}{2N}\sum_{i=0}^\mathcal{P}(F_i^T-\hat{F}_i^S)^2Lfeat=2N1i=0∑P(FiT−F^iS)2
FGD全局蒸馏损失：
L g l o b a l = ∑ i = 0 P ( R ( F i T ) − R ( F ^ i S ) ) 2 \mathcal{L}_{global}=\sum_{i=0}^\mathcal{P}(R(F_i^T)-R(\hat{F}_i^S))^2Lglobal=i=0∑P(R(FiT)−R(F^iS))2

企业官网建设流程全解析

作品全称： Masked Autoencoders Are Stronger Knowledge Distillers

模型简称： MKD

会议：ICCV2023

代码：未开源

文章目录

一、研究所面向的问题

二、MKD

（1）简单定义

（2）核心思想

（3）核心贡献

1. 作者提出一种新的 feature-based distillation (基于特征蒸馏）范式 MKD，使用掩码自编码方案有效学习教师网络中的完整知识。MKD 遮挡输入图像的随机 patch，并通过强制学生模仿教师输出来恢复对应的 masked feature。

2. 作者在 MKD 中引入 masked convolution 和 adaptive decoder，使该方法易于和不同架构、不同细粒度视觉任务（如目标检测和语义分割）结合。

3. 大量模型和任务实验验证了方法有效性。对于不同学生架构和任务，MKD 能进一步提升 feature-based distillation 的性能，并建立新的 SOTA。

（4）掩码方法

（5）自适应解码器

1. 通道对齐

2. 空间对齐（SAM）

3. 解码器

4. 空间恢复模块（SRM）

(6). 蒸馏模块

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

作品全称： Masked Autoencoders Are Stronger Knowledge Distillers

模型简称： MKD

会议：ICCV2023

代码： 未开源

文章目录

一、研究所面向的问题

二、MKD

（1）简单定义

（2）核心思想

（3）核心贡献

1. 作者提出一种新的 feature-based distillation (基于特征蒸馏）范式 MKD，使用掩码自编码方案有效学习教师网络中的完整知识。MKD 遮挡输入图像的随机 patch，并通过强制学生模仿教师输出来恢复对应的 masked feature。

2. 作者在 MKD 中引入 masked convolution 和 adaptive decoder，使该方法易于和不同架构、不同细粒度视觉任务（如目标检测和语义分割）结合。

3. 大量模型和任务实验验证了方法有效性。对于不同学生架构和任务，MKD 能进一步提升 feature-based distillation 的性能，并建立新的 SOTA。

（4）掩码方法

（5）自适应解码器

1. 通道对齐

2. 空间对齐（SAM）

3. 解码器

4. 空间恢复模块（SRM）

(6). 蒸馏模块

热门文章

文章分类

标签云

相关文章

Pinia 对比 Vuex 优势

大模型自动化领域自适应：从通用到专业的低成本迁移方案

UE5新手避坑指南：手把手教你开启Lumen全局光照，告别漫长的光照烘焙

需要专业的网站建设服务？

代码：未开源