Transformer处理视频,到底比CNN强在哪?从TimeSformer的五大实验结论说起
2026/6/8 19:00:09
Transformer 最近在各种视觉任务中表现出了卓越的性能 。庞大的、有时甚至是全局的感受野赋予了 Transformer 模型比其 CNN 竞争对手更高的表征能力 。然而,简单地扩大感受野也会引起一些担忧 。一方面,使用密集注意力(例如在 ViT 中)会导致过度的内存和计算开销,并且特征可能会受到利益区域之外不相关部分的影响 。另一方面,PVT 或 Swin Transformer 中采用的稀疏注意力是数据不可知的,可能会限制建模长程关系的能力 。
为了缓