原文信息:Tuntun Wang, Jincheng Zhou, Shuai Yuan, Shunchao Guo, Yuxin Jing. “Separate and Conquer: Cluster Infrared Small Target Label Generation With Boundary and Direction Sensitivity.” IEEE Transactions on Geoscience and Remote Sensing, 2026.
代码已开源:https://github.com/wangtuntun/BDSNet
1. 痛点:集群场景下,人工标注成本太高,现有方法“粘成一团”
红外小目标检测在无人机集群监控、海上搜救等场景中至关重要。但现有深度学习方法严重依赖像素级全标注掩码,标注成本极高。
更棘手的是,当目标以集群形式密集出现时,目标尺寸极小、间距极近、边缘高度模糊,现有标签生成方法(如EDGSP、LESPS、PAL、MCGC等)极易产生标签粘连,多个目标被合并成一个连通区域,导致下游检测模型无法准确区分邻近目标。
为此,作者团队提出了BDSNet,这是首个专门为集群红外小目标设计的标签生成框架。它仅需用户提供点标注(在目标上点击一下),就能自动生成高质量的像素级掩码,且能有效避免粘连。
2. 核心思想:“先分后治” + 边界与方向双管齐下
BDSNet的核心理念可以概括为:先分后治(Separate and Conquer)。
既然集群内目标容易粘连,那就先通过空间划分把每个目标的“地盘”圈定好,再在每个子区域内独立生长,最后进行形状精修。
基于这个思路,BDSNet设计了两个级联模块:
BRD模块(边界约束区域划分):负责“分地盘”,生成非重叠的粗糙标签。
MDP模块(多方向感知):负责“精修形状”,把粗糙的圆形标签修正为符合真实目标形状的多边形。
3. BRD模块:如何用Voronoi图“圈地盘”解决粘连问题
BRD模块解决的核心问题是:点标注 → 掩码的扩张过程中,如何不让相邻目标的扩张区域相互重叠?
作者的思路很巧妙:先聚类,再分区,最后膨胀。
Step 1:聚类(先分群)
基于点标注的坐标,利用密度聚类(DBSCAN)将属于同一集群的点聚为一类,得到多个独立的点簇。
Step 2:动态Voronoi图划分(分区)
传统做法是直接对整个图像做Voronoi划分。但作者发现,直接划分会导致外围目标区域被过度扩张,边界约束失效。
因此,作者提出DVDD(动态Voronoi图划分):
对每个聚类,计算其外接矩形,并基于簇内目标间距动态向外填充一个边界宽度。
在这个紧凑的外接边界内构建Voronoi图,为每个点分配一个独立的、紧凑的子区域。
这样,每个目标都被限制在一个“格子”里,从根源上杜绝了标签粘连。
Step 3:高斯平滑(点→面)
在每个子区域内,以点标注为中心进行高斯加权距离变换,再经过归一化和平滑,得到初始的粗糙圆形伪标签。
4. MDP模块:用“多方向感知”修正目标形状
BRD生成的标签是圆形的,但真实目标往往是沿某一方向拉伸的椭圆或不规则形状。MDP模块的任务就是:从灰度图中提取目标的真实方向特征,把圆形修正为正确的形状。
4.1 自适应特征提取(AFE)
传统Gabor滤波器能提取方向特征,但依赖人工预设参数,无法自适应。
作者提出卷积-Gabor融合策略:
用四个固定方向(0,45,90,135)的Gabor核生成方向注意力图。
将注意力图与可学习的卷积权重逐元素相乘,让网络自适应地调整各方向的响应强度。
通过Canny边缘检测,自适应计算Gabor滤波器的尺度参数 σ_θ。
4.2 自适应融合(AF)
从多个方向提取的特征如何融合?传统做法是直接拼接(Concat),但忽略了方向间的协同效应。
作者引入部分信息分解(PID)理论,将多方向信息分解为三类:
独特信息:每个方向独有的特征。
协同信息:多个方向共同提供的增益。
冗余信息:多个方向重复的部分。
然后,根据协同信息与冗余信息的差异计算动态融合权重w_θ,最终加权融合得到更准确的方向感知特征。
5. 损失函数:既要“不粘连”,又要“形状对”
为了引导模型学习,作者设计了两项专用损失函数:
方向感知边界损失(L_DAB):计算预测边缘与真实边缘之间的豪斯多夫距离,迫使模型沿正确方向调整形状。
重叠损失(L_O):显式惩罚不同目标预测掩码之间的重叠面积,进一步强化防粘连能力。
6. 实验结果:IoU提升至88.29%,近乎零虚警
作者在DenseSIRST(集群场景)和SIRST3(稀疏场景)两个数据集上进行了全面评估。
关键结论:
IRSTLG方法对比(表I):BDSNet在DenseSIRST上以88.29% IoU、89.36% F1、99.85% 检测率、仅0.71% 虚警率全面超越现有方法,包括之前最好的EDGSP(81.27% IoU)。
下游检测任务验证(表II):用BDSNet生成的伪标签训练主流IRSTD模型(如SCTransNet),平均IoU达到67.67%,仅比用全标注训练的模型(68.56%)低0.89%。这说明BDSNet生成的伪标签质量已接近人工精细标注。
消融实验(表III):BRD模块单独带来12.56% IoU提升,MDP模块单独带来8.53% IoU提升,两者结合后达到最佳。这证明了“先分地盘”+“后修形状”的设计是有效的。
可视化对比:BDSNet生成的伪标签边界清晰、无粘连,与Ground Truth高度吻合。相比之下,COM、MCGC、EDGSP等方法均出现不同程度的粘连或形状失真。
7. 总结与启发
BDSNet的贡献可以概括为三点:
首个面向集群红外小目标的标签生成框架,弥补了该领域的数据标注空白。
先分后治的策略,通过BRD模块的空间划分从根本上解决标签粘连问题。
多方向感知与PID融合,使形状修正更精确,生成接近人工质量的伪标签。
对研究者的启发:
当数据标注成本高昂时,可以借鉴BDSNet的思路,用点标注+半自动生成替代全标注。
“先分后治”的策略对于其他密集目标标注任务(如细胞分割、遥感目标检测)也有参考价值。