别再只盯着Softmax了：聊聊OOD检测里那些‘不务正业’的好方法-酒店常州论坛

跳出Softmax思维：OOD检测中的非典型技术路线探索

当我们在谈论分布外检测（OOD Detection）时，Softmax概率似乎已经成为默认的起点。但在这个充满不确定性的世界里，或许我们需要一些"离经叛道"的思考方式。本文将带您探索那些不依赖分类器输出的创新方法，它们正在重新定义我们对于异常识别的理解。

1. 生成模型：从数据重构中寻找异常信号

生成模型为OOD检测提供了一条完全不同的技术路径。与直接分析分类器输出不同，这类方法关注的是数据在潜在空间中的表示能力。

以变分自编码器（VAE）为例，其核心思想异常简单却强大：一个在ID数据上训练良好的生成模型，应该能够准确重构同类数据，而对OOD样本则会产生显著更高的重构误差。这种差异成为了天然的异常检测指标。

关键实现步骤：

使用ID数据训练VAE模型，确保其能够捕捉数据的关键特征
计算测试样本的重构误差：‖x - D(E(x))‖²
设置阈值判定OOD样本（重构误差高于阈值）

更进阶的方法会结合马氏距离（Mahalanobis Distance）来增强检测能力。例如，Improving reconstruction autoencoder out-of-distribution detection with mahalanobis distance一文提出的方法：

# 计算马氏距离示例 def mahalanobis_distance(z, mean, cov): delta = z - mean inv_cov = np.linalg.inv(cov) return np.sqrt(delta.T @ inv_cov @ delta)

这种方法在潜在空间中建立了ID数据的统计分布模型，任何偏离这个分布的数据点都会被标记为异常。实验表明，在CIFAR-10 vs SVHN的测试中，这种组合方法比单纯使用重构误差的AUROC提高了约8%。

注意：生成模型方法对ID数据的覆盖完整性非常敏感。如果训练数据不能充分代表ID分布，可能会导致大量假阳性。

2. 自监督学习：无标签环境下的异常检测革命

自监督学习方法彻底改变了我们获取数据表征的方式，也为OOD检测带来了全新的可能性。这类方法最大的优势在于它们完全不依赖于人工标注，仅通过数据自身的结构就能学习有效的表示。

2.1 对比移位实例（CSI）方法

CSI（Contrasting Shifted Instances）的创新之处在于它将样本不仅与其他实例对比，还与自身经过分布移位增强的版本对比。这种设计迫使模型学习对分布变化敏感的特征表示。

CSI训练流程：

对输入样本x应用多种分布移位变换（如颜色抖动、模糊等）
在特征空间中将原始样本与变换样本对比
优化目标是最小化同类样本间的距离，最大化不同样本间的距离

# CSI损失函数简化实现 def contrastive_loss(z_i, z_j, temperature=0.1): z_i = F.normalize(z_i, dim=1) z_j = F.normalize(z_j, dim=1) logits = torch.mm(z_i, z_j.T) / temperature labels = torch.arange(z_i.size(0)).to(device) loss = F.cross_entropy(logits, labels) return loss

2.2 自监督检测（SSD）方法

SSD（Self-Supervised Detection）则采用了不同的策略。它首先通过自监督预训练获得数据的通用表示，然后在特征空间中使用马氏距离进行异常检测。

方法	是否需要标签	检测依据	计算复杂度
CSI	否	对比得分	中
SSD	否	马氏距离	低

在实际应用中，这两种方法展现了惊人的效果。在ImageNet数据集上，CSI方法在检测TinyImageNet作为OOD数据时，达到了92.3%的AUROC，远超传统基于Softmax的方法。

3. 不确定性估计：超越概率输出的置信度建模

传统分类器输出的概率并不直接反映模型对预测结果的置信度。不确定性估计方法通过专门建模预测的可信程度，为OOD检测提供了另一条路径。

3.1 置信度分支网络

Learning Confidence for OOD Detection提出在分类网络中添加额外的置信度分支。这个分支不参与分类任务，而是专门学习预测当前输入的可靠性。

网络结构特点：

主分支：标准分类网络
辅助分支：小型网络，输出置信度得分c∈[0,1]
最终预测：softmax(p)*c

这种设计使得模型能够明确区分"我知道答案"和"我在猜测"两种情况。当面对OOD样本时，置信度分支会输出较低的值，即使主分类器可能产生高概率预测。

3.2 多语义标签表示

Multiple Semantic Label Representations方法则采用了完全不同的思路。它用多个词向量作为监督信号，取代传统的one-hot标签。

# 多语义标签表示示例 class MSLR(nn.Module): def __init__(self, num_classes, embedding_dim): super().__init__() self.embedding = nn.Embedding(num_classes, embedding_dim) self.regressors = nn.ModuleList([ nn.Linear(feature_dim, embedding_dim) for _ in range(num_heads) ]) def forward(self, x): features = self.backbone(x) outputs = [reg(features) for reg in self.regressors] return outputs

这种方法通过多个回归器预测目标标签的词向量表示，最终使用输出的L2范数作为OOD检测分数。实验表明，这种表示方式对分布变化更加敏感，能够更可靠地识别异常样本。

4. 特征空间分析：挖掘深度网络中的隐藏信号

深度神经网络的不同层会捕获不同抽象级别的特征。一些研究发现，这些中间特征往往包含着比最终分类概率更丰富的OOD检测信息。

4.1 OOD辨别层方法

OOD discernment layer提出了一种系统性的方法来识别最适合OOD检测的网络层。其核心步骤包括：

提取网络各层的特征表示
为每层训练一个一类SVM分类器
评估各分类器在验证集上的错误率
选择表现最好的层作为OOD检测依据

各层特征检测效果对比（CIFAR-10实验）

网络层	AUROC	错误率
conv1	0.782	0.211
conv3	0.853	0.148
fc1	0.921	0.079
fc2	0.895	0.105

结果显示，通常不是最深层，而是中间某层的特征对OOD样本最为敏感。这一发现挑战了"越深层特征越好"的传统认知。

4.2 特征聚类分析

另一种思路是分析测试样本在特征空间中的位置关系。ID数据往往会形成紧凑的聚类，而OOD样本则位于这些聚类之外。

实施步骤：

计算ID训练样本在特征空间中的聚类中心
对于测试样本，计算其到最近聚类中心的距离
基于距离分布设定阈值判定OOD

这种方法在计算效率上具有明显优势，特别适合需要实时检测的应用场景。在工业缺陷检测的实际案例中，基于特征聚类的方法比传统Softmax方法的推理速度快3-5倍，同时保持了相当的检测精度。

企业官网建设流程全解析

跳出Softmax思维：OOD检测中的非典型技术路线探索

1. 生成模型：从数据重构中寻找异常信号

2. 自监督学习：无标签环境下的异常检测革命

2.1 对比移位实例（CSI）方法

2.2 自监督检测（SSD）方法

3. 不确定性估计：超越概率输出的置信度建模

3.1 置信度分支网络

3.2 多语义标签表示

4. 特征空间分析：挖掘深度网络中的隐藏信号

4.1 OOD辨别层方法

4.2 特征聚类分析

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

跳出Softmax思维：OOD检测中的非典型技术路线探索

1. 生成模型：从数据重构中寻找异常信号

2. 自监督学习：无标签环境下的异常检测革命

2.1 对比移位实例（CSI）方法

2.2 自监督检测（SSD）方法

3. 不确定性估计：超越概率输出的置信度建模

3.1 置信度分支网络

3.2 多语义标签表示

4. 特征空间分析：挖掘深度网络中的隐藏信号

4.1 OOD辨别层方法

4.2 特征聚类分析

热门文章

文章分类

标签云

相关文章

MongoDB用户权限管理入门：除了root，你更应该知道如何创建只读和应用账号

告别SQL乱码！DataGrip 2024.1版超实用格式化模板，一键复制粘贴

LPC2387嵌入式开发实战：ARM7架构核心外设与工业应用解析

需要专业的网站建设服务？