自监督预训练实战指南：从对比学习到PyTorch实现-酒店常州论坛

1. 项目概述：自监督预训练到底是什么？

如果你在深度学习的圈子里待过一阵子，肯定对“预训练模型”这个词不陌生。从BERT、GPT系列在NLP领域大杀四方，到ResNet、ViT在计算机视觉里成为标配，预训练模型几乎成了我们解决新任务的起点。但今天我们不聊那些需要海量人工标注数据的“有监督预训练”，我们来聊聊一个更酷、更符合人类学习直觉的范式——自监督预训练。简单来说，它就是一种让模型自己给自己出题、自己找答案的学习方式，核心目标是从海量的、无标签的数据中，学习到数据本身内在的、通用的、高质量的特征表示。

为什么它如此重要？因为现实世界的数据，99%以上都是没有标签的。给图片打框、给文本分类，这些标注工作需要耗费巨大的人力成本和时间。自监督学习的魅力就在于，它能从这些“原始”数据中，自动挖掘出有用的信息。比如，给你一张图片，遮住其中一块，让模型预测被遮住的部分是什么；或者把一句话里的几个词挖掉，让模型根据上下文去填空。模型在完成这些“自创”任务的过程中，被迫去理解数据的内在结构和语义，从而学到了一种强大的“表示能力”。这种能力，就是我们常说的“预训练权重”，它可以被轻松地迁移到下游的具体任务上，比如图像分类、目标检测、情感分析，只需要少量的标注数据，就能取得非常好的效果。这就像是让模型先在一个巨大的、无监督的“通用大学”里完成了通识教育，具备了扎实的基础知识，然后再去某个具体的“专业学院”深造，学习效率自然高得多。

2. 自监督预训练的核心思想与优势

2.1 从“教”到“学”：范式转变

传统的监督学习，模型就像一个被填鸭式教育的学生，我们（标注者）手把手地告诉它：“这张图是猫，那张图是狗。” 模型的任务是记住这些“标准答案”和特征之间的映射关系。这种方式高度依赖标注质量，且学到的知识往往比较“狭隘”，换个任务可能就不灵了。

自监督学习则不同，它把模型变成了一个主动的探索者。我们不给它“答案”，而是给它设计一套“规则”或“游戏”。比如，在对比学习中，我们给模型看一张图片和它的各种数据增强版本（裁剪、旋转、调色等），告诉它：“这些是‘相似’的（正样本对）。” 再给它看另一张完全不同的图片，说：“这个和刚才那些是‘不相似’的（负样本）。” 模型的任务是学会把相似的样本在特征空间里拉近，把不相似的推远。在这个过程中，模型并没有被告知图片的类别，但它必须学会理解图片的语义内容，才能判断两张经过复杂变换的图片是否源自同一张原图。这种从数据自身创造监督信号的思想，是自监督学习的精髓。

2.2 核心优势：数据效率与泛化能力

自监督预训练的优势可以归结为两点：极高的数据利用效率和强大的特征泛化能力。

首先，它解放了对标注数据的依赖。我们可以利用互联网上几乎无限的无标签文本、图像、视频进行训练，极大地拓展了模型的“知识面”。像BERT、GPT-3这样的模型，都是在TB级别的文本语料上训练出来的，这是任何人工标注都无法企及的规模。

其次，它学到的特征表示更加本质和鲁棒。因为模型的任务是理解数据的内在结构（如图像的局部连续性、文本的语法语义），而不是死记硬背某个具体的标签。这使得预训练好的模型特征，对于下游任务的各种变化（如光照、角度、遮挡、同义词替换）具有更好的不变性。一个在ImageNet上通过监督学习预训练的ResNet，可能对没见过的新物体类别束手无策；但一个通过对比学习在更大规模无标签图片上预训练的模型，其学到的“边缘”、“纹理”、“物体部件”等通用特征，能更快地适应新类别的识别。

注意：自监督预训练的成功，高度依赖于“代理任务”的设计。设计得不好，模型可能学会一些“作弊”的捷径，比如通过图片边框的固定模式来判断是否来自同一张图，而没有真正理解内容。这是实践中需要重点规避的坑。

3. 主流自监督预训练方法深度解析

自监督学习领域百花齐放，但近年来有几个范式脱颖而出，成为了社区的主流选择。理解它们，是掌握自监督预训练的关键。

3.1 对比学习：在差异中学习相似

对比学习无疑是当前视觉自监督领域最火热的方向。它的核心思想可以用一句话概括：让模型学会区分“像”与“不像”。

核心流程：

数据增强：对同一张输入图片x，应用两次随机但独立的数据增强（如随机裁剪、颜色抖动、高斯模糊等），得到两个视图v1和v2。它们构成一个正样本对。
特征提取：用一个编码器网络（通常是ResNet或ViT）分别提取v1和v2的特征z1和z2。
对比损失：在一个批次（Batch）中，对于z1，z2是它唯一的正样本，批次内其他所有样本的特征（包括其他图片的增强视图）都是它的负样本。模型的目标是让z1和z2在特征空间里的距离（通常用余弦相似度衡量）尽可能近，而让z1与所有负样本的距离尽可能远。

常用的损失函数是NT-Xent（归一化温度缩放交叉熵损失）。SimCLR和MoCo是这一范式的两个经典代表。SimCLR结构简单，但需要非常大的批次大小来提供足够的负样本；MoCo则引入了“动量编码器”和“队列”机制，用动量更新的编码器来生成稳定的特征，并用一个先进先出的队列来存储历史负样本，从而在较小批次下也能获得大量负样本，大大降低了计算成本。

实操心得：数据增强的组合策略是对比学习成功的关键。在ImageNet上，随机裁剪+颜色抖动+高斯模糊的组合被证明非常有效。但在你的特定领域（如医学影像、卫星图片），你需要仔细设计或试验适合的数据增强方式，过于激进的增强可能会破坏关键的语义信息。

3.2 掩码建模：预测被隐藏的部分

掩码建模的思想来源于自然语言处理中的BERT。在CV领域，它的代表是MAE和SimMIM。

核心流程：

随机掩码：以一张图片为例，我们随机遮挡（Mask）掉其中很大一部分（例如75%）的像素块（Patch）。
编码与重建：将未被掩码的可见块送入一个编码器（如ViT），得到它们的特征表示。然后，一个轻量级的解码器根据这些特征，去预测被掩码掉的那些块的原始像素值（或经过归一化的值）。
重建损失：计算预测像素值与真实像素值之间的误差（如MSE损失）。

这个过程强迫编码器必须从有限的可见上下文中，推理出整体图像的语义和结构，从而学习到强大的表征。MAE之所以高效，是因为它只对可见块进行编码，大大减少了计算量，解码器也设计得很轻量，只在预训练时使用。

与对比学习的区别：对比学习是“判别式”的，它学习的是样本之间的相对关系。掩码建模是“生成式”的，它学习的是数据本身的分布和内部结构。生成式任务通常被认为能学到更丰富、更细致的特征。

3.3 基于蒸馏的架构：让“学生”模仿“教师”

这类方法的核心是构建一个“教师-学生”网络。教师网络通常是一个动量更新的、结构相同或更大的网络，它的参数更新缓慢而稳定。学生网络则需要快速学习。

以DINO和iBOT为例：

对同一张图片进行两种不同强度的数据增强，得到“全局视图”（如标准尺寸裁剪）和“局部视图”（如小尺寸随机裁剪）。
将全局视图输入教师网络，局部视图输入学生网络。
训练目标是让学生网络输出的特征分布，与教师网络输出的特征分布尽可能一致。这里使用的是一种“知识蒸馏”的思想，但教师网络的知识来源于数据本身，而非人工标签。

这种方法的好处是避免了显式地构造负样本对，简化了训练流程，并且在某些任务上表现出惊人的特性，比如无需任何微调就能实现图像分割。

4. 实战：使用PyTorch搭建一个简易的SimCLR框架

理解了原理，我们动手实现一个简化版的SimCLR，这是掌握自监督学习最好的方式。我们将使用PyTorch和Torchvision库。

4.1 环境准备与数据加载

首先，确保你的环境已安装PyTorch。我们将使用CIFAR-10数据集，因为它体积小，便于快速实验。

import torch import torch.nn as nn import torch.nn.functional as F import torchvision import torchvision.transforms as transforms from torch.utils.data import DataLoader import numpy as np # 定义SimCLR风格的数据增强 class SimCLRTransform: def __init__(self, size=32): self.transform = transforms.Compose([ transforms.RandomResizedCrop(size=size, scale=(0.08, 1.0)), # 随机裁剪并缩放到固定大小 transforms.RandomHorizontalFlip(p=0.5), # 随机水平翻转 transforms.RandomApply([transforms.ColorJitter(0.4, 0.4, 0.4, 0.1)], p=0.8), # 随机颜色抖动 transforms.RandomGrayscale(p=0.2), # 随机灰度化 transforms.GaussianBlur(kernel_size=int(0.1*size)+1), # 高斯模糊 transforms.ToTensor(), transforms.Normalize(mean=[0.4914, 0.4822, 0.4465], std=[0.2023, 0.1994, 0.2010]) # CIFAR-10的均值和标准差 ]) def __call__(self, x): return self.transform(x), self.transform(x) # 对同一张图片产生两个增强视图 # 加载CIFAR-10数据集（我们只使用图像，不关心标签） train_dataset = torchvision.datasets.CIFAR10(root='./data', train=True, download=True, transform=SimCLRTransform()) train_loader = DataLoader(train_dataset, batch_size=256, shuffle=True, num_workers=4, pin_memory=True)

4.2 构建编码器与投影头

编码器我们使用一个简单的ResNet-18（移除最后的全连接层）。SimCLR的关键在于一个“投影头”（Projection Head），它是一个小型MLP，将编码器输出的特征映射到一个更适合对比学习的低维空间。

import torchvision.models as models class SimCLR(nn.Module): def __init__(self, base_encoder, feature_dim=128): super(SimCLR, self).__init__() # 骨干网络：例如ResNet-18 self.encoder = base_encoder(pretrained=False) # 自监督训练，不从ImageNet预训练开始 self.encoder_dim = self.encoder.fc.in_features self.encoder.fc = nn.Identity() # 移除原始的分类头 # 投影头：一个两层的MLP self.projector = nn.Sequential( nn.Linear(self.encoder_dim, 512), nn.ReLU(), nn.Linear(512, feature_dim) ) def forward(self, x): # x: [batch_size, channels, height, width] h = self.encoder(x) # 提取特征，h的形状: [batch_size, encoder_dim] z = self.projector(h) # 投影到对比空间，z的形状: [batch_size, feature_dim] return F.normalize(z, dim=1) # 对特征进行L2归一化，方便计算余弦相似度 # 实例化模型 model = SimCLR(base_encoder=models.resnet18, feature_dim=128).cuda()

4.3 实现NT-Xent损失函数

这是对比学习的核心。我们需要计算一个批次内所有样本对之间的相似度，并构造损失。

class NTXentLoss(nn.Module): def __init__(self, temperature=0.5): super(NTXentLoss, self).__init__() self.temperature = temperature self.criterion = nn.CrossEntropyLoss(reduction="sum") self.similarity_f = nn.CosineSimilarity(dim=2) # 计算余弦相似度 def forward(self, z_i, z_j): """ z_i, z_j: 来自同一批图片的两个增强视图的特征，形状均为 [batch_size, feature_dim] 假设批次大小为N，则正样本对是 (z_i[k], z_j[k])， k=0...N-1 """ batch_size = z_i.shape[0] # 将两个视图的特征拼接起来，得到 [2*batch_size, feature_dim] z = torch.cat([z_i, z_j], dim=0) # 计算所有样本之间的相似度矩阵 [2N, 2N] sim = self.similarity_f(z.unsqueeze(1), z.unsqueeze(0)) / self.temperature # 构建标签：位置[i, i+N]和[i+N, i]是正样本对 (i from 0 to N-1) # 我们需要一个对角线为0的矩阵，并设置正样本位置 sim_i_j = torch.diag(sim, batch_size) # 取偏移为N的对角线，即z_i与z_j的相似度 sim_j_i = torch.diag(sim, -batch_size) # 取偏移为-N的对角线，即z_j与z_i的相似度 # 正样本对的相似度拼接 positive_samples = torch.cat([sim_i_j, sim_j_i], dim=0).reshape(2*batch_size, 1) # 对于每个样本，需要屏蔽掉它自身（在相似度矩阵中，自身相似度为1，是无效的负样本） mask = (~torch.eye(2*batch_size, dtype=torch.bool, device=z.device)).float() # 将正样本对的位置也屏蔽掉，不参与负样本计算（实际上在交叉熵损失中，标签会处理） # 但更常见的简化实现是：计算所有样本对的相似度作为logits，标签指定正样本位置。 # 更清晰的实现：构建logits和labels labels = torch.arange(batch_size, device=z.device).repeat(2) # [0,1,...,N-1,0,1,...,N-1] labels = (labels.unsqueeze(0) == labels.unsqueeze(1)).float() labels = labels / labels.sum(dim=1, keepdim=True) # 归一化，使得每个样本的正样本权重和为1（对于SimCLR，每个样本只有一个正样本，所以就是1） # 计算交叉熵损失 loss = self.criterion(sim, labels) loss = loss / (2 * batch_size) return loss # 实例化损失函数和优化器 criterion = NTXentLoss(temperature=0.5).cuda() optimizer = torch.optim.Adam(model.parameters(), lr=3e-4, weight_decay=1e-4)

4.4 训练循环

现在，我们可以开始训练了。

def train_one_epoch(model, train_loader, criterion, optimizer, epoch): model.train() total_loss = 0 for batch_idx, ((x_i, x_j), _) in enumerate(train_loader): # 忽略标签 x_i, x_j = x_i.cuda(), x_j.cuda() optimizer.zero_grad() z_i = model(x_i) # 视图1的特征 z_j = model(x_j) # 视图2的特征 loss = criterion(z_i, z_j) loss.backward() optimizer.step() total_loss += loss.item() if batch_idx % 50 == 0: print(f'Epoch: {epoch} [{batch_idx * len(x_i)}/{len(train_loader.dataset)}] Loss: {loss.item():.4f}') avg_loss = total_loss / len(train_loader) print(f'Epoch {epoch} Average Loss: {avg_loss:.4f}') return avg_loss # 训练多个epoch num_epochs = 100 for epoch in range(1, num_epochs+1): train_one_epoch(model, train_loader, criterion, optimizer, epoch) # 可以在这里添加学习率调度、模型保存等逻辑

提示：这是一个极度简化的示例，用于阐明流程。真实的SimCLR训练需要更大的批次（如4096）、更长的epoch、学习率warmup和余弦退火调度，并且通常在更大的数据集（如ImageNet）上进行。在CIFAR-10上，你可能需要调整数据增强强度、网络大小和训练时长才能看到明显的下游任务提升。

5. 下游任务迁移：如何利用预训练好的模型？

模型训练好了，我们得到了一个编码器（model.encoder），它现在应该能输出有意义的图像特征了。如何用它来解决实际问题，比如图像分类？

5.1 线性评估：检验特征质量的金标准

线性评估是自监督学习领域评估特征质量的常用方法。它的做法是：冻结预训练好的编码器的所有权重，只在它提取的特征后面，接一个全新的、可训练的分类器（通常就是一个线性层），然后在带标签的下游数据集（如CIFAR-10）上进行训练。

# 1. 加载预训练好的编码器权重（假设我们保存了最好的模型） checkpoint = torch.load('simclr_best.pth') model.load_state_dict(checkpoint['model_state_dict']) # 2. 冻结编码器参数 for param in model.encoder.parameters(): param.requires_grad = False # 3. 构建线性分类器 class LinearClassifier(nn.Module): def __init__(self, encoder, num_classes=10): super(LinearClassifier, self).__init__() self.encoder = encoder # 冻结的编码器 self.fc = nn.Linear(self.encoder.encoder_dim, num_classes) # 新的可训练线性层 def forward(self, x): with torch.no_grad(): # 编码器前向传播时不计算梯度 features = self.encoder(x) return self.fc(features) linear_model = LinearClassifier(model.encoder).cuda() # 4. 准备下游任务数据集（这里用CIFAR-10的标签） train_transform = transforms.Compose([ transforms.RandomCrop(32, padding=4), transforms.RandomHorizontalFlip(), transforms.ToTensor(), transforms.Normalize(mean=[0.4914, 0.4822, 0.4465], std=[0.2023, 0.1994, 0.2010]) ]) test_transform = transforms.Compose([ transforms.ToTensor(), transforms.Normalize(mean=[0.4914, 0.4822, 0.4465], std=[0.2023, 0.1994, 0.2010]) ]) train_dataset = torchvision.datasets.CIFAR10(root='./data', train=True, download=True, transform=train_transform) test_dataset = torchvision.datasets.CIFAR10(root='./data', train=False, download=True, transform=test_transform) train_loader = DataLoader(train_dataset, batch_size=256, shuffle=True, num_workers=4) test_loader = DataLoader(test_dataset, batch_size=256, shuffle=False, num_workers=4) # 5. 训练线性分类器 criterion = nn.CrossEntropyLoss() optimizer = torch.optim.Adam(linear_model.fc.parameters(), lr=0.01, weight_decay=1e-4) # 只优化线性层的参数 def train_linear(): linear_model.train() for epoch in range(50): for data, target in train_loader: data, target = data.cuda(), target.cuda() optimizer.zero_grad() output = linear_model(data) loss = criterion(output, target) loss.backward() optimizer.step() # 每个epoch后在测试集上验证 accuracy = evaluate(linear_model, test_loader) print(f'Linear Epoch {epoch}, Test Accuracy: {accuracy:.2f}%') def evaluate(model, loader): model.eval() correct = 0 total = 0 with torch.no_grad(): for data, target in loader: data, target = data.cuda(), target.cuda() output = model(data) pred = output.argmax(dim=1) correct += (pred == target).sum().item() total += target.size(0) return 100. * correct / total train_linear()

如果自监督预训练是成功的，这个简单的线性分类器应该能达到一个不错的准确率。这个准确率的高低，直接反映了预训练模型学到的特征表示的质量。

5.2 微调：更进一步适应下游任务

线性评估虽然能检验特征，但有时我们希望通过微调（Fine-tuning）获得更好的性能。即解冻编码器的全部或部分层（通常是后面的层），与新的分类头一起，用下游数据继续训练。

# 解冻所有参数，或仅解冻最后几层 for param in linear_model.encoder.parameters(): param.requires_grad = True # 解冻所有层 # 或者只解冻最后两层 # for name, param in linear_model.encoder.named_parameters(): # if 'layer4' in name or 'fc' in name: # 针对ResNet # param.requires_grad = True # 使用更小的学习率，因为模型已经有一个较好的初始点 optimizer = torch.optim.Adam(linear_model.parameters(), lr=1e-4, weight_decay=1e-4) # 然后重新训练

微调时学习率要设置得比从头训练小1到2个数量级，并且通常需要更少的训练轮次，以防止在小的下游数据集上过拟合。

6. 常见问题、调参技巧与避坑指南

自监督预训练是一个对超参数和实现细节非常敏感的过程。以下是我在实际项目中积累的一些经验。

6.1 训练不稳定或损失不下降

批次大小（Batch Size）：对于对比学习（如SimCLR），批次大小至关重要。它直接决定了负样本的数量。批次太小会导致负样本不足，模型难以学习。建议至少256，在条件允许的情况下越大越好（如1024， 4096）。如果GPU内存不足，可以考虑使用梯度累积来模拟大批次。
学习率（Learning Rate）：必须使用学习率热身（Warmup）和余弦退火（Cosine Annealing）。例如，在前10个epoch线性地将学习率从一个小值（如base_lr * batch_size / 256）增加到目标学习率，然后按照余弦函数衰减到0。
优化器（Optimizer）：LARS（Layer-wise Adaptive Rate Scaling）优化器在大批次训练中非常流行，它能根据每层权重的范数自适应地调整学习率，有助于稳定训练。对于小批次，Adam或AdamW通常是不错的选择。
梯度裁剪（Gradient Clipping）：当使用大批次和LARS时，梯度裁剪（如范数裁剪为1.0）可以帮助防止训练初期的不稳定。

6.2 下游任务性能不佳

数据增强不匹配：预训练时使用的数据增强策略，可能与下游任务的数据分布不兼容。例如，在医学影像上预训练时，如果使用了过于强烈的颜色抖动，可能会破坏病灶的颜色特征。下游任务微调时，需要仔细调整或减弱数据增强。
投影头（Projection Head）：在预训练时，我们使用投影头将特征映射到对比空间。但在迁移到下游任务时，这个投影头应该被丢弃，我们只使用编码器（encoder）输出的特征。因为投影头学到的表示是专门为对比任务优化的，可能对分类等任务不是最优的。
特征维度（Feature Dimension）：对比学习中的特征维度（如我们代码中的feature_dim=128）是一个超参数。太小可能信息不足，太大可能难以优化且容易过拟合。128或256是常见的起点。
温度参数τ（Temperature）：NT-Xent损失中的温度参数控制着对困难负样本的关注程度。τ值小，损失函数对相似度差异更敏感，会更多地惩罚那些与正样本很相似的负样本（困难负样本）。通常需要在0.05到0.5之间调优。

6.3 计算资源与效率优化

混合精度训练（AMP）：使用torch.cuda.amp可以显著减少GPU内存占用并加快训练速度，对于大规模自监督训练几乎是必备的。
分布式数据并行（DDP）：当单卡批次大小无法满足要求时，使用DDP进行多卡训练，将批次均匀分布到多张卡上，是扩大有效批次大小的标准做法。注意，在对比学习中，负样本通常只在同一进程（GPU）的批次内计算，跨进程的负样本需要额外的同步（如MoCo的队列机制）。
检查点（Checkpointing）：自监督训练通常周期很长，定期保存模型检查点和优化器状态是必须的，以防训练中断。

6.4 一个简易的调参检查清单

问题现象	可能原因	排查与解决方向
训练损失为NaN	学习率过高；数据中存在异常值（如NaN像素）；梯度爆炸	1. 降低学习率，并使用Warmup。 2. 检查数据预处理管道，确保输入数据正常。 3. 添加梯度裁剪（clip_grad_norm_）。
损失下降很慢，最终精度低	批次大小太小；数据增强太弱或太强；模型容量不足；温度参数τ不合适	1. 尽可能增大批次大小。 2. 调整数据增强组合和强度，参考成功论文的设置。 3. 尝试更大的编码器（如ResNet-50）。 4. 网格搜索温度参数τ。
线性评估精度尚可，但微调后反而下降	过拟合；学习率太大；下游任务数据太少	1. 对下游任务使用更强的数据增强和正则化（如Dropout， Label Smoothing）。 2. 大幅降低微调的学习率（如1e-4）。 3. 尝试只微调编码器的最后几层，而非全部。
不同随机种子下结果方差大	批次大小处于临界值；某些超参数（如τ）过于敏感	1. 确保批次大小足够大（>=256）。 2. 固定随机种子进行实验对比。 3. 报告多次运行的平均结果和标准差。

自监督预训练是一个充满挑战但也回报丰厚的领域。它要求我们对数据、模型和优化过程有更深入的理解。从简单的SimCLR开始，理解其每一个组件和超参数的影响，再逐步探索更复杂的MoCo、MAE、DINO等模型，是掌握这项技术的最佳路径。记住，成功的自监督学习，一半在于巧妙的算法设计，另一半则在于耐心和细致的工程实现。

企业官网建设流程全解析

1. 项目概述：自监督预训练到底是什么？

2. 自监督预训练的核心思想与优势

2.1 从“教”到“学”：范式转变

2.2 核心优势：数据效率与泛化能力

3. 主流自监督预训练方法深度解析

3.1 对比学习：在差异中学习相似

3.2 掩码建模：预测被隐藏的部分

3.3 基于蒸馏的架构：让“学生”模仿“教师”

4. 实战：使用PyTorch搭建一个简易的SimCLR框架

4.1 环境准备与数据加载

4.2 构建编码器与投影头

4.3 实现NT-Xent损失函数

4.4 训练循环

5. 下游任务迁移：如何利用预训练好的模型？

5.1 线性评估：检验特征质量的金标准

5.2 微调：更进一步适应下游任务

6. 常见问题、调参技巧与避坑指南

6.1 训练不稳定或损失不下降

6.2 下游任务性能不佳

6.3 计算资源与效率优化

6.4 一个简易的调参检查清单

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

1. 项目概述：自监督预训练到底是什么？

2. 自监督预训练的核心思想与优势

2.1 从“教”到“学”：范式转变

2.2 核心优势：数据效率与泛化能力

3. 主流自监督预训练方法深度解析

3.1 对比学习：在差异中学习相似

3.2 掩码建模：预测被隐藏的部分

3.3 基于蒸馏的架构：让“学生”模仿“教师”

4. 实战：使用PyTorch搭建一个简易的SimCLR框架

4.1 环境准备与数据加载

4.2 构建编码器与投影头

4.3 实现NT-Xent损失函数

4.4 训练循环

5. 下游任务迁移：如何利用预训练好的模型？

5.1 线性评估：检验特征质量的金标准

5.2 微调：更进一步适应下游任务

6. 常见问题、调参技巧与避坑指南

6.1 训练不稳定或损失不下降

6.2 下游任务性能不佳

6.3 计算资源与效率优化

6.4 一个简易的调参检查清单

热门文章

文章分类

标签云

相关文章

从一次应急响应看Juniper CVE-2023-36845：漏洞原理、利用痕迹与修复建议

Monorepo本质：语义一致性治理与规模化协作降熵

基于yolov5的森林火灾识别系统，基于深度学习的森林火灾检测系统，森林火灾识别系统。

需要专业的网站建设服务？