用PyTorch复现SRCNN：三行代码理解深度学习超分的起点（附完整训练脚本）-酒店常州论坛

用PyTorch复现SRCNN：三行代码理解深度学习超分的起点（附完整训练脚本）

当你第一次看到低分辨率的老照片时，是否想过用技术手段让它重获新生？这就是图像超分辨率技术的魅力所在。SRCNN作为深度学习在该领域的开山之作，用仅三层的卷积网络架构，开启了端到端学习的新范式。本文将带你从零开始，用PyTorch完整复现这一经典模型，通过代码级解析揭示其精妙设计。

1. 环境准备与数据加载

1.1 快速搭建PyTorch环境

推荐使用conda创建专属Python环境，避免依赖冲突：

conda create -n srcnn python=3.8 conda activate srcnn pip install torch torchvision pillow matplotlib

对于GPU加速用户，建议安装CUDA 11.3对应的PyTorch版本。可以通过nvidia-smi查看显卡驱动版本，然后到PyTorch官网获取对应安装命令。

1.2 数据集处理技巧

SRCNN原始论文使用91-image数据集，但我们可以用更易获取的DIV2K数据集：

from torchvision import transforms train_transform = transforms.Compose([ transforms.ToTensor(), transforms.Normalize(mean=[0.4488], std=[0.1953]) # 基于DIV2K的统计值 ]) class DIV2KDataset(Dataset): def __init__(self, hr_dir, scale=2): self.hr_images = [os.path.join(hr_dir, f) for f in os.listdir(hr_dir)] self.scale = scale self.transform = train_transform def __getitem__(self, idx): hr_img = Image.open(self.hr_images[idx]).convert('YCbCr') w, h = hr_img.size lr_img = hr_img.resize((w//self.scale, h//self.scale), Image.BICUBIC) lr_img = lr_img.resize((w, h), Image.BICUBIC) if self.transform: hr_img = self.transform(hr_img.split()[0]) # 仅使用Y通道 lr_img = self.transform(lr_img.split()[0]) return lr_img, hr_img

注意：Y通道包含主要的亮度信息，对视觉质量影响最大，因此超分任务通常只处理Y通道。

2. 模型架构深度解析

2.1 三卷积层的设计哲学

SRCNN的精妙之处在于用三个卷积层对应传统方法的三个阶段：

网络层	核尺寸	通道数	对应传统步骤
conv1	9×9	64	特征提取与表示
conv2	5×5	32	非线性特征映射
conv3	5×5	1	高分辨率重建

用PyTorch实现仅需15行代码：

import torch.nn as nn class SRCNN(nn.Module): def __init__(self, in_channels=1): super().__init__() self.feature_extraction = nn.Sequential( nn.Conv2d(in_channels, 64, 9, padding=4), nn.ReLU(inplace=True) ) self.nonlinear_mapping = nn.Sequential( nn.Conv2d(64, 32, 5, padding=2), nn.ReLU(inplace=True) ) self.reconstruction = nn.Conv2d(32, in_channels, 5, padding=2) def forward(self, x): x = self.feature_extraction(x) x = self.nonlinear_mapping(x) return self.reconstruction(x)

2.2 关键参数的选择依据

9×9大卷积核：第一层需要捕获足够大的感受野来提取patch特征
通道数递减：64→32→1的通道设计符合特征提取→映射→重建的信息流
无池化层：保持空间分辨率不降低，这对超分任务至关重要

3. 训练策略与调参技巧

3.1 损失函数的选择对比

在超分任务中，常用的损失函数有：

MSE（L2损失）：
```
criterion = nn.MSELoss()
```
- 优点：训练稳定，PSNR指标高
- 缺点：可能产生过度平滑的结果
MAE（L1损失）：
```
criterion = nn.L1Loss()
```
- 优点：保留更多高频细节
- 缺点：训练收敛较慢

感知损失（需预训练VGG）：

vgg = torchvision.models.vgg16(pretrained=True).features[:16] def perceptual_loss(pred, target): return F.mse_loss(vgg(pred), vgg(target))

3.2 学习率动态调整实战

采用分阶段学习率策略能显著提升模型性能：

optimizer = torch.optim.Adam(model.parameters(), lr=1e-4) scheduler = torch.optim.lr_scheduler.MultiStepLR( optimizer, milestones=[50, 100], gamma=0.1 ) for epoch in range(150): for lr, hr in dataloader: pred = model(lr) loss = criterion(pred, hr) optimizer.zero_grad() loss.backward() optimizer.step() scheduler.step() print(f'Epoch {epoch}: LR={scheduler.get_last_lr()[0]:.2e}')

提示：初始学习率设为1e-4，在50和100epoch时分别降低10倍

4. 结果可视化与性能评估

4.1 定量指标计算方法

除了常用的PSNR和SSIM，还可以计算：

def psnr(pred, target, max_val=1.0): mse = torch.mean((pred - target) ** 2) return 10 * torch.log10(max_val**2 / mse) def ssim(pred, target): # 使用官方实现或手动计算 return torchmetrics.functional.ssim(pred, target, data_range=1.0)

典型评估结果对比：

方法	Set5 PSNR	Set14 PSNR	参数量
Bicubic	28.42	26.00	-
SRCNN	30.48	27.50	57K
VDSR	31.35	28.02	665K

4.2 可视化对比技巧

使用matplotlib制作专业对比图：

def plot_comparison(lr, hr, pred): plt.figure(figsize=(12, 4)) plt.subplot(1, 3, 1) plt.imshow(lr[0].cpu().numpy(), cmap='gray') plt.title('Low Resolution') plt.subplot(1, 3, 2) plt.imshow(pred[0].detach().cpu().numpy(), cmap='gray') plt.title('SRCNN Output') plt.subplot(1, 3, 3) plt.imshow(hr[0].cpu().numpy(), cmap='gray') plt.title('Ground Truth') plt.show()

在实际测试中发现，SRCNN对文字和边缘的重建效果尤为突出，但在复杂纹理区域会出现轻微的模糊现象。这与其简单的网络结构有关，也启示我们可以在后续改进中增加网络深度或引入注意力机制。

企业官网建设流程全解析