ADVANCE Day38-酒店常州论坛

@浙大疏锦行

📘 Day 38 实战作业：数据流水线 —— Dataset 与 DataLoader

1. 作业综述

核心目标：

Dataset (厨师)：定义数据“长什么样”，负责从硬盘读出一个个样本，并进行预处理（切菜、洗菜）。
DataLoader (服务员)：负责把处理好的菜打包（Batching），打乱顺序（Shuffle），然后端给模型（GPU）。
实战对象：MNIST 手写数字数据集（60,000 张训练图，10,000 张测试图）。

涉及知识点：

Torchvision:datasets.MNIST,transforms.
核心类:torch.utils.data.Dataset(实现__len__,__getitem__)。
加载器:torch.utils.data.DataLoader(实现batch_size,num_workers)。

场景类比：

不使用 DataLoader: 像是吃自助餐，一次性把所有菜（数据）全拿盘子里，盘子（显存）装不下。
使用 DataLoader: 像是吃回转寿司，厨师（Dataset）不停做，传送带（DataLoader）一盘盘（Batch）送到你面前，吃完一盘来下一盘。

步骤 1：预处理与数据下载

场景描述：
原始图片是 0-255 的像素值（PIL Image 或 Numpy），但 PyTorch 模型只吃[0, 1] 之间的浮点 Tensor。
我们需要定义一个转换管道 (Transform Pipeline)。

任务：

定义transforms：转 Tensor + 归一化 (Normalize)。
下载 MNIST 数据集。

importtorchfromtorch.utils.dataimportDataLoaderfromtorchvisionimportdatasets,transformsimportmatplotlib.pyplotasplt# 1. 定义预处理管道# ToTensor: [0, 255] -> [0.0, 1.0] + 增加 Channel 维度 (1, 28, 28)# Normalize: (x - mean) / std。MNIST 的均值是 0.1307，标准差 0.3081transform=transforms.Compose([transforms.ToTensor(),transforms.Normalize((0.1307,),(0.3081,))])print("📥 正在下载/加载数据集...")# 2. 加载数据集 (Dataset)# root: 存放路径# train: True=训练集, False=测试集# download: 没有就自动下载train_dataset=datasets.MNIST(root='./data',train=True,download=True,transform=transform)test_dataset=datasets.MNIST(root='./data',train=False,download=True,transform=transform)print(f"✅ 训练集大小:{len(train_dataset)}")print(f"✅ 测试集大小:{len(test_dataset)}")

📥 正在下载/加载数据集... 100%|██████████| 9.91M/9.91M [00:18<00:00, 535kB/s] 100%|██████████| 28.9k/28.9k [00:00<00:00, 167kB/s] 100%|██████████| 1.65M/1.65M [00:01<00:00, 1.52MB/s] 100%|██████████| 4.54k/4.54k [00:00<00:00, 1.73MB/s] ✅ 训练集大小: 60000 ✅ 测试集大小: 10000

步骤 2：深入 Dataset (厨师的手艺)

核心原理：
train_dataset本质上是一个对象，它实现了两个魔术方法：

__len__: 告诉我一共多少道菜。
__getitem__(index): 给我做第 index 道菜。

任务：

手动调用train_dataset[0]，看看拿出来的是什么。
将拿出来的 Tensor 还原成图片进行可视化。

# --- 1. 像访问列表一样访问数据集 ---# 这会自动触发 __getitem__ 方法image,label=train_dataset[0]print(f"样本形状:{image.shape}")# (Channels, Height, Width) -> (1, 28, 28)print(f"样本标签:{label}")# 数字 5# --- 2. 可视化检查 ---defshow_img(img,lbl):# 反归一化 (为了显示正常，虽然不做也能看个大概)img=img*0.3081+0.1307# 转换维度: PyTorch (C, H, W) -> Matplotlib (H, W)# squeeze() 去掉维度为 1 的通道np_img=img.squeeze().numpy()plt.imshow(np_img,cmap='gray')plt.title(f"Label:{lbl}")plt.axis('off')plt.show()show_img(image,label)

样本形状: torch.Size([1, 28, 28]) 样本标签: 5

步骤 3：组装 DataLoader (传菜员)

核心原理：
Dataset 只能一个一个拿数据。DataLoader 负责：

Batching: 把 64 个样本打包成一个大 Tensor (64, 1, 28, 28)。
Shuffling: 打乱顺序，防止模型记住“先是0后是1”。
Multiprocessing: 多进程并行读取（num_workers），利用 CPU 多核加速。

任务：
实例化train_loader和test_loader。

# 定义批次大小BATCH_SIZE=64# 1. 训练加载器 (需要打乱)train_loader=DataLoader(dataset=train_dataset,batch_size=BATCH_SIZE,shuffle=True,# 重点：训练时必须打乱num_workers=0# Windows 下建议设为 0 (主进程)，Linux 可设为 4)# 2. 测试加载器 (不需要打乱)test_loader=DataLoader(dataset=test_dataset,batch_size=1000,# 测试时显存允许可以大一点shuffle=False)print(f"📦 Train Loader 共有{len(train_loader)}个 Batches")# 60000 / 64 ≈ 938

📦 Train Loader 共有 938 个 Batches

步骤 4：模拟训练迭代 (上菜啦！)

场景描述：
在真正的训练循环中，我们不需要手动getitem。
只需要写for data, target in train_loader:，DataLoader 就会源源不断地送数据出来。

任务：
从 DataLoader 中取出一个 Batch，查看其形状。

# 从 Loader 中获取第一个 Batch# iter() 转为迭代器，next() 取下一个data_batch,label_batch=next(iter(train_loader))print("=== 🎁 一个 Batch 的数据结构 ===")print(f"Data Batch Shape :{data_batch.shape}")# 预期: [64, 1, 28, 28] -> [Batch Size, Channel, Height, Width]print(f"Label Batch Shape:{label_batch.shape}")# 预期: [64]print("\n=== 🏷️ 这个 Batch 里的前 10 个标签 ===")print(label_batch[:10])# 可视化 Batch 里的第一张图show_img(data_batch[0],label_batch[0])

=== 🎁 一个 Batch 的数据结构 === Data Batch Shape : torch.Size([64, 1, 28, 28]) Label Batch Shape: torch.Size([64]) === 🏷️ 这个 Batch 里的前 10 个标签 === tensor([0, 0, 2, 1, 9, 5, 0, 9, 1, 4])

🎓 Day 38 总结：大数据处理的基石

今天我们掌握了深度学习数据流的标准范式：

Dataset (数据源)：
- 必须实现__len__和__getitem__。
- 负责处理单个样本。
Transforms (预处理)：
- 负责张量转换、归一化、数据增强。
DataLoader (调度器)：
- 负责批量读取 (Batching)和乱序 (Shuffling)。
- 这是 GPU 能够高效吃数据的关键。

Dataset vs DataLoader 对照表：

特性	Dataset	DataLoader
关注点	单个样本 (Item)	一批样本 (Batch)
操作	读取文件、预处理	打包、打乱、多进程
角色	仓库管理员/厨师	物流车队/传菜员

Next Level:
有了数据加载器，明天（Day 39），我们终于可以构建一个真正的卷积神经网络 (CNN)，来识别这些手写数字了！

企业官网建设流程全解析

📘 Day 38 实战作业：数据流水线 —— Dataset 与 DataLoader

1. 作业综述

步骤 1：预处理与数据下载

步骤 2：深入 Dataset (厨师的手艺)

步骤 3：组装 DataLoader (传菜员)

步骤 4：模拟训练迭代 (上菜啦！)

🎓 Day 38 总结：大数据处理的基石

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

📘 Day 38 实战作业：数据流水线 —— Dataset 与 DataLoader

1. 作业综述

步骤 1：预处理与数据下载

步骤 2：深入 Dataset (厨师的手艺)

步骤 3：组装 DataLoader (传菜员)

步骤 4：模拟训练迭代 (上菜啦！)

🎓 Day 38 总结：大数据处理的基石

热门文章

文章分类

标签云

相关文章

需要专业的网站建设服务？