MAGE图像恢复/生成-酒店常州论坛

项目背景与概述

GitHub 仓库https://github.com/LTH14/mage/tree/main是 MAGE（Masked Generative Encoder）的 PyTorch/GPU 实现版本，其核心目标是构建一个统一的框架，同时实现高效的生成式建模（Image Synthesis）和表示学习（Representation Learning）。该项目源自 CVPR 2023 收录的论文《MAGE: MAsked Generative Encoder to Unify Representation Learning and Image Synthesis》，原实现基于 JAX/TPU，本仓库则提供了更易被广泛使用的 PyTorch/GPU 版本。

MAGE 的创新性在于打破了传统生成模型与判别模型（或表示学习模型）之间的壁垒。在过去的计算机视觉研究中，生成模型（如 GAN、VQGAN）主要专注于图像合成能力，而表示学习模型（如 ViT、ResNet）则侧重提取图像的语义特征用于分类等下游任务。MAGE 通过设计一种带掩码的生成式编码器结构，实现了 “一石二鸟” 的效果：在 ImageNet-1K 数据集上，既在无类别图像生成任务中取得了 state-of-the-art（SOTA）的 FID（Fréchet Inception Distance）和 IS（Inception Score）指标，又在线性探测（Linear Probing）和微调（Fine-tuning）任务中达到了顶尖的分类准确率。

该仓库的代码大量借鉴了 Facebook 研究团队的 MAE（Masked Autoencoder for Visual Recognition）和 CompVis 的 VQGAN（Vector Quantized Generative Adversarial Networks），结合两者的优势形成了独特的技术路径。

MAGE 的核心原理

1. 整体架构设计

MAGE 的核心思想是通过 “掩码生成式编码” 实现生成任务与表示学习的统一。其整体架构可分为三个关键模块：VQGAN tokenizer、掩码机制（Masking Strategy）、Transformer 编码器 - 解码器结构。

（1）VQGAN 作为图像 Tokenizer

MAGE 首先利用 VQGAN 将输入图像转换为离散的 “视觉 token”，这一步骤是连接图像原始像素与模型可处理符号的关键。VQGAN 由编码器、量化器（Vector Quantizer）和解码器组成：

编码器将输入图像（如 256×256 像素）压缩为低维特征映射（如 16×16 分辨率）；
量化器将连续的特征向量映射到离散的代码本（Codebook）中，每个特征向量被替换为代码本中最相似的向量，从而生成离散 token；
解码器则负责将离散 token 重建为原始图像。

在 MAGE 中，VQGAN 被预训练并冻结参数，仅作为图像的 “token 化工具”。代码中通过taming.models.vqgan.VQModel实现，配置文件为config/vqgan.yaml，预训练权重需单独下载（如vqgan_jax_strongaug.ckpt）。这种设计的优势在于：

离散 token 降低了模型处理的复杂度，将图像从高维像素空间转换为低维符号空间；
代码本的离散性使得生成任务可转化为序列预测问题，便于结合 Transformer 等序列模型。

（2）掩码机制：动态随机掩码

MAGE 借鉴了 MAE 的掩码思想，但对掩码策略进行了改进，使其更适合生成任务。与 MAE 固定掩码比例（如 75%）不同，MAGE 采用动态掩码比例，其掩码比例服从截断正态分布（Truncated Normal Distribution）：

范围：mask_ratio_min=0.5至mask_ratio_max=1.0；
峰值（均值）：mask_ratio_mu=0.55；
标准差：mask_ratio_std=0.25。

这种设计的目的是让模型在训练中接触到不同程度的掩码情况，既学习恢复少量掩码的细节（类似表示学习），也学习从极少信息中生成完整图像（类似生成建模）。代码中通过scipy.stats.truncnorm实现掩码比例的采样：

self.mask_ratio_generator = stats.truncnorm( (mask_ratio_min - mask_ratio_mu) / mask_ratio_std, (mask_ratio_max - mask_ratio_mu) / mask_ratio_std, loc=mask_ratio_mu, scale=mask_ratio_std )

掩码过程具体为：对 VQGAN 生成的离散 token 进行随机掩码，被掩码的位置替换为特殊的 “掩码 token”（mask_token_label），然后将包含掩码的 token 序列输入 Transformer 编码器。

（3）Transformer 编码器 - 解码器结构

MAGE 的主体是一个 Transformer 模型，包含编码器（Encoder）和解码器（Decoder）：

编码器：接收带掩码的 token 序列（包含未掩码 token 和掩码 token），输出上下文感知的特征表示。其输入通过BertEmbeddings模块处理，包含 token 嵌入（word_embeddings）和位置嵌入（position_embeddings），与 BERT 的文本嵌入方式类似。编码器的输出既用于表示学习（如提取图像特征用于分类），也作为解码器的输入。
解码器：以编码器的输出为条件，预测被掩码的 token。解码器包含一个额外的 “掩码 token 嵌入”（mask_token），用于在解码过程中填充掩码位置。解码器的最终输出通过MlmLayer（Masked Language Model 层）映射回代码本空间，通过交叉熵损失（带标签平滑的LabelSmoothingCrossEntropy）优化预测结果。

代码中，MaskedGenerativeEncoderViT类实现了这一结构，其中编码器的深度（depth）、注意力头数（num_heads）等参数可配置（如 ViT-Base 为 12 层、12 头，ViT-Large 为 24 层、16 头）。

（4）损失函数设计

MAGE 的损失函数主要针对掩码 token 的预测任务：

对被掩码的 token，通过MlmLayer计算预测概率与真实 token 的交叉熵损失；
采用标签平滑（Label Smoothing）策略（平滑系数 0.1），减少模型对错误标签的过拟合，提高泛化能力。

这种损失设计使得模型在训练过程中同时优化两个目标：

学习图像的语义表示（通过编码未掩码 token 理解图像内容）；
学习生成完整图像（通过预测掩码 token 恢复图像全局结构）。

2. 表示学习与生成任务的统一

MAGE 之所以能同时胜任表示学习和生成任务，核心在于其 “双向学习” 机制：

表示学习能力：编码器在处理未掩码 token 时，会学习图像的局部与全局语义特征。这些特征可直接用于下游任务（如线性探测分类），无需解码器参与。代码中VisionTransformerMage类实现了仅用编码器进行特征提取的功能，通过forward_features方法返回图像的全局特征（outcome = x[:, 0]或全局平均池化结果）。
生成任务能力：解码器在编码器输出的基础上预测掩码 token，进而通过 VQGAN 解码器重建完整图像。生成过程可通过gen_img_uncond.py脚本实现，通过迭代优化掩码 token 的预测结果，逐步生成高质量图像。

MAGE 的性能与功效

1. 核心性能指标

根据 README 中的实验结果，MAGE 在 ImageNet-1K 上的表现如下：

模型	无类别生成 FID	无类别生成 IS	线性探测 Top-1 准确率	微调 Top-1 准确率
ViT-Base	11.1	81.2	74.7%	82.5%
ViT-Large	9.10	105.1	78.9%	83.9%

FID（Fréchet Inception Distance）：衡量生成图像与真实图像分布的相似度，值越小越好。MAGE 的 ViT-Large 模型达到 9.10，优于多数无类别生成模型。
IS（Inception Score）：衡量生成图像的质量和多样性，值越大越好。ViT-Large 模型的 105.1 表明其生成图像质量高且多样。
线性探测准确率：直接使用编码器特征训练线性分类器，反映特征的语义区分能力。78.9% 的成绩接近专门为分类设计的模型。
微调准确率：对整个模型微调后，ViT-Large 达到 83.9%，接近 SOTA 分类模型的性能。

这些指标证明 MAGE 成功实现了 “生成” 与 “表示” 的双重优势，打破了传统模型 “专精一域” 的局限。

2. 与现有技术的对比优势

对比 MAE：MAE 专注于表示学习，通过掩码重建像素实现特征提取，但缺乏生成能力；MAGE 则通过离散 token 重建实现生成功能，同时保留了高效的表示学习能力。
对比 VQGAN：VQGAN 擅长生成高分辨率图像，但需要额外的自回归模型（如 GPT）进行序列预测，且无法直接用于表示学习；MAGE 则将编码器与解码器整合，一步实现生成与特征提取。
对比 GAN：GAN 生成图像质量高，但训练不稳定且难以提取可迁移的特征；MAGE 训练更稳定，且特征可直接用于下游任务。

MAGE 的运用场景

1. 无类别图像生成

MAGE 可直接用于无类别图像生成任务，生成多样化的自然图像（如动物、植物、场景等）。通过gen_img_uncond.py脚本，用户可指定生成图像的数量、温度参数（--temp，控制生成多样性）和迭代次数（--num_iter，控制生成质量）：

python gen_img_uncond.py --temp 6.0 --num_iter 20 \ --ckpt ${PRETRAIN_CHKPT} --batch_size 32 --num_images 50000 \ --model mage_vit_base_patch16 --output_dir ${OUTPUT_DIR}

生成的图像可用于数据增强（扩充训练集）、艺术创作、游戏素材生成等场景。例如，在数据稀缺的医学影像领域，可生成模拟病例图像辅助模型训练；在设计领域，可快速生成多样化的产品原型图。

2. 表示学习与下游分类任务

MAGE 的编码器提取的特征具有强语义性，可直接用于下游分类任务，无需从头训练模型：

线性探测：固定编码器参数，仅训练一个线性分类器。脚本main_linprobe.py实现了这一功能，适用于资源有限的场景：

python -m torch.distributed.launch --nproc_per_node=8 \ main_linprobe.py --batch_size 128 --model vit_base_patch16 \ --global_pool --finetune ${PRETRAIN_CHKPT} --epochs 90 \ --blr 0.1 --output_dir ${OUTPUT_DIR} --data_path ${IMAGENET_DIR}

微调：对编码器和分类头联合训练，进一步提升性能。脚本main_finetune.py支持这一模式，适用于对精度要求较高的场景：

python -m torch.distributed.launch --nproc_per_node=8 \ main_finetune.py --batch_size 32 --model vit_base_patch16 \ --global_pool --finetune ${PRETRAIN_CHKPT} --epochs 100 \ --blr 2.5e-4 --output_dir ${OUTPUT_DIR} --data_path ${IMAGENET_DIR}

这些功能可应用于图像识别、目标检测、语义分割等任务的预训练阶段，尤其在小样本场景下能显著提升模型性能。

3. 跨模态学习基础

MAGE 将图像转换为离散 token 的过程，与自然语言的 token 化过程类似，为跨模态学习（如图文检索、图像描述生成）提供了统一的表示空间。例如：

可将 MAGE 的图像 token 与 BERT 的文本 token 输入同一个跨模态 Transformer，实现图文匹配；
利用 MAGE 的生成能力，结合文本条件约束，实现文本引导的图像生成（如类似 DALL-E 的功能）。

4. 学术研究与模型改进

MAGE 的统一框架为计算机视觉研究提供了新的起点：

研究者可基于 MAGE 探索更高效的掩码策略，进一步平衡生成与表示性能；
可扩展至视频、3D 点云等其他视觉模态，验证 “掩码生成式编码” 的普适性；
可结合扩散模型（Diffusion Models）等先进生成技术，提升图像生成质量。

环境配置与使用指南

1. 环境搭建

MAGE 依赖 PyTorch、CUDA 等工具，推荐通过 conda 配置环境：

# 创建并激活环境 conda env create -f environment.yaml conda activate mage # 克隆代码仓库 git clone https://github.com/LTH14/mage.git cd mage # 下载预训练 VQGAN 权重 wget https://drive.google.com/file/d/13S_unB87n6KKuuMdyMnyExW0G1kplTbP/view?usp=sharing -O vqgan_jax_strongaug.ckpt

环境配置文件environment.yaml包含了关键依赖，如pytorch=1.7.1、timm=0.3.2、omegaconf=2.0.0等，确保了代码的兼容性。

2. 预训练与推理

预训练：使用main_pretrain.py脚本在 ImageNet 上预训练模型，支持多节点分布式训练：

python -m torch.distributed.launch --node_rank=0 --nproc_per_node=8 --nnodes=8 \ --master_addr="${MASTER_SERVER_ADDRESS}" --master_port=12344 \ main_pretrain.py --batch_size 64 --model mage_vit_base_patch16 \ --mask_ratio_min 0.5 --mask_ratio_max 1.0 \ --mask_ratio_mu 0.55 --mask_ratio_std 0.25 \ --epochs 1600 --warmup_epochs 40 \ --blr 1.5e-4 --weight_decay 0.05 \ --output_dir ${OUTPUT_DIR} --data_path ${IMAGENET_DIR}

生成图像评估：使用torch-fidelity工具评估生成图像的 FID 和 IS：

# 准备 ImageNet 验证集（256×256） python prepare_imgnet_val.py --data_path ${IMAGENET_DIR} --output_dir ${OUTPUT_DIR} # 安装评估工具 pip install torch-fidelity # 评估 fidelity --gpu 0 --isc --fid \ --input1 ${GENERATED_IMAGES_DIR} --input2 ${IMAGENET256X256_DIR}

总结与展望

MAGE 作为一个统一生成建模与表示学习的框架，通过创新的掩码生成式编码器设计，在 ImageNet 上展现了卓越的性能。其核心优势在于：

统一性：一个模型同时支持生成任务和表示学习，降低了多任务系统的复杂度；
高效性：基于 Transformer 和 VQGAN 的成熟组件，训练和推理效率高；
扩展性：可轻松扩展至下游任务和其他视觉模态。

未来，MAGE 有望在以下方向进一步发展：

提升高分辨率图像生成能力（当前主要支持 256×256）；
引入类别条件，实现有条件的图像生成与分类；
与扩散模型、自回归模型等结合，探索更强大的生成范式。

对于开发者和研究者而言，MAGE 不仅是一个实用的工具，更是探索 “生成与表示统一” 这一前沿方向的重要起点，为计算机视觉的大一统模型研究提供了宝贵的参考。# MAGE：Masked Generative Encoder 技术解析与应用场景

项目背景与概述

MAGE 的核心原理

1. 整体架构设计

（1）VQGAN 作为图像 Tokenizer

编码器将输入图像（如 256×256 像素）压缩为低维特征映射（如 16×16 分辨率）；
量化器将连续的特征向量映射到离散的代码本（Codebook）中，每个特征向量被替换为代码本中最相似的向量，从而生成离散 token；
解码器则负责将离散 token 重建为原始图像。

离散 token 降低了模型处理的复杂度，将图像从高维像素空间转换为低维符号空间；
代码本的离散性使得生成任务可转化为序列预测问题，便于结合 Transformer 等序列模型。

（2）掩码机制：动态随机掩码

范围：mask_ratio_min=0.5至mask_ratio_max=1.0；
峰值（均值）：mask_ratio_mu=0.55；
标准差：mask_ratio_std=0.25。

self.mask_ratio_generator = stats.truncnorm( (mask_ratio_min - mask_ratio_mu) / mask_ratio_std, (mask_ratio_max - mask_ratio_mu) / mask_ratio_std, loc=mask_ratio_mu, scale=mask_ratio_std )

（3）Transformer 编码器 - 解码器结构

MAGE 的主体是一个 Transformer 模型，包含编码器（Encoder）和解码器（Decoder）：

编码器：接收带掩码的 token 序列（包含未掩码 token 和掩码 token），输出上下文感知的特征表示。其输入通过BertEmbeddings模块处理，包含 token 嵌入（word_embeddings）和位置嵌入（position_embeddings），与 BERT 的文本嵌入方式类似。编码器的输出既用于表示学习（如提取图像特征用于分类），也作为解码器的输入。
解码器：以编码器的输出为条件，预测被掩码的 token。解码器包含一个额外的 “掩码 token 嵌入”（mask_token），用于在解码过程中填充掩码位置。解码器的最终输出通过MlmLayer（Masked Language Model 层）映射回代码本空间，通过交叉熵损失（带标签平滑的LabelSmoothingCrossEntropy）优化预测结果。

（4）损失函数设计

MAGE 的损失函数主要针对掩码 token 的预测任务：

对被掩码的 token，通过MlmLayer计算预测概率与真实 token 的交叉熵损失；
采用标签平滑（Label Smoothing）策略（平滑系数 0.1），减少模型对错误标签的过拟合，提高泛化能力

这种损失设计使得模型在训练过程中同时优化两个目标：

学习图像的语义表示（通过编码未掩码 token 理解图像内容）；
学习生成完整图像（通过预测掩码 token 恢复图像全局结构）。

2. 表示学习与生成任务的统一

MAGE 之所以能同时胜任表示学习和生成任务，核心在于其 “双向学习” 机制：

表示学习能力：编码器在处理未掩码 token 时，会学习图像的局部与全局语义特征。这些特征可直接用于下游任务（如线性探测分类），无需解码器参与。代码中VisionTransformerMage类实现了仅用编码器进行特征提取的功能，通过forward_features方法返回图像的全局特征（outcome = x[:, 0]或全局平均池化结果）。
生成任务能力：解码器在编码器输出的基础上预测掩码 token，进而通过 VQGAN 解码器重建完整图像。生成过程可通过gen_img_uncond.py脚本实现，通过迭代优化掩码 token 的预测结果，逐步生成高质量图像。

MAGE 的性能与功效

1. 核心性能指标

根据 README 中的实验结果，MAGE 在 ImageNet-1K 上的表现如下：

模型	无类别生成 FID	无类别生成 IS	线性探测 Top-1 准确率	微调 Top-1 准确率
ViT-Base	11.1	81.2	74.7%	82.5%
ViT-Large	9.10	105.1	78.9%	83.9%

FID（Fréchet Inception Distance）：衡量生成图像与真实图像分布的相似度，值越小越好。MAGE 的 ViT-Large 模型达到 9.10，优于多数无类别生成模型。
IS（Inception Score）：衡量生成图像的质量和多样性，值越大越好。ViT-Large 模型的 105.1 表明其生成图像质量高且多样。
线性探测准确率：直接使用编码器特征训练线性分类器，反映特征的语义区分能力。78.9% 的成绩接近专门为分类设计的模型。
微调准确率：对整个模型微调后，ViT-Large 达到 83.9%，接近 SOTA 分类模型的性能。

这些指标证明 MAGE 成功实现了 “生成” 与 “表示” 的双重优势，打破了传统模型 “专精一域” 的局限。

2. 与现有技术的对比优势

对比 MAE：MAE 专注于表示学习，通过掩码重建像素实现特征提取，但缺乏生成能力；MAGE 则通过离散 token 重建实现生成功能，同时保留了高效的表示学习能力。
对比 VQGAN：VQGAN 擅长生成高分辨率图像，但需要额外的自回归模型（如 GPT）进行序列预测，且无法直接用于表示学习；MAGE 则将编码器与解码器整合，一步实现生成与特征提取。
对比 GAN：GAN 生成图像质量高，但训练不稳定且难以提取可迁移的特征；MAGE 训练更稳定，且特征可直接用于下游任务。

MAGE 的运用场景

1. 无类别图像生成

python gen_img_uncond.py --temp 6.0 --num_iter 20 \ --ckpt ${PRETRAIN_CHKPT} --batch_size 32 --num_images 50000 \ --model mage_vit_base_patch16 --output_dir ${OUTPUT_DIR}

2. 表示学习与下游分类任务

MAGE 的编码器提取的特征具有强语义性，可直接用于下游分类任务，无需从头训练模型：

线性探测：固定编码器参数，仅训练一个线性分类器。脚本main_linprobe.py实现了这一功能，适用于资源有限的场景：

python -m torch.distributed.launch --nproc_per_node=8 \ main_linprobe.py --batch_size 128 --model vit_base_patch16 \ --global_pool --finetune ${PRETRAIN_CHKPT} --epochs 90 \ --blr 0.1 --output_dir ${OUTPUT_DIR} --data_path ${IMAGENET_DIR}

微调：对编码器和分类头联合训练，进一步提升性能。脚本main_finetune.py支持这一模式，适用于对精度要求较高的场景：

python -m torch.distributed.launch --nproc_per_node=8 \ main_finetune.py --batch_size 32 --model vit_base_patch16 \ --global_pool --finetune ${PRETRAIN_CHKPT} --epochs 100 \ --blr 2.5e-4 --output_dir ${OUTPUT_DIR} --data_path ${IMAGENET_DIR}

这些功能可应用于图像识别、目标检测、语义分割等任务的预训练阶段，尤其在小样本场景下能显著提升模型性能。

3. 跨模态学习基础

MAGE 将图像转换为离散 token 的过程，与自然语言的 token 化过程类似，为跨模态学习（如图文检索、图像描述生成）提供了统一的表示空间。例如：

可将 MAGE 的图像 token 与 BERT 的文本 token 输入同一个跨模态 Transformer，实现图文匹配；
利用 MAGE 的生成能力，结合文本条件约束，实现文本引导的图像生成（如类似 DALL-E 的功能）。

4. 学术研究与模型改进

MAGE 的统一框架为计算机视觉研究提供了新的起点：

研究者可基于 MAGE 探索更高效的掩码策略，进一步平衡生成与表示性能；
可扩展至视频、3D 点云等其他视觉模态，验证 “掩码生成式编码” 的普适性；
可结合扩散模型（Diffusion Models）等先进生成技术，提升图像生成质量。

环境配置与使用指南

1. 环境搭建

MAGE 依赖 PyTorch、CUDA 等工具，推荐通过 conda 配置环境：

# 创建并激活环境 conda env create -f environment.yaml conda activate mage # 克隆代码仓库 git clone https://github.com/LTH14/mage.git cd mage # 下载预训练 VQGAN 权重 wget https://drive.google.com/file/d/13S_unB87n6KKuuMdyMnyExW0G1kplTbP/view?usp=sharing -O vqgan_jax_strongaug.ckpt

环境配置文件environment.yaml包含了关键依赖，如pytorch=1.7.1、timm=0.3.2、omegaconf=2.0.0等，确保了代码的兼容性。

2. 预训练与推理

预训练：使用main_pretrain.py脚本在 ImageNet 上预训练模型，支持多节点分布式训练：

python -m torch.distributed.launch --node_rank=0 --nproc_per_node=8 --nnodes=8 \ --master_addr="${MASTER_SERVER_ADDRESS}" --master_port=12344 \ main_pretrain.py --batch_size 64 --model mage_vit_base_patch16 \ --mask_ratio_min 0.5 --mask_ratio_max 1.0 \ --mask_ratio_mu 0.55 --mask_ratio_std 0.25 \ --epochs 1600 --warmup_epochs 40 \ --blr 1.5e-4 --weight_decay 0.05 \ --output_dir ${OUTPUT_DIR} --data_path ${IMAGENET_DIR}

生成图像评估：使用torch-fidelity工具评估生成图像的 FID 和 IS：

# 准备 ImageNet 验证集（256×256） python prepare_imgnet_val.py --data_path ${IMAGENET_DIR} --output_dir ${OUTPUT_DIR} # 安装评估工具 pip install torch-fidelity # 评估 fidelity --gpu 0 --isc --fid \ --input1 ${GENERATED_IMAGES_DIR} --input2 ${IMAGENET256X256_DIR}

总结与展望

MAGE 作为一个统一生成建模与表示学习的框架，通过创新的掩码生成式编码器设计，在 ImageNet 上展现了卓越的性能。其核心优势在于：

统一性：一个模型同时支持生成任务和表示学习，降低了多任务系统的复杂度；

高效性：基于 Transformer 和 VQGAN 的成熟组件，训练和推理效率高；
扩展性：可轻松扩展至下游任务和其他视觉模态。

未来，MAGE 有望在以下方向进一步发展：

提升高分辨率图像生成能力（当前主要支持 256×256）；
引入类别条件，实现有条件的图像生成与分类；
与扩散模型、自回归模型等结合，探索更强大的生成范式。

对于开发者和研究者而言，MAGE 不仅是一个实用的工具，更是探索 “生成与表示统一” 这一前沿方向的重要起点，为计算机视觉的大一统模型研究提供了宝贵的参考。

企业官网建设流程全解析

项目背景与概述

MAGE 的核心原理

1. 整体架构设计

（1）VQGAN 作为图像 Tokenizer

（2）掩码机制：动态随机掩码

（3）Transformer 编码器 - 解码器结构

（4）损失函数设计

2. 表示学习与生成任务的统一

MAGE 的性能与功效

1. 核心性能指标

2. 与现有技术的对比优势

MAGE 的运用场景

1. 无类别图像生成

2. 表示学习与下游分类任务

3. 跨模态学习基础

4. 学术研究与模型改进

环境配置与使用指南

1. 环境搭建

2. 预训练与推理

总结与展望

项目背景与概述

MAGE 的核心原理

1. 整体架构设计

（1）VQGAN 作为图像 Tokenizer

（2）掩码机制：动态随机掩码

（3）Transformer 编码器 - 解码器结构

（4）损失函数设计

2. 表示学习与生成任务的统一

MAGE 的性能与功效

1. 核心性能指标

2. 与现有技术的对比优势

MAGE 的运用场景

1. 无类别图像生成

2. 表示学习与下游分类任务

3. 跨模态学习基础

4. 学术研究与模型改进

环境配置与使用指南

1. 环境搭建

2. 预训练与推理

总结与展望

热门文章

文章分类

标签云

相关文章

nodejs使用

Windows任务栏变透明：TranslucentTB让你的桌面焕然一新

3种高效方法解决音乐加密困扰：Unlock Music浏览器解密全攻略

需要专业的网站建设服务？