杨立昆的「秘密厨房」：JEPA 到底在煮什么？——从 LeJEPA 到 EchoJEPA 的全面解读-酒店常州论坛

基于 bycloud 视频解读，结合 LeJEPA、EchoJEPA、V-JEPA 2 等最新论文深度研读
视频原链接：What Is Yann LeCun Cooking? JEPA Explained Simply

一个 AI 界的"异端"

2025 年 9 月，纽约大学的一场研讨会上，Meta 首席 AI 科学家杨立昆（Yann LeCun）说了一句让整个 AI 圈炸锅的话：

“自回归大语言模型注定失败。”

说这话的人不是什么无名之辈——他是深度学习的三巨头之一，2018 年图灵奖得主，卷积神经网络的发明者。而他口中的"替代方案"，就是他这几年一直在推的JEPA（Joint-Embedding Predictive Architecture，联合嵌入预测架构）。

但问题是：每次杨立昆讲 JEPA，底下的人都在挠头。这个概念涉及隐空间、表征坍塌、等方高斯分布……一堆抽象术语，让大多数人听完还是一头雾水。

今天，我们用最通俗的方式，把 JEPA 的核心逻辑、最新进展和真实效果讲清楚。

先忘掉你认识的所有 AI 训练方式

要理解 JEPA，先得理解它反对什么。

目前主流的 AI 训练方式有两种：

第一种：自回归预测（LLM 的做法）

给你一段文字的前半部分，让你预测下一个字。GPT 就是这么训练的。它的特点是：逐字生成，精确到像素/字符级别。

问题在哪？想象你在看一部电影，有人每隔一秒就暂停，问你"下一帧画面长什么样"。你当然猜不准——因为光影变化、镜头抖动、风吹草动，这些细节根本无法精确预测。但如果你被问的是"接下来会发生什么故事"，你就能回答得很好。

第二种：像素级重建（MAE、VAE 的做法）

给你一张图片的一部分，让你把缺失的像素补全。这就像给你一张被撕掉一角的拼图，让你把缺的那块画出来——精确到每个像素的颜色。

问题在哪？太关注细节，忽略了语义。一张猫的照片，猫的毛发方向、光线角度这些细节对"理解猫"毫无帮助，但像素级重建会强迫模型去学这些无关紧要的东西。

JEPA 的做法完全不同：它不预测像素，也不预测 token，而是预测"抽象描述"。

“视图”：JEPA 的基本单位

JEPA 的核心概念是视图（View）。

什么是视图？就是对同一个事物的不同"看法"。比如一张猫的照片：

裁剪后的版本是一个视图
模糊后的版本是一个视图
调整亮度后的版本是一个视图
遮住一部分后的版本是一个视图

这些视图虽然看起来不同，但语义是相同的——它们都是猫。

JEPA 的训练逻辑是：给定一个视图（上下文），预测另一个视图在隐空间中的表征。

注意关键词：隐空间（Latent Space）。JEPA 不是让你预测被遮住的那块区域长什么样（那是像素级重建），而是让你预测那块区域的抽象特征是什么。

打个比方：如果有人给你看了一幅画的左半边，让你猜右半边。像素级重建要求你画出每一笔的颜色和位置；而 JEPA 只要求你说出"右半边应该是一只鸟在飞"——它关注的是语义，不是细节。

这就是 JEPA 的核心优势：过滤无关噪声，聚焦语义信息。

JEPA 的三大组件

JEPA 的训练涉及三个核心模块：

1. 上下文编码器（Context Encoder）

把"你看到的部分"（比如视频的前半段）编码成一个隐空间向量。这个向量是对"你看到的内容"的抽象描述。

2. 目标编码器（Target Encoder）

把"你要预测的部分"（比如视频的后半段）也编码成一个隐空间向量。这个向量是"正确答案"的抽象描述。

3. 预测器（Predictor）

给定上下文编码器的输出，预测目标编码器的输出。训练目标就是让预测器的预测尽可能接近目标编码器的实际输出。

关键细节：目标编码器的梯度是截断的（stop-gradient）。这意味着预测器在学习"如何预测"，但目标编码器在学习"如何编码"时不受预测器的影响。这就像考试：学生（预测器）要猜老师的答案（目标编码器），但老师不会因为学生的猜测而改变自己的评分标准。

三大应用场景

场景一：表征提取（I-JEPA）

这是最基础的应用。用 JEPA 训练一个视觉编码器，让它学会从图像中提取有意义的特征。训练完成后，这个编码器可以直接用于下游任务（分类、检测等），不需要从头训练。

Meta 的 I-JEPA 在 ImageNet 上的线性探测准确率达到了当时自监督方法的 SOTA。

场景二：世界建模（V-JEPA / V-JEPA 2）

这是杨立昆最看重的方向。

V-JEPA 用视频数据训练，让模型学会预测视频中被遮住的时空区域在隐空间中的表征。本质上，它是在学习一个世界模型——理解物理世界的运作规律。

2025 年推出的V-JEPA 2更是实现了突破：它不仅在互联网规模的视频数据上进行了自监督预训练，还结合了少量机器人交互数据，实现了零样本机器人控制。也就是说，一个只看过网上的视频、从未操作过机器人的模型，可以直接控制机器人完成新任务。

这是 JEPA 路线最有力的证据：理解世界 ≠ 生成文本。

场景三：机器人隐空间规划

传统的机器人规划在像素空间或动作空间中进行，计算成本极高。JEPA 可以在隐空间中进行规划——先在"抽象世界"中模拟不同动作的后果，选择最优方案，再执行。

这就像人类下棋：高手不会在脑中精确模拟每个棋子的移动轨迹，而是在一个"抽象的策略空间"中思考。JEPA 让 AI 也能做到这一点。

最大的敌人：表征坍塌

JEPA 的训练有一个致命的陷阱：表征坍塌（Representation Collapse）。

什么是表征坍塌？想象你是一个学生，考试题目是"根据上半句猜下半句"。如果你发现一个"万能答案"——不管上半句是什么，你都回答"我不知道"——虽然这个答案每次都错得不多，但你什么都没学到。

在 JEPA 中，这表现为编码器把所有输入都映射到几乎相同的向量。如果所有图像的隐空间表征都一样，预测器只需要输出一个固定向量就能"预测"任何目标——任务变得毫无意义。

有两种坍塌：

完全坍塌：所有输入映射到同一个点
维度坍塌：所有输入映射到一个低维子空间

为了对抗坍塌，研究者们发明了各种"补丁"：

补丁一：EMA（指数移动平均）

用两个编码器：一个在线更新，一个通过 EMA 缓慢更新。目标编码器用 EMA 版本，这样即使预测器找到了"作弊"的方法，目标编码器也不会立刻配合。这是 SimSiam、BYOL 等方法的核心技巧。

补丁二：样本对比法（SimCLR 为代表）

同时处理多个样本，让不同样本的表征尽量远离，相同样本的不同视图尽量接近。这需要较大的 batch size（通常 4096+），计算成本高。

补丁三：维度对比法（Barlow Twins、VICReg 为代表）

不比较不同样本，而是约束隐空间中每个维度的统计特性——让方差足够大、让不同维度之间尽量不相关。VICReg 是目前最流行的方案之一。

这些方法各有优劣，但都有一个共同问题：它们都是启发式的（heuristic）——我们知道它们有效，但不知道为什么有效，也不知道它们是否最优。

LeJEPA：用数学终结"补丁时代"

2025 年底，LeJEPA（Latent-Euclidean JEPA）横空出世，来自 Meta FAIR 的 Randall Balestriero 和杨立昆本人。

LeJEPA 的核心贡献不是又发明了一个新补丁，而是从数学上证明了最优解是什么。

核心定理：隐空间表征应该服从各向同性高斯分布

LeJEPA 证明了：如果要让模型在训练后的各种下游任务上表现最好，编码器输出的隐空间表征应该服从各向同性高斯分布（Isotropic Gaussian）——即均值向量为零、协方差矩阵为单位矩阵的多维正态分布。

这个结论听起来很抽象，但直觉很清晰：

想象你在整理一个图书馆。最好的整理方式是让每本书在各个维度上的信息都均匀分布——不能所有书都挤在一个角落（维度坍塌），也不能所有书都叠在一起（完全坍塌）。各向同性高斯分布就是这种"均匀且分散"的理想状态。

SIGReg：如何高效地达到理想分布

知道了目标分布，怎么让编码器的输出逼近它？

LeJEPA 提出了SIGReg（Sketched Isotropic Gaussian Regularization），一个精妙的正则化方法：

随机选择一组方向向量
把隐空间表征投影到这些方向上
检查投影后的分布是否接近标准正态分布
如果不是，调整编码器使其接近

这就像质检员从不同角度检查产品——不需要检查所有细节，只需要从足够多的角度抽查，就能确保产品质量。

SIGReg 的优势：

线性复杂度：计算和内存开销与维度成线性关系
理论保证：有严格的统计检验理论支撑
无需启发式：不需要 stop-gradient、teacher-student、超参数调度器

实验结果：简洁即力量

LeJEPA 的结果令人印象深刻：

ImageNet-1k 线性探测：ViT-H/14 达到79%，与需要大量启发式技巧的方法相当
训练稳定性：即使在18 亿参数的 ViT-g上也能稳定训练，不需要任何特殊技巧
跨架构通用：在 ResNet、ViT、ConvNeXt、MaxViT、Swin Transformer 等 60+ 架构上都能工作
领域迁移：在 Galaxy10（天文图像）数据集上，LeJEPA 的域内预训练全面超越DINOv2/v3 的迁移学习——即使后者是在数十亿自然图像上训练的前沿模型

最令人惊讶的是：LeJEPA 的核心代码只有约 50 行。没有 stop-gradient，没有 EMA，没有 teacher-student，只有一个超参数。

这印证了一个朴素的道理：当你真正理解了问题，解决方案往往出奇地简单。

EchoJEPA：JEPA 在医学影像的惊艳落地

如果说 LeJEPA 证明了 JEPA 的理论基础，那么 EchoJEPA 则证明了它的实用价值。

EchoJEPA（ICML 2026）将 JEPA 应用于超声心动图——全球每年约 3000 万次检查的心脏超声影像。

超声影像有一个独特的挑战：散斑噪声（Speckle Noise）。这些随机出现的噪点与心脏解剖结构毫无关系，但传统方法会强迫模型去学习这些噪声模式。

EchoJEPA 的核心优势正好对症下药：JEPA 在隐空间中预测，天然过滤了像素级的噪声。

结果令人惊叹：

零样本泛化到儿科患者：EchoJEPA 在成人数据上预训练后，直接应用于儿科患者，性能超越了在儿科数据上完全微调的基线模型
对声学退化的鲁棒性：在模拟各种超声伪影（深度衰减、声影、散斑）的测试中，EchoJEPA 的性能下降仅17%，而竞争对手高达40%+
数据效率：仅用 1% 的标注数据就能达到竞争性能

这告诉我们：当你不强迫模型去预测无关细节时，它反而学到了更本质的东西。

为什么 JEPA 不适用于大语言模型？

视频里提到了一个重要观点：JEPA 不适合替代 LLM。为什么？

核心原因是模态差异：

视觉/视频：信息是连续的、冗余的。一张猫的照片有百万像素，但"猫"这个概念只需要几个维度就能表达。JEPA 的隐空间预测天然适合这种"高冗余 → 低维语义"的压缩。
语言：信息是离散的、密集的。每个词都承载着精确的语义，“猫"和"狗"之间没有"中间状态”。在语言中，预测下一个 token 本身就是在做语义预测——没有"像素噪声"需要过滤。

所以杨立昆说"LLM 注定失败"，更准确的理解是：自回归 LLM 不是通向 AGI 的唯一路径，也不是最优路径。对于需要理解物理世界、进行规划和推理的任务，JEPA 式的世界模型可能是更好的选择。

杨立昆到底在"煮"什么？

回到最初的问题：杨立昆的 JEPA 到底在做什么？

他在做一件看似逆潮流的事：在所有人都在追求更大的 LLM 时，他在追求一种完全不同的 AI 范式。

这个范式的核心信念是：

理解世界需要世界模型，而不是更多的文本数据
预测应该在抽象层面进行，而不是在像素或 token 层面
好的理论比好的工程更重要——LeJEPA 用 50 行代码证明了这一点

JEPA 可能不会取代 ChatGPT，但它可能成为机器人、自动驾驶、医学影像、科学发现等领域的基础架构。当 AI 需要理解物理世界、做出规划决策时，JEPA 式的世界模型可能是比自回归生成更合适的工具。

开源了，你可以自己玩

EB-JEPA（2026 年 2 月）：Meta FAIR 发布的官方开源库，包含图像、视频、动作条件视频的 JEPA 实现，以及基于 JEPA 的规划算法。

代码：github.com/facebookresearch/eb_jepa
特点：每个示例都可在单 GPU 上几小时内训练完成
包含：I-JEPA、V-JEPA、AC-JEPA（动作条件）的完整实现

V-JEPA 2（2025 年 6 月）：视频世界模型，支持零样本机器人控制。

论文：arxiv.org/abs/2506.09985
代码：github.com/facebookresearch/jepa

LeJEPA：理论最优的 JEPA 实现，约 50 行核心代码。

论文：arxiv.org/abs/2511.08544

我的思考

JEPA 最打动我的，是它对"什么是好的表征"这个根本问题的回答。

LeJEPA 证明了：最好的表征是各向同性高斯分布。这意味着，一个理想的基础模型，应该把所有输入均匀地分散在隐空间的各个角落——没有浪费的维度，没有坍塌的子空间，每个维度都承载着独特的信息。

这让我想到一个更深层的问题：人类大脑是不是也在做类似的事情？我们看到一只猫，不会去记忆每个像素，而是提取出"猫"这个概念。这个概念在我们的神经网络中是如何表征的？它是否也接近某种"均匀分散"的状态？

也许 JEPA 不仅仅是一个工程方法，它还是一扇窥探智能本质的窗口。

企业官网建设流程全解析

一个 AI 界的"异端"

先忘掉你认识的所有 AI 训练方式

“视图”：JEPA 的基本单位

JEPA 的三大组件

1. 上下文编码器（Context Encoder）

2. 目标编码器（Target Encoder）

3. 预测器（Predictor）

三大应用场景

场景一：表征提取（I-JEPA）

场景二：世界建模（V-JEPA / V-JEPA 2）

场景三：机器人隐空间规划

最大的敌人：表征坍塌

补丁一：EMA（指数移动平均）

补丁二：样本对比法（SimCLR 为代表）

补丁三：维度对比法（Barlow Twins、VICReg 为代表）

LeJEPA：用数学终结"补丁时代"

核心定理：隐空间表征应该服从各向同性高斯分布

SIGReg：如何高效地达到理想分布

实验结果：简洁即力量

EchoJEPA：JEPA 在医学影像的惊艳落地

为什么 JEPA 不适用于大语言模型？

杨立昆到底在"煮"什么？

开源了，你可以自己玩

我的思考

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

一个 AI 界的"异端"

先忘掉你认识的所有 AI 训练方式

“视图”：JEPA 的基本单位

JEPA 的三大组件

1. 上下文编码器（Context Encoder）

2. 目标编码器（Target Encoder）

3. 预测器（Predictor）

三大应用场景

场景一：表征提取（I-JEPA）

场景二：世界建模（V-JEPA / V-JEPA 2）

场景三：机器人隐空间规划

最大的敌人：表征坍塌

补丁一：EMA（指数移动平均）

补丁二：样本对比法（SimCLR 为代表）

补丁三：维度对比法（Barlow Twins、VICReg 为代表）

LeJEPA：用数学终结"补丁时代"

核心定理：隐空间表征应该服从各向同性高斯分布

SIGReg：如何高效地达到理想分布

实验结果：简洁即力量

EchoJEPA：JEPA 在医学影像的惊艳落地

为什么 JEPA 不适用于大语言模型？

杨立昆到底在"煮"什么？

开源了，你可以自己玩

我的思考

热门文章

文章分类

标签云

相关文章

矿井下目标检测数据集4369张VOC+YOLO格式

别再手写Tensor操作了！.NET 11内置Microsoft.AI.Inference SDK深度解析（支持动态shape、int4量化、图融合，实测较.NET 8快2.6倍）

掌握文本分块：RAG系统中决定成败的关键策略！

需要专业的网站建设服务？