杨立昆的「秘密厨房」:JEPA 到底在煮什么?——从 LeJEPA 到 EchoJEPA 的全面解读
2026/4/23 0:10:23 网站建设 项目流程

基于 bycloud 视频解读,结合 LeJEPA、EchoJEPA、V-JEPA 2 等最新论文深度研读
视频原链接:What Is Yann LeCun Cooking? JEPA Explained Simply


一个 AI 界的"异端"

2025 年 9 月,纽约大学的一场研讨会上,Meta 首席 AI 科学家杨立昆(Yann LeCun)说了一句让整个 AI 圈炸锅的话:

“自回归大语言模型注定失败。”

说这话的人不是什么无名之辈——他是深度学习的三巨头之一,2018 年图灵奖得主,卷积神经网络的发明者。而他口中的"替代方案",就是他这几年一直在推的JEPA(Joint-Embedding Predictive Architecture,联合嵌入预测架构)

但问题是:每次杨立昆讲 JEPA,底下的人都在挠头。这个概念涉及隐空间、表征坍塌、等方高斯分布……一堆抽象术语,让大多数人听完还是一头雾水。

今天,我们用最通俗的方式,把 JEPA 的核心逻辑、最新进展和真实效果讲清楚。


先忘掉你认识的所有 AI 训练方式

要理解 JEPA,先得理解它反对什么

目前主流的 AI 训练方式有两种:

第一种:自回归预测(LLM 的做法)

给你一段文字的前半部分,让你预测下一个字。GPT 就是这么训练的。它的特点是:逐字生成,精确到像素/字符级别

问题在哪?想象你在看一部电影,有人每隔一秒就暂停,问你"下一帧画面长什么样"。你当然猜不准——因为光影变化、镜头抖动、风吹草动,这些细节根本无法精确预测。但如果你被问的是"接下来会发生什么故事",你就能回答得很好。

第二种:像素级重建(MAE、VAE 的做法)

给你一张图片的一部分,让你把缺失的像素补全。这就像给你一张被撕掉一角的拼图,让你把缺的那块画出来——精确到每个像素的颜色。

问题在哪?太关注细节,忽略了语义。一张猫的照片,猫的毛发方向、光线角度这些细节对"理解猫"毫无帮助,但像素级重建会强迫模型去学这些无关紧要的东西。

JEPA 的做法完全不同:它不预测像素,也不预测 token,而是预测"抽象描述"。


“视图”:JEPA 的基本单位

JEPA 的核心概念是视图(View)

什么是视图?就是对同一个事物的不同"看法"。比如一张猫的照片:

  • 裁剪后的版本是一个视图
  • 模糊后的版本是一个视图
  • 调整亮度后的版本是一个视图
  • 遮住一部分后的版本是一个视图

这些视图虽然看起来不同,但语义是相同的——它们都是猫。

JEPA 的训练逻辑是:给定一个视图(上下文),预测另一个视图在隐空间中的表征

注意关键词:隐空间(Latent Space)。JEPA 不是让你预测被遮住的那块区域长什么样(那是像素级重建),而是让你预测那块区域的抽象特征是什么。

打个比方:如果有人给你看了一幅画的左半边,让你猜右半边。像素级重建要求你画出每一笔的颜色和位置;而 JEPA 只要求你说出"右半边应该是一只鸟在飞"——它关注的是语义,不是细节

这就是 JEPA 的核心优势:过滤无关噪声,聚焦语义信息


JEPA 的三大组件

JEPA 的训练涉及三个核心模块:

1. 上下文编码器(Context Encoder)

把"你看到的部分"(比如视频的前半段)编码成一个隐空间向量。这个向量是对"你看到的内容"的抽象描述。

2. 目标编码器(Target Encoder)

把"你要预测的部分"(比如视频的后半段)也编码成一个隐空间向量。这个向量是"正确答案"的抽象描述。

3. 预测器(Predictor)

给定上下文编码器的输出,预测目标编码器的输出。训练目标就是让预测器的预测尽可能接近目标编码器的实际输出。

关键细节:目标编码器的梯度是截断的(stop-gradient)。这意味着预测器在学习"如何预测",但目标编码器在学习"如何编码"时不受预测器的影响。这就像考试:学生(预测器)要猜老师的答案(目标编码器),但老师不会因为学生的猜测而改变自己的评分标准。


三大应用场景

场景一:表征提取(I-JEPA)

这是最基础的应用。用 JEPA 训练一个视觉编码器,让它学会从图像中提取有意义的特征。训练完成后,这个编码器可以直接用于下游任务(分类、检测等),不需要从头训练。

Meta 的 I-JEPA 在 ImageNet 上的线性探测准确率达到了当时自监督方法的 SOTA。

场景二:世界建模(V-JEPA / V-JEPA 2)

这是杨立昆最看重的方向。

V-JEPA 用视频数据训练,让模型学会预测视频中被遮住的时空区域在隐空间中的表征。本质上,它是在学习一个世界模型——理解物理世界的运作规律。

2025 年推出的V-JEPA 2更是实现了突破:它不仅在互联网规模的视频数据上进行了自监督预训练,还结合了少量机器人交互数据,实现了零样本机器人控制。也就是说,一个只看过网上的视频、从未操作过机器人的模型,可以直接控制机器人完成新任务。

这是 JEPA 路线最有力的证据:理解世界 ≠ 生成文本

场景三:机器人隐空间规划

传统的机器人规划在像素空间或动作空间中进行,计算成本极高。JEPA 可以在隐空间中进行规划——先在"抽象世界"中模拟不同动作的后果,选择最优方案,再执行。

这就像人类下棋:高手不会在脑中精确模拟每个棋子的移动轨迹,而是在一个"抽象的策略空间"中思考。JEPA 让 AI 也能做到这一点。


最大的敌人:表征坍塌

JEPA 的训练有一个致命的陷阱:表征坍塌(Representation Collapse)

什么是表征坍塌?想象你是一个学生,考试题目是"根据上半句猜下半句"。如果你发现一个"万能答案"——不管上半句是什么,你都回答"我不知道"——虽然这个答案每次都错得不多,但你什么都没学到。

在 JEPA 中,这表现为编码器把所有输入都映射到几乎相同的向量。如果所有图像的隐空间表征都一样,预测器只需要输出一个固定向量就能"预测"任何目标——任务变得毫无意义。

有两种坍塌:

  • 完全坍塌:所有输入映射到同一个点
  • 维度坍塌:所有输入映射到一个低维子空间

为了对抗坍塌,研究者们发明了各种"补丁":

补丁一:EMA(指数移动平均)

用两个编码器:一个在线更新,一个通过 EMA 缓慢更新。目标编码器用 EMA 版本,这样即使预测器找到了"作弊"的方法,目标编码器也不会立刻配合。这是 SimSiam、BYOL 等方法的核心技巧。

补丁二:样本对比法(SimCLR 为代表)

同时处理多个样本,让不同样本的表征尽量远离,相同样本的不同视图尽量接近。这需要较大的 batch size(通常 4096+),计算成本高。

补丁三:维度对比法(Barlow Twins、VICReg 为代表)

不比较不同样本,而是约束隐空间中每个维度的统计特性——让方差足够大、让不同维度之间尽量不相关。VICReg 是目前最流行的方案之一。

这些方法各有优劣,但都有一个共同问题:它们都是启发式的(heuristic)——我们知道它们有效,但不知道为什么有效,也不知道它们是否最优。


LeJEPA:用数学终结"补丁时代"

2025 年底,LeJEPA(Latent-Euclidean JEPA)横空出世,来自 Meta FAIR 的 Randall Balestriero 和杨立昆本人。

LeJEPA 的核心贡献不是又发明了一个新补丁,而是从数学上证明了最优解是什么

核心定理:隐空间表征应该服从各向同性高斯分布

LeJEPA 证明了:如果要让模型在训练后的各种下游任务上表现最好,编码器输出的隐空间表征应该服从各向同性高斯分布(Isotropic Gaussian)——即均值向量为零、协方差矩阵为单位矩阵的多维正态分布。

这个结论听起来很抽象,但直觉很清晰:

想象你在整理一个图书馆。最好的整理方式是让每本书在各个维度上的信息都均匀分布——不能所有书都挤在一个角落(维度坍塌),也不能所有书都叠在一起(完全坍塌)。各向同性高斯分布就是这种"均匀且分散"的理想状态。

SIGReg:如何高效地达到理想分布

知道了目标分布,怎么让编码器的输出逼近它?

LeJEPA 提出了SIGReg(Sketched Isotropic Gaussian Regularization),一个精妙的正则化方法:

  1. 随机选择一组方向向量
  2. 把隐空间表征投影到这些方向上
  3. 检查投影后的分布是否接近标准正态分布
  4. 如果不是,调整编码器使其接近

这就像质检员从不同角度检查产品——不需要检查所有细节,只需要从足够多的角度抽查,就能确保产品质量。

SIGReg 的优势:

  • 线性复杂度:计算和内存开销与维度成线性关系
  • 理论保证:有严格的统计检验理论支撑
  • 无需启发式:不需要 stop-gradient、teacher-student、超参数调度器

实验结果:简洁即力量

LeJEPA 的结果令人印象深刻:

  • ImageNet-1k 线性探测:ViT-H/14 达到79%,与需要大量启发式技巧的方法相当
  • 训练稳定性:即使在18 亿参数的 ViT-g上也能稳定训练,不需要任何特殊技巧
  • 跨架构通用:在 ResNet、ViT、ConvNeXt、MaxViT、Swin Transformer 等 60+ 架构上都能工作
  • 领域迁移:在 Galaxy10(天文图像)数据集上,LeJEPA 的域内预训练全面超越DINOv2/v3 的迁移学习——即使后者是在数十亿自然图像上训练的前沿模型

最令人惊讶的是:LeJEPA 的核心代码只有约 50 行。没有 stop-gradient,没有 EMA,没有 teacher-student,只有一个超参数。

这印证了一个朴素的道理:当你真正理解了问题,解决方案往往出奇地简单。


EchoJEPA:JEPA 在医学影像的惊艳落地

如果说 LeJEPA 证明了 JEPA 的理论基础,那么 EchoJEPA 则证明了它的实用价值

EchoJEPA(ICML 2026)将 JEPA 应用于超声心动图——全球每年约 3000 万次检查的心脏超声影像。

超声影像有一个独特的挑战:散斑噪声(Speckle Noise)。这些随机出现的噪点与心脏解剖结构毫无关系,但传统方法会强迫模型去学习这些噪声模式。

EchoJEPA 的核心优势正好对症下药:JEPA 在隐空间中预测,天然过滤了像素级的噪声

结果令人惊叹:

  • 零样本泛化到儿科患者:EchoJEPA 在成人数据上预训练后,直接应用于儿科患者,性能超越了在儿科数据上完全微调的基线模型
  • 对声学退化的鲁棒性:在模拟各种超声伪影(深度衰减、声影、散斑)的测试中,EchoJEPA 的性能下降仅17%,而竞争对手高达40%+
  • 数据效率:仅用 1% 的标注数据就能达到竞争性能

这告诉我们:当你不强迫模型去预测无关细节时,它反而学到了更本质的东西。


为什么 JEPA 不适用于大语言模型?

视频里提到了一个重要观点:JEPA 不适合替代 LLM。为什么?

核心原因是模态差异

  • 视觉/视频:信息是连续的、冗余的。一张猫的照片有百万像素,但"猫"这个概念只需要几个维度就能表达。JEPA 的隐空间预测天然适合这种"高冗余 → 低维语义"的压缩。
  • 语言:信息是离散的、密集的。每个词都承载着精确的语义,“猫"和"狗"之间没有"中间状态”。在语言中,预测下一个 token 本身就是在做语义预测——没有"像素噪声"需要过滤。

所以杨立昆说"LLM 注定失败",更准确的理解是:自回归 LLM 不是通向 AGI 的唯一路径,也不是最优路径。对于需要理解物理世界、进行规划和推理的任务,JEPA 式的世界模型可能是更好的选择。


杨立昆到底在"煮"什么?

回到最初的问题:杨立昆的 JEPA 到底在做什么?

他在做一件看似逆潮流的事:在所有人都在追求更大的 LLM 时,他在追求一种完全不同的 AI 范式。

这个范式的核心信念是:

  1. 理解世界需要世界模型,而不是更多的文本数据
  2. 预测应该在抽象层面进行,而不是在像素或 token 层面
  3. 好的理论比好的工程更重要——LeJEPA 用 50 行代码证明了这一点

JEPA 可能不会取代 ChatGPT,但它可能成为机器人、自动驾驶、医学影像、科学发现等领域的基础架构。当 AI 需要理解物理世界、做出规划决策时,JEPA 式的世界模型可能是比自回归生成更合适的工具。


开源了,你可以自己玩

EB-JEPA(2026 年 2 月):Meta FAIR 发布的官方开源库,包含图像、视频、动作条件视频的 JEPA 实现,以及基于 JEPA 的规划算法。

  • 代码:github.com/facebookresearch/eb_jepa
  • 特点:每个示例都可在单 GPU 上几小时内训练完成
  • 包含:I-JEPA、V-JEPA、AC-JEPA(动作条件)的完整实现

V-JEPA 2(2025 年 6 月):视频世界模型,支持零样本机器人控制。

  • 论文:arxiv.org/abs/2506.09985
  • 代码:github.com/facebookresearch/jepa

LeJEPA:理论最优的 JEPA 实现,约 50 行核心代码。

  • 论文:arxiv.org/abs/2511.08544

我的思考

JEPA 最打动我的,是它对"什么是好的表征"这个根本问题的回答。

LeJEPA 证明了:最好的表征是各向同性高斯分布。这意味着,一个理想的基础模型,应该把所有输入均匀地分散在隐空间的各个角落——没有浪费的维度,没有坍塌的子空间,每个维度都承载着独特的信息。

这让我想到一个更深层的问题:人类大脑是不是也在做类似的事情?我们看到一只猫,不会去记忆每个像素,而是提取出"猫"这个概念。这个概念在我们的神经网络中是如何表征的?它是否也接近某种"均匀分散"的状态?

也许 JEPA 不仅仅是一个工程方法,它还是一扇窥探智能本质的窗口。


论文 | LeJEPA (arxiv.org/abs/2511.08544) | EchoJEPA (ICML 2026) | V-JEPA 2 (arxiv.org/abs/2506.09985) | EB-JEPA (arxiv.org/abs/2602.03604)
代码 | facebookresearch/eb_jepa
视频 | What Is Yann LeCun Cooking? by bycloud

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询