为什么 JEPA 可能正是 AI 缺失的"系统2"

轻松却深刻地探索 JEPA, 系统1与系统2思维, 以及 AI 终于能停止"幻觉"的可能性.

2025年5月3日

阅读时长: 7 分钟

你有没有注意到, 大脑有时候会走捷径?比如, 如果我问你地球绕太阳一圈需要多长时间, 你可能会下意识地说: “一天!”——然后立刻反应过来, “等等, 这不对, 显然是一年!”别担心, 你不是一个人, 聪明人也会这样。

这是因为我们的大脑有两种思维方式: 系统1和系统2。系统1反应快, 自动且直觉化, 适合快速给出答案, 但不适合细致推理。系统2则慢一些, 更加深思熟虑, 讲逻辑。它就是你脑海里那个能及时纠正系统1小失误的声音。

这个心理学小知识可不只是有趣的冷门知识。它其实和当下人工智能——特别是像GPT-4这样的”大型语言模型” (LLM) ——面临的一个大问题非常相似。让我们一起深入聊聊这个类比, 放心, 不会有太多术语, 只有通俗易懂的解释, 偶尔还带点幽默。

LLM 在快速生成流畅, 类人的文本方面非常强大。无论是头脑风暴, 闲聊, 还是写点搞笑诗歌, 它们都是好帮手。但它们有个明显的弱点: 即使错了也很自信。这就像AI版的”自信地说出’一天’, 其实答案是一年”。

可以把LLM看作是”打了激素的系统1”: 反应快, 联想丰富, 但经常不查证事实就下结论。它们之所以会”幻觉”, 是因为本质上只是模式匹配器, 而不是认真推理者。

最近, 我在阅读Meta AI和Yann LeCun的一篇有趣论文《V-JEPA》时, 发现了点”大新闻”。JEPA (联合嵌入预测架构) 试图构建一种不仅仅是本能反应, 而是能像人类系统2那样抽象推理的AI系统。

我这样理解它:

想象你在一个拥挤的房间里。系统1 (或者说现在的LLM) 可能会试图记住每一张脸, 每一个像素, 这其实没什么用。毕竟, 你通常不会记得随机人群中每个人的长相。你只会记得房间里人很多——也许很热闹, 也许很无聊——但绝不会记得每个人的像素级细节。

JEPA模型不会去重建这些精细的细节, 而是学习抽象特征。用人话说, JEPA试图记住场景的”要点”或”本质”, 而不是无关紧要的细节。它在构建我们所说的”智慧”——一种关于世界如何运作的抽象, 通用知识, 而不是死记硬背过去的场景。

好问题!我第一次读到这里时, 我自己的系统2也上线了: “等等, 这种’智慧’到底是怎么来的?难道是黑魔法?”其实, 这更像是巧妙的工程设计, 而不是魔法。

简单来说, JEPA的核心机制是:

上下文编码器: 它能看到视频 (或场景) 的一部分, 但有些部分被故意遮住 (掩码) 。
预测器: 基于看到的部分, 尝试猜测 (预测) 被遮住的内容——不是像素级, 而是概念化, 总结性的。
目标编码器: 这里有点意思。这个编码器能看到完整画面, 但更新速度很慢——它像电影里那个淡定的智者, 拥有稳定, 持久的记忆, 不会被每个细节轻易打扰。

在训练过程中, 预测器会努力向目标编码器的”智慧”靠拢。久而久之, 这促使JEPA内化那些通用模式, 逐渐形成类似系统2的思考方式。

这个联系让我豁然开朗。现在的AI系统——比如那些带记忆的聊天机器人或者会用工具的LLM——其实都只是给系统1的漏洞打补丁。虽然管用, 但本质上还是”头痛医头, 脚痛医脚”, 漏水还是会发生。

JEPA则完全不同。它是真正试图模拟更深层次的抽象推理——创造出我们可以称之为AI”智慧”的东西。

这为什么重要?如果AI真的拥有了稳定的世界认知, 它就不会自信地输出错误答案。相反, 它可能会停下来, 思考 (在内部模拟), 然后说: “等等, 这和我学到的不符。”

我们人类经常这样——当然, 前提是我们的系统2愿意上线 (喝点咖啡有帮助) 。如果我们希望AI从”聪明的鹦鹉”进化成”真正有思想的伙伴”, 它们也需要这种能力。

我们正处于这个激动人心转变的起点。JEPA及其抽象, 潜在建模的方法, 可能会成为新一代AI的基础——它们思考得更慢, 但更聪明, 带给我们的不只是流畅文本, 还有真正的洞见。

也许未来, 不再是更大, 更炫的语言模型, 而是更有智慧, 更善于深思的AI。

嘿, 下次有人问你地球绕太阳一圈要多久, 深吸一口气, 召唤你内心的JEPA, 自信地说: “一年——当然啦!”

祝你思考愉快!