Featured image of post 为什么 JEPA 可能正是 AI 缺失的“系统2”

为什么 JEPA 可能正是 AI 缺失的“系统2”

轻松却深刻地探索 JEPA、系统1与系统2思维,以及 AI 终于能停止“幻觉”的可能性。

你有没有注意到,大脑有时候会走捷径?比如,如果我问你地球绕太阳一圈需要多长时间,你可能会下意识地说:“一天!”——然后立刻反应过来,“等等,这不对,显然是一年!”别担心,你不是一个人,聪明人也会这样。

这是因为我们的大脑有两种思维方式:系统1和系统2。系统1反应快、自动且直觉化,适合快速给出答案,但不适合细致推理。系统2则慢一些,更加深思熟虑、讲逻辑。它就是你脑海里那个能及时纠正系统1小失误的声音。

这个心理学小知识可不只是有趣的冷门知识。它其实和当下人工智能——特别是像GPT-4这样的“大型语言模型”(LLM)——面临的一个大问题非常相似。让我们一起深入聊聊这个类比,放心,不会有太多术语,只有通俗易懂的解释,偶尔还带点幽默。

首先,LLM 到底有什么问题?

LLM 在快速生成流畅、类人的文本方面非常强大。无论是头脑风暴、闲聊,还是写点搞笑诗歌,它们都是好帮手。但它们有个明显的弱点:即使错了也很自信。这就像AI版的“自信地说出‘一天’,其实答案是一年”。

可以把LLM看作是“打了激素的系统1”:反应快、联想丰富,但经常不查证事实就下结论。它们之所以会“幻觉”,是因为本质上只是模式匹配器,而不是认真推理者。

Yann LeCun 和 JEPA 登场

最近,我在阅读Meta AI和Yann LeCun的一篇有趣论文《V-JEPA》时,发现了点“大新闻”。JEPA(联合嵌入预测架构)试图构建一种不仅仅是本能反应,而是能像人类系统2那样抽象推理的AI系统。

我这样理解它:

想象你在一个拥挤的房间里。系统1(或者说现在的LLM)可能会试图记住每一张脸、每一个像素,这其实没什么用。毕竟,你通常不会记得随机人群中每个人的长相。你只会记得房间里人很多——也许很热闹,也许很无聊——但绝不会记得每个人的像素级细节。

JEPA模型不会去重建这些精细的细节,而是学习抽象特征。用人话说,JEPA试图记住场景的“要点”或“本质”,而不是无关紧要的细节。它在构建我们所说的“智慧”——一种关于世界如何运作的抽象、通用知识,而不是死记硬背过去的场景。

等等,JEPA到底是怎么做到的?

好问题!我第一次读到这里时,我自己的系统2也上线了:“等等,这种‘智慧’到底是怎么来的?难道是黑魔法?”其实,这更像是巧妙的工程设计,而不是魔法。

简单来说,JEPA的核心机制是:

  • 上下文编码器:它能看到视频(或场景)的一部分,但有些部分被故意遮住(掩码)。
  • 预测器:基于看到的部分,尝试猜测(预测)被遮住的内容——不是像素级,而是概念化、总结性的。
  • 目标编码器:这里有点意思。这个编码器能看到完整画面,但更新速度很慢——它像电影里那个淡定的智者,拥有稳定、持久的记忆,不会被每个细节轻易打扰。

在训练过程中,预测器会努力向目标编码器的“智慧”靠拢。久而久之,这促使JEPA内化那些通用模式,逐渐形成类似系统2的思考方式。

灵光一现的时刻

这个联系让我豁然开朗。现在的AI系统——比如那些带记忆的聊天机器人或者会用工具的LLM——其实都只是给系统1的漏洞打补丁。虽然管用,但本质上还是“头痛医头,脚痛医脚”,漏水还是会发生。

JEPA则完全不同。它是真正试图模拟更深层次的抽象推理——创造出我们可以称之为AI“智慧”的东西。

JEPA 为什么重要

这为什么重要?如果AI真的拥有了稳定的世界认知,它就不会自信地输出错误答案。相反,它可能会停下来,思考(在内部模拟),然后说:“等等,这和我学到的不符。”

我们人类经常这样——当然,前提是我们的系统2愿意上线(喝点咖啡有帮助)。如果我们希望AI从“聪明的鹦鹉”进化成“真正有思想的伙伴”,它们也需要这种能力。

接下来会怎样?

我们正处于这个激动人心转变的起点。JEPA及其抽象、潜在建模的方法,可能会成为新一代AI的基础——它们思考得更慢,但更聪明,带给我们的不只是流畅文本,还有真正的洞见。

也许未来,不再是更大、更炫的语言模型,而是更有智慧、更善于深思的AI。

嘿,下次有人问你地球绕太阳一圈要多久,深吸一口气,召唤你内心的JEPA,自信地说:“一年——当然啦!”

祝你思考愉快!

参考资料