Featured image of post 探索AGI与系统1和系统2的整合:JEPA、Transformers与动态记忆

探索AGI与系统1和系统2的整合:JEPA、Transformers与动态记忆

受Yann LeCun和Bill Dally在GTC 2025讨论的启发,深入探讨如何将JEPA与Transformer模型整合,并在AGI中开发动态学习与记忆管理的思考过程。

最近在NVIDIA GTC 2025举办的“AI与计算前沿”主题讨论中,AI领域的先驱Yann LeCun与Bill Dally的对话激发了我对通用人工智能(AGI)未来的深入探索。讨论内容涵盖了深度学习的新兴趋势、AI架构的演进以及创新硬件的关键作用。受此启发,我再次回顾了一个基础的认知框架:Daniel Kahneman著名的“系统1”与“系统2”。

超越系统1与系统2的二元对立

Kahneman将人类思维分为两种截然不同的模式:

  • 系统1:快速、自动、直觉式。
  • 系统2:缓慢、深思熟虑、分析性。

然而,随着思考的深入,我愈发清楚地意识到,我们的思维并不能简单地被这两个盒子所归类。实际上,它更像是一个连续体——可以想象成平滑的渐变,而非二元的开关。在低端,是纯粹的潜意识反射过程;在高端,则是深刻的反思与哲学思考。这个洞见让我思考:我们的AI模型,为什么不能也反映这种连续的认知光谱呢?

用JEPA可视化抽象思维

为了更好地理解这种渐变,不妨考虑一下我们如何可视化复杂的物体。人类能够轻松地将原始感官数据——比如来自双眼的两幅略有不同的图像——转化为生动的三维心理图像。随后,我们从这个心理模型中抽象出有意义的细节,并将这些洞见传递到更为深思熟虑、分析性的思维过程之中。

这一认识让我关注到Yann LeCun提出的JEPA(联合嵌入预测架构)。JEPA天生擅长建模预测性认知,类似于我们的直觉“系统1”。它以一种非常接近人类直觉的方式预测缺失信息。最初,将JEPA与如GPT这样的Transformer模型结合似乎是自然而然的选择。虽然Transformers在逐步生成连贯语言方面表现出色,但却缺乏JEPA的预测抽象能力。那么,能否将两者结合,构建更丰富的认知架构?

集成注意力:融合Transformers与JEPA

但在实际中,如何整合这两种模型?与其将JEPA和Transformer视为并行的两条流,不如直接将JEPA嵌入到Transformer的潜在空间中。可以将注意力机制想象成信息的“守门员”,动态决定:

  • 何时利用JEPA的预测洞见(将JEPA视为直觉的“本能反应”)。
  • 何时完全依赖Transformer逐字逐句的详细生成。

这个想法可以类比为一个心理“总机”,根据上下文不断调整直觉与逻辑之间的平衡。这种动态灵活性,正如人类在快速判断与深思熟虑之间自如切换。

快照学习:随时间捕捉知识

在进一步探索中,我想象了一种类似人类记忆的场景——通过“快照”进行学习。与其无休止地微调一个庞大的模型,不如每隔一段时间(例如每训练1000万token)捕捉一次“知识快照”。每个快照都新增一层轻量级的结构,类似于LoRA(低秩适应),层层叠加。

这种方法有一个形象的类比:想象地质中的沉积层,每一层都代表某一时期获得的知识。较老的层逐渐变得不那么相关,最终被压缩或丢弃,从而保持高效。

扩展维度以实现动态知识管理

我将这个概念进一步拓展,提出在潜在空间中增加第三个维度——本质上是垂直堆叠知识层。每一次训练都在这个维度上新增一个“知识层”。模型在做出预测时,会沿着这个新轴将各层知识聚合起来,形成统一的理解。

但这也带来了一个重要问题:维度的增加意味着模型体积急剧膨胀,计算压力巨大。我的解决方案是:定期进行剪枝或合并,将较旧、作用较小的知识层压缩成紧凑的形式,从而在保留知识的同时兼顾效率。

处理模型的不确定性

我还深入思考了不确定性——这是人类思维的固有特征。目前的语言模型即使不确定也会强行给出答案。为什么不直接编码不确定性呢?想象训练模型在遇到不确定时输出一个特殊token(比如“我不确定”)。这个token可以提示模型暂停,并重新调用JEPA的广泛预测能力,就像人类会退一步重新思考一样。

动态遗忘与持续学习

我的最后一个洞见聚焦于动态管理知识,模拟人类记忆的灵活性。人类会自然地遗忘过时的信息,而AI模型目前还做不到。我们能否实现一种“负LoRA”机制——主动剪除过时参数?

这种方法类似于“弹性权重固化”,即关键参数保持不变,而不重要的参数被剪枝或更新。定期评估知识的相关性,确保模型既能保持最新状态,又能控制计算资源消耗。

总结与开放性问题

回顾这次探索,我的结论很明确:

  • 我们不应将系统1和系统2割裂开来,而应构建一个统一、集成的认知系统,无缝融合直觉与分析处理。
  • 我们需要动态机制,实现持续学习与选择性遗忘,模拟自然的认知灵活性。

但仍有许多问题待解:

  • 如何管理多维潜在空间带来的计算复杂度?
  • 动态剪枝能否真正让模型保持高效?
  • 集成注意力机制能否真实模拟直觉与分析之间的无缝切换?

这些问题将指引我未来的探索。归根结底,理解并模拟人类认知,要求我们超越传统的二元对立,拥抱流动、动态的相互作用——这是我渴望继续深入的方向。