来源:互联网2025-12-11 00:00:00 热度:

200万token上下文能力,并且越用越聪明!Google重构AI长期记忆

智能网 https://www.cnaiplus.com

导读:专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!Transformer架构提出者,为谷歌提供基础研究、算法与生态底座的Google Research,要让AI拥有长期记忆。Google Research发布的Titans架构通过在推理阶段实时训练深层神经网络模块,让AI拥有了处理超过200万token上下文的 ......

专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!Transformer架构提出者,为谷歌提供基础研究、算法与生态底座的Google Research,要让AI拥有长期记忆。

200万token上下文能力,并且越用越聪明!Google重构AI长期记忆

Google Research发布的Titans架构通过在推理阶段实时训练深层神经网络模块,让AI拥有了处理超过200万token上下文的能力,并在MIRAS框架下统一了序列建模的数学理论。

200万token上下文能力,并且越用越聪明!Google重构AI长期记忆

200万token上下文能力,并且越用越聪明!Google重构AI长期记忆

Google Research推出的Titans架构与MIRAS框架通过让模型在推理过程中实时更新参数,实现了超越GPT-4的长文本记忆能力与极高的运行效率。

打破Transformer的算力魔咒与记忆瓶颈人工智能领域长期存在一个类似于鱼和熊掌不可兼得的困境。

Transformer架构凭借注意力机制彻底改变了序列建模,它让模型能够回溯之前的输入,精准地抓取相关信息。

这种机制赋予了AI强大的短期记忆和理解能力,但也带来了一个致命的弱点:随着输入序列长度的增加,计算成本呈现爆发式增长。

想要让模型理解整本小说、分析完整的基因组序列,或者处理超长的法律文档,Transformer的资源消耗会迅速变为天文数字。

为了解决这个问题,研究界探索了线性递归神经网络(RNNs)和状态空间模型(SSMs),例如Mamba-2。

这些模型的优势在于速度,它们将上下文压缩成固定大小的状态,实现了快速的线性扩展。

这种做法虽然换来了速度,却牺牲了精度。

固定大小的压缩像是一个容量有限的行囊,当旅途过长,新的信息不断涌入,旧的细节就会被迫丢弃,模型无法捕捉超长序列中那些丰富而微妙的信息。

Google Research提出的Titans架构和MIRAS框架,不仅仅是修补现有模型,而是重新定义了记忆的本质。

Titans是具体的工具,一种结合了RNN速度与Transformer精度的全新架构;MIRAS则是理论蓝图,一个将不同序列模型统一起来的通用框架。

这两者结合,让AI拥有一种名为测试时记忆的能力。

模型不再是一个训练好就固化的静态系统,它能够在运行时,根据信息的新颖程度和重要性,实时更新自己的核心记忆,无需专门的离线再训练。

这标志着AI从被动存储信息向主动学习和适应的转变。

Titans架构:像大脑一样用惊奇感学习一个高效的学习系统需要泾渭分明又相互连接的记忆模块,这正如人类大脑区分短期记忆和长期记忆一样。

注意力机制擅长处理精准的短期记忆,而Titans引入了一种全新的神经长期记忆模块。

200万token上下文能力,并且越用越聪明!Google重构AI长期记忆

传统的RNN试图将记忆塞进一个固定大小的向量或矩阵中,这限制了信息的承载量。

Titans打破了这一限制,它使用一个深度神经网络(具体来说是多层感知机)作为记忆模块。

这不仅仅是存储空间的扩大,更是记忆方式的质变。

这个记忆模块拥有极高的表达能力,能够对海量信息进行深度总结,而不丢失关键的上下文。

模型不再是机械地记录每一个字,而是在理解和合成整个故事的脉络。

Titans最核心的机制在于它是如何决定记住什么的。

它不被动接收数据,而是主动识别并保留那些能够连接整个输入序列的重要关系和概念主题。

这种主动性依赖于一种被称为惊奇度量(Surprise Metric)的机制。

在人类心理学中,我们很容易忘记那些例行公事的、意料之中的日常琐事,但对于那些打破常规、出乎意料或者极具情感冲击力的事件,记忆却异常深刻。Titans借鉴了这一原理。

在Titans的运行逻辑中,惊奇度量是指模型检测到的当前记忆与新输入信息之间的巨大差异。

当模型接收到一个新词,比如猫,而它当前的记忆状态已经预期会出现一个动物词汇时,这种差异很小,梯度(即惊奇度)就很低。

模型会认为这是一个常规信息,不需要浪费宝贵的长期记忆资源去专门存储它。

相反,如果模型的记忆状态正在处理一份严肃的财务报告,突然输入了一张香蕉皮的图片,这种巨大的反差会产生极高的梯度。

这个高梯度信号就是模型内部的报警器,它在数学上大声疾呼:这是意料之外的重要信息。

于是,模型会优先将这一信息刻入长期记忆模块。

这种利用内部误差信号(梯度)来指导记忆更新的方法,让Titans能够极其高效地筛选信息。

它只选择性地更新那些最新颖、最能打破现有上下文的信息,从而保持了整体处理过程的快速与高效。

为了进一步完善这一机制,Titans融入了两个关键要素。

首先是动量(Momentum)。

模型在判断信息重要性时,不仅看当前的瞬间惊奇,还会考量过去的惊奇积累,即最近的上下文流。

这确保了那些虽然单个看起来不那么惊人,但作为后续相关信息基础的内容也能被捕捉到。

其次是遗忘机制(权重衰减)。

面对无限延伸的序列,任何记忆系统的容量终究是有限的。

Titans采用自适应权重衰减作为一种遗忘门,允许模型主动丢弃那些不再需要的信息,为新知识腾出空间。

MIRAS框架:序列建模的统一场论如果我们透过现象看本质,会发现序列建模领域的每一次重大突破,从现代Transformer到最新的线性RNN,其底层逻辑惊人地一致:它们都是某种形式的高度复杂的联想记忆模块。

基于这一洞察,MIRAS框架应运而生。

200万token上下文能力,并且越用越聪明!Google重构AI长期记忆

它不再将各种模型视为互不相关的架构,而是将它们看作解决同一个问题的不同方法即如何在不遗忘核心概念的前提下,高效地将新信息与旧记忆融合。

MIRAS通过四个关键的设计选择来定义一个序列模型。

首先是记忆架构,即存储信息的结构,它可以是向量、矩阵,也可以是像Titans那样深度的多层感知机。

其次是注意力偏差,这是模型优化的内部学习目标,决定了模型优先关注什么。

第三是保留门,即记忆正则化器。

MIRAS将传统的遗忘机制重新解释为一种正则化形式,用于在学习新知识和保留旧知识之间寻找平衡。

最后是记忆算法,即用于更新记忆的具体优化算法。

现有的成功序列模型几乎都依赖均方误差(MSE)或点积相似度来处理偏差和保留。

这种对传统欧几里得几何范式的依赖,使得模型对异常值非常敏感,同时也限制了模型的表达能力。

MIRAS超越了这一局限,它提供了一个生成式框架,引入了优化理论和统计学文献中的丰富设计空间。

这使得研究人员可以探索非欧几里得的目标函数和正则化方法,从而创造出全新的架构。

基于MIRAS框架,研究团队设计了三种无注意力机制的新模型变体。

YAAD旨在降低对重大错误或异常值的敏感度,例如大文档中的个别拼写错误。

它使用Huber损失函数作为一种更温和的数学惩罚,避免模型对一次性问题反应过度,从而在面对杂乱或不一致的数据时更加稳健。

MONETA则探索了更复杂、更严格的数学惩罚(广义范数)。

它研究了这种更具纪律性的规则是否能带来更强大、更稳定的长期记忆系统。

MEMORA专注于实现最佳的记忆稳定性,它强制记忆像严格的概率图一样运作。

通过这种约束,它确保每次记忆状态更新都是受控且平衡的,从而保证了新信息整合过程的清晰与稳定。

深度记忆的力量与未来展望通过严格的对比实验,Titans及其MIRAS变体(YAAD, MONETA, MEMORA)展现出了超越Transformer++、Mamba-2和Gated DeltaNet等领先架构的实力。

200万token上下文能力,并且越用越聪明!Google重构AI长期记忆

这种优势不仅体现在标准的语言建模任务(如C4, WikiText)中,在零样本推理任务(如HellaSwag, PIQA)中,这些模型也一致表现出了更高的准确性和更低的困惑度。

困惑度是衡量大语言模型在面对一段文本时惊讶程度的指标,数值越低,说明模型的预测越准确,理解力越强。

消融研究揭示了一个关键发现:记忆架构的深度至关重要。

当对比大小相同但深度不同的长期记忆模块时,更深层的记忆模块始终能实现更低的困惑度。

更重要的是,它们展现出了更好的扩展性。随着序列长度的大幅增加,深度记忆模块依然能保持优异的性能,没有出现常见的性能衰减。

在语言建模和常识推理任务中,Titans架构的表现优于同等规模的最先进线性递归模型和Transformer++基线。MIRAS的新变体也证明了探索非MSE优化机制的价值。值得注意的是,这些模型在提升性能的同时,依然保持了高效的并行训练能力和快速的线性推理速度。Titans不仅仅局限于文本,在基因组建模(DNA)和时间序列预测等任务上的测试表明,这套架构具有强大的通用性。

这些新架构最显著的优势在于处理极端长上下文的能力。

BABILong基准测试是一项极具挑战性的任务,要求模型在分布于超长文档中的事实之间进行推理。

200万token上下文能力,并且越用越聪明!Google重构AI长期记忆

在这个高难度设定下,Titans击败了所有基线模型,包括参数量巨大无比的GPT-4。

尽管Titans的参数量要少得多,它却展示了有效扩展到超过200万token上下文窗口的能力。这意味着AI在处理海量信息时,不再需要为了速度而牺牲记忆的准确性。

Titans架构与MIRAS框架的推出,是序列建模领域的一次重大飞跃。

通过使用深度神经网络作为记忆模块,并让模型在数据输入时实时学习和记忆,这些方法彻底克服了固定大小递归状态的局限。

MIRAS提供的理论统一,揭示了在线优化、联想记忆与架构设计之间深层的内在联系。

通过跳出标准的欧几里得范式,这项研究为新一代序列模型打开了大门。

未来的AI模型将兼具RNN的高效与Transformer的表达力,真正从容应对长上下文时代的挑战。

参考资料:

https://research.google/blog/titans-miras-helping-ai-have-long-term-memory/

https://arxiv.org/pdf/2501.00663

https://arxiv.org/pdf/2504.13173

智能网 https://www.cnaiplus.com

本文网址:

欢迎关注微信公众号:人工智能报;合作及投稿请联系:editor@cnaiplus.com

AI中国号...

关注微信公众号,了解最新精彩内容