AI 记忆机制全景综述：从认知理论到智能体架构

发表于 2026/03/26 更新于 2026/03/26

作者 wang

17 分钟阅读

论文信息
标题: Survey on AI Memory: Theories, Taxonomies, Evaluations, and Emerging Trends
作者: Ting Bai, Jiayang Fan, Xiaoshuai Wen et al.
机构: BaiJia AI Team, 北京邮电大学，华为技术有限公司
发布: 2026/01/15
GitHub: 项目地址

一句话总结

本文提出了统一的 AI 记忆理论框架，通过独创的 4W 记忆分类法（When-What-How-Which）系统梳理了单智能体和多智能体系统中的记忆机制，为 AI 记忆研究提供了首个整合认知心理学与工程实践的系统性路线图。

背景与动机

为什么 AI 记忆如此重要？

大型语言模型（LLM）驱动的 Agent 正在成为连接先进 AI 能力与复杂现实场景的关键桥梁。从医疗诊断到金融投资，从教育个性化到机器人协作，这些系统正在推动 AI 向更高级的自主智能和以人为本的设计演进。

然而，标准 LLM 面临两个核心瓶颈：

上下文窗口限制：尽管不断进步，但固有的上下文长度约束阻碍了超长文本处理和维护跨会话交互
无状态交互：缺乏有效积累和重用历史记忆的机制，导致每个交互都被视为孤立事件，无法利用过往信息优化后续决策

这些限制在多个场景中表现明显：对话助手无法跨会话保留用户偏好，具身 Agent 难以积累探索经验用于运动规划，多 Agent 系统因无法共享经验而协作效率低下。

记忆机制的核心价值

AI 记忆的价值远不止于缓解 LLM 的技术瓶颈。它作为变革性赋能器，将 AI 系统从通用工具提升为自适应、协作、以人为本的智能体。这一转变通过分层递进实现：

基础层：Agent 化 - 使 LLM 从被动”工具”转变为主动”主体”
能力层：高级能力放大 - 促进跨任务经验重用，支持长程推理
进化层：智能进化引擎 - 支持终身学习和人类对齐的交互

例如，OpenAI 在 2024 年为 ChatGPT 推出的 Memory 功能，通过记忆用户偏好和跨会话交互历史，提升了个性化响应的准确性，验证了记忆机制在商业产品中的核心价值。

理论基础

认知心理学的三大支柱

本文整合了认知心理学和神经科学的三大理论基础，为 AI 记忆设计提供指导：

1. Atkinson-Shiffrin 三存储模型

该模型将人类记忆概念化为三个相互作用的存储：

感觉寄存器：超短期缓冲，视觉记忆（图像记忆）持续约 0.5 秒，听觉记忆（回声记忆）持续数秒
短期/工作记忆：容量有限，仅能主动保持约 4 个有意义的组块，持续数秒
长期记忆：持久的知识库，包含事实、个人事件和技能，可维持数天至数十年

这些存储通过注意、复述和检索等控制过程协调。

2. 工作记忆模型

Baddeley 和 Hitch 提出的多成分工作记忆系统包含：

中央执行器：容量有限的控制器，指导注意力并协调资源
语音回路：通过复述维持语言材料
视觉空间画板：保持视觉和空间表征
情景缓冲区：整合来自各子系统和长期记忆的信息，形成统一的多模态情景

3. 互补学习系统理论

该理论将大脑记忆架构描述为海马体与新皮层的协同伙伴关系：

海马体：敏捷的编码器和索引器，快速绑定新经验的片段
新皮层：深度存储，缓慢更新以保护现有知识

在静息状态和睡眠期间，海马体会短暂重新激活近期经验，提取皮层中的匹配模式，鼓励信息以更稳定的节奏整合。

AI 记忆的边界澄清

本文明确了三个层次的记忆概念：

LLM 记忆：形成预测的底层计算核心
Agent 记忆：提供功能工作流以支持自主性和复杂任务执行
AI 记忆：代表面向终身进化、长期持久和适应的总体认知概念

核心方法

4W 记忆分类法

本文提出了结构化的”4W 记忆分类法”，实现跨不同架构的一致性分析：

图 1：AI 记忆演进全景图，展示从简单上下文窗口到复杂多智能体记忆生态系统的发展路线

图 2:4W 记忆分类法，包含四个正交维度：When（生命周期）、What（记忆类型）、How（存储形式）、Which（模态类型）

图 3：单智能体记忆系统架构，展示感知、编码、存储、检索、更新五大核心组件的协作流程

图 4：多智能体记忆系统性能对比，展示不同知识转移机制在协作效率上的差异

When（何时）- 记忆操作的时间维度

编码时机：即时编码 vs 延迟编码
检索触发：主动检索 vs 被动检索
更新频率：连续更新 vs 批量更新
遗忘策略：基于时间衰减 vs 基于重要性保留

What（什么）- 记忆内容类型

事实性记忆：世界知识、用户偏好、领域规则
程序性记忆：技能、操作流程、工具使用方法
情景记忆：具体交互历史、任务执行轨迹
语义记忆：抽象概念、关系网络、知识图谱

How（如何）- 存储与处理机制

参数化存储：将知识编码到模型权重中（如微调、LoRA）
非参数化存储：外部数据库、向量检索、知识图谱
混合架构：结合两者优势，动态选择存储位置

Which（哪个）- 模态与形式选择

文本模态：自然语言描述的结构化/非结构化记忆
多模态：融合视觉、听觉、传感器数据
隐式表示：嵌入向量、潜在空间表示
显式表示：符号化、可解释的记忆结构

单智能体记忆系统

架构设计

单智能体记忆系统通常包含以下核心组件：

感知模块：接收并预处理外部输入
编码模块：将感知信息转换为可存储的记忆表示
存储模块：管理记忆的持久化和组织
检索模块：根据当前上下文高效检索相关记忆
更新模块：决定记忆的修改、强化或遗忘

关键技术

记忆检索机制

基于相似度检索：使用向量相似度（如余弦相似度）检索最相关记忆
基于关键词检索：传统倒排索引方法
混合检索：结合多种检索策略，平衡精确度与召回率

记忆压缩与抽象

摘要生成：将长文本压缩为简洁摘要
关键信息提取：识别并保留核心实体和关系
层次化组织：构建从具体到抽象的记忆层次结构

多智能体记忆系统

集体记忆架构

多智能体系统中的记忆机制面临独特挑战：

记忆共享：如何在智能体之间高效传递记忆片段
一致性维护：确保不同智能体对共享知识的理解一致
隐私保护：在共享的同时保护敏感信息
协调推理：基于共享记忆进行协作决策

知识转移机制

本文综述了多种知识转移范式：

直接通信：智能体通过自然语言或结构化消息交换记忆
共享存储池：建立中央化的记忆库供所有智能体访问
蒸馏迁移：将一个智能体的记忆蒸馏后迁移到另一个智能体
观察学习：通过观察其他智能体的行为间接获取记忆

评估方法与基准

评估维度

AI 记忆的评估涵盖多个维度：

性能指标：检索准确率、响应延迟、任务成功率
记忆质量：准确性、一致性、完整性、时效性
系统效率：存储开销、计算复杂度、可扩展性
用户体验：个性化程度、交互自然度、信任度

代表性基准

本文系统梳理了该领域的主要评估基准，涵盖：

对话系统：跨会话一致性、用户偏好记忆
任务型 Agent：多步任务规划、工具使用记忆
具身智能：环境探索、空间记忆、技能积累
多智能体协作：团队协调、知识共享效率

AI 分析方法亮点

问题定位精准

本文直接针对 AI 记忆研究的核心痛点：现有文献碎片化，缺乏基于认知心理学的整合视角，缺少统一的分类法和系统评估框架。特别是在多智能体系统的集体学习和协调推理方面，现有研究尤为不足。

方法创新

本文的核心创新包括：

首个统一理论框架：整合认知心理学、神经科学与 AI 工程实践，建立跨学科的理论基础
4W 分类法：提出四个正交维度的结构化分类法，为不同记忆架构提供一致性分析工具
系统性综述：覆盖单智能体和多智能体两大场景，从架构设计到评估方法的全面梳理
开源资源：提供公开的代码和数据集，推动社区协作发展

实用性强

本文不仅提供理论框架，还包含丰富的实践指导：

设计模式：从认知理论中提取可直接应用于 AI 系统的设计模式
技术对比：系统比较不同记忆机制的优缺点和适用场景
评估指南：提供选择合适评估指标和基准的建议
应用案例：涵盖医疗、金融、教育、软件工程等多个实际应用领域

总结

AI 记忆不仅仅是存储模块，而是整合技术功能、实用价值和认知对齐的动态认知基质。其核心价值在于赋予智能体持久的身份认同、放大的能力、特定场景的实用性以及进化潜力。

本文通过 4W 记忆分类法为研究者提供了统一的分析工具，通过整合认知理论与工程实践为从业者提供了系统设计指南。对于希望构建具有长期记忆能力的 AI 系统的开发者，建议优先关注：

混合存储架构：结合参数化和非参数化存储的优势
层次化组织：从具体经验到抽象知识的层次化记忆结构
动态更新机制：基于重要性和时效性的智能记忆管理
多模态融合：整合文本、视觉、听觉等多源信息

随着 LLM 驱动的智能体在更多场景中部署，AI 记忆机制将成为实现真正自主、自适应智能系统的关键使能技术。

参考链接

论文原文：https://baijia.online/homepage/survey/Survey%20on%20AI%20Memory.pdf
代码仓库：https://github.com/BAI-LAB/Survey-on-AI-Memory

论文阅读, AI Agent

AI Memory Agent 多智能体系记忆机制认知科学 LLM 综述

本文由作者按照 CC BY 4.0 进行授权