AI 记忆系统不是模仿人脑,而是让过去以可验证状态参与未来推理
人类记忆服务于生物体的连续自我、情绪调节和生存判断;AI 记忆系统应服务于模型外部的可控状态更新、证据约束、任务迁移和行为改进。 因此,AI Memory System 的核心不是“记得更多”,而是“在正确时刻召回正确状态,并知道它为什么可信、何时失效、如何影响下一步行动”。
Memory = compressed past experience that changes future inference and action.
记忆不是存档。只有当过去经验能被索引、约束、更新,并影响下一次判断和行动,它才成为记忆。
本报告的研究边界
本页使用当前 Knowledge Forge 的只读输出作为结构样本:概念、概念格、规范基和 wiki 编译物。它不把当前 Forge 等同于完整 AI Memory System,而是用它解释“结构化长期记忆”这一层的价值和缺口。
1. 记忆的本质:不是保存过去,而是约束未来
对 AI 来说,记忆不是“更多上下文窗口”,也不是“更大的向量库”。AI 记忆的最小闭环应该是:从经验中抽取可复用状态,在未来任务中被召回,并能改变推理、计划或工具调用。
Trace
对话、文件、运行日志、工具调用、用户反馈、失败记录。
Encode
抽取事实、偏好、概念、决策、约束、程序经验。
Organize
向量索引、概念位、图结构、时间线、版本链。
Recall
按任务目标、语义相似、约束冲突和时间有效性召回。
Change
改变回复、计划、权限判断、工具选择和下一轮学习。
2. 人类记忆和 AI 记忆不是同一种东西
人类记忆是生物连续体的一部分,和身体、情绪、身份、注意力、睡眠、遗忘机制绑定。AI 没有身体连续性和自发主观体验,它需要的是外部化、可审计、可组合的状态系统。
人类记忆:生物连续自我的调节系统
- 体验优先记忆和感受、情绪、身体状态共同编码。
- 模糊重构召回不是读取文件,而是按当前情境重建过去。
- 自发遗忘遗忘能降低认知负担,也会造成偏差。
- 身份连续记忆维护“我是谁”“我经历过什么”的连续感。
- 行动直觉经验常以内隐方式影响下一次判断。
AI 记忆:证据约束的外部状态系统
- 证据优先每条记忆应能追溯来源、时间、置信度和适用范围。
- 显式编译把原始痕迹编译成事实、偏好、概念、规则和程序经验。
- 可控遗忘降权、归档、删除和替换应该是治理动作。
- 任务连续服务于项目、用户、工具链和运行状态的连续性。
- 行为可验证召回必须能改变行动,并能被反馈评估。
3. 用 Knowledge Forge 观察“结构化记忆”的现状
当前 Forge 的价值在于把自然语言资料压缩成概念结构:文档是对象集 G,概念是属性集 M,文档-概念关系形成二元关系 I,再通过 FCA 生成概念格、规范基和 wiki 文章。这是 long memory 的结构化层,但不是完整记忆系统。
已具备:结构压缩
6 篇来源文档被压成 33 个概念属性和 10 个格节点,说明系统能把长文本沉淀为更小的结构状态。
已具备:规则发现
当前规范基有 32 条蕴涵规则,能表达“讨论 A 的资料通常也讨论 B”的结构关系。
已具备:增量编译
系统通过 source_hash、影响锥和概念文章版本,支持局部更新,而不是每次全量重写。
图示含义:蓝色为强关联概念位,青色为弱/间接关联,灰色为未关联,黄色代表可能触发治理或审计的概念位。当前 Forge 实际存储是硬 0/1 关系;这里用软色表达下一阶段应补的 soft memory 层。
4. AI 原生记忆系统应该从模型能力反推
LLM 的原生能力是语言推理、模式补全、工具调用和上下文整合。它的短板是持续状态、来源追踪、时间一致性和自我校正。因此 AI Memory System 不应模仿海马体,而应补足模型缺失的外部状态能力。
| AI 原生能力 | 对应记忆需求 | 系统形态 | 错误形态 |
|---|---|---|---|
| 语义泛化 | 跨说法召回同一经验 | Embedding + concept prototype | 只按关键词匹配,召回失败 |
| 符号推理 | 规则、约束、边界、因果关系 | Claim graph + FCA / implication basis | 只召回片段,不知道规则 |
| 工具执行 | 项目经验、失败模式、操作偏好 | Procedure memory + run ledger summary | 每次从零试错 |
| 对话协作 | 用户偏好、长期边界、风格约束 | User profile + preference versioning | 忘记用户修正,重复犯错 |
| 上下文编排 | 把召回内容压成可用 prompt context | Context compiler + budget manager | 召回太多,污染当前任务 |
5. AI Memory System 的目标架构
一个 AI 原生长期记忆系统应该至少包含五个层面:痕迹层、编码层、存储层、治理层、召回编译层。Knowledge Forge 更适合放在“结构记忆/知识编译”位置,而不是承担全部记忆职责。
6. 从向量空间到汉明空间:它在记忆系统里的位置
这条技术路线不是完整 long memory,但它是 AI memory 的关键桥:把模型擅长的连续语义相似,转成系统擅长的可解释结构和高效索引。
Embedding
把文本、事件、运行结果映射到连续向量空间。
Concept Prototype
每个概念有原型向量或多原型簇。
Soft Membership
不是 0/1,而是 p(concept|memory)。
Annealing
通过温度/阈值逐步二值化。
Binary Code
形成概念位,可做 XOR / popcount。
Hamming Space
低成本比较记忆之间的概念差异。
Formal Context
形成 G × M 的二元关系。
FCA Lattice
发现闭包、共同概念和结构层级。
Implication Basis
沉淀规则和共现规律。
Governed Recall
按证据、时间和冲突治理后进入上下文。
7. 当前技术路线在 long memory 上的不足
Knowledge Forge 已经能做概念结构化,但完整 long memory 还需要事实粒度、时间治理、冲突裁决、遗忘机制和召回反馈。下面是缺口优先级。
缺 soft memory
当前文档-概念关系是硬 0/1。长期记忆需要强弱相关、模型猜测、用户确认、过期降权等灰度状态。
缺 claim memory
概念能说明“涉及什么”,但不能稳定说明“谁在何处说了什么事实,以及这个事实是否仍有效”。
缺 hybrid retrieval
当前查询偏概念名/关键词。长期记忆需要向量召回、汉明距离、图路径、时间权重和偏好过滤联合排序。
缺 temporal model
有时间戳和历史,但没有“发生时间、有效期、替代关系、阶段归属、偏好演化”的统一模型。
缺 conflict policy
矛盾检测目前偏文本扫描。真实 long memory 需要规则化裁决:用户确认优先、新版本优先、语境隔离。
缺 feedback loop
召回内容是否帮助了任务、是否被用户接受、是否导致错误,目前还没有成为记忆权重更新信号。
8. Long Memory 和 Long Runtime 必须分层,但要闭环
Long runtime 负责长时间执行、checkpoint、恢复、队列、权限和观测;long memory 负责把运行经验转成下一次可用的知识状态。二者不是同一个系统,但如果不闭环,Agent 就只能“跑久”,不能“越跑越懂”。
9. 建设 AI Memory System 的五阶段路线
最稳妥的路线不是重写 Knowledge Forge,而是保留它的结构化优势,在前面补 soft/claim 编码,在后面补治理和召回反馈。
Claim Store
把 claims 从 LLM 提取结果里保存下来,建立 claim、evidence span、source、confidence、validity。
Soft Concept
增加 embedding 和 soft membership,保留灰度相关性,再按任务需要硬化成概念位。
Hybrid Retrieval
实现向量相似、汉明距离、FCA 路径、时间权重、用户偏好权重的混合排序。
Governance
加入冲突裁决、版本替代、记忆降权、归档删除、用户确认和敏感记忆边界。
Action Feedback
把召回是否帮助任务、是否被用户纠正、是否导致失败,反写成记忆权重和程序经验。
10. 最终定义:AI Memory System 应该是什么
不是
无限上下文窗口。
不是
单纯向量数据库。
不是
聊天记录全文存档。
不是
模仿人脑海马体。
应该是
可证据追踪的事实层。
应该是
可解释的知识结构层。
应该是
可演化的用户偏好层。
应该是
能改变行动的程序经验层。
Evidence basis: current local Knowledge Forge status, packages/knowledge-forge/.forge/context.json,
metrics.json, lattice.json, basis.json, and wiki/indices/overview.md.
This artifact is a static HTML research report and does not mutate the Forge knowledge base.