Agent-OS Research Artifact

AI 记忆系统不是模仿人脑，而是让过去以可验证状态参与未来推理

人类记忆服务于生物体的连续自我、情绪调节和生存判断；AI 记忆系统应服务于模型外部的可控状态更新、证据约束、任务迁移和行为改进。因此，AI Memory System 的核心不是“记得更多”，而是“在正确时刻召回正确状态，并知道它为什么可信、何时失效、如何影响下一步行动”。

Memory = compressed past experience that changes future inference and action.

记忆不是存档。只有当过去经验能被索引、约束、更新，并影响下一次判断和行动，它才成为记忆。

trace → encoded state → governed recall → compiled context → changed action

本报告的研究边界

本页使用当前 Knowledge Forge 的只读输出作为结构样本：概念、概念格、规范基和 wiki 编译物。它不把当前 Forge 等同于完整 AI Memory System，而是用它解释“结构化长期记忆”这一层的价值和缺口。

Long Memory Knowledge Forge FCA / Concept Lattice Memory Governance AI-native Design

Forge Documents

当前知识库来源文档

Concept Attributes

可解释概念标签

Lattice Nodes

FCA 格节点

Phase

Growth

d=0.192 / d*=0.936

1. 记忆的本质：不是保存过去，而是约束未来

对 AI 来说，记忆不是“更多上下文窗口”，也不是“更大的向量库”。AI 记忆的最小闭环应该是：从经验中抽取可复用状态，在未来任务中被召回，并能改变推理、计划或工具调用。

Trace

对话、文件、运行日志、工具调用、用户反馈、失败记录。

Encode

抽取事实、偏好、概念、决策、约束、程序经验。

Organize

向量索引、概念位、图结构、时间线、版本链。

Recall

按任务目标、语义相似、约束冲突和时间有效性召回。

Change

改变回复、计划、权限判断、工具选择和下一轮学习。

2. 人类记忆和 AI 记忆不是同一种东西

人类记忆是生物连续体的一部分，和身体、情绪、身份、注意力、睡眠、遗忘机制绑定。AI 没有身体连续性和自发主观体验，它需要的是外部化、可审计、可组合的状态系统。

人类记忆：生物连续自我的调节系统

体验优先记忆和感受、情绪、身体状态共同编码。
模糊重构召回不是读取文件，而是按当前情境重建过去。
自发遗忘遗忘能降低认知负担，也会造成偏差。
身份连续记忆维护“我是谁”“我经历过什么”的连续感。
行动直觉经验常以内隐方式影响下一次判断。

AI 记忆：证据约束的外部状态系统

证据优先每条记忆应能追溯来源、时间、置信度和适用范围。
显式编译把原始痕迹编译成事实、偏好、概念、规则和程序经验。
可控遗忘降权、归档、删除和替换应该是治理动作。
任务连续服务于项目、用户、工具链和运行状态的连续性。
行为可验证召回必须能改变行动，并能被反馈评估。

3. 用 Knowledge Forge 观察“结构化记忆”的现状

当前 Forge 的价值在于把自然语言资料压缩成概念结构：文档是对象集 G，概念是属性集 M，文档-概念关系形成二元关系 I，再通过 FCA 生成概念格、规范基和 wiki 文章。这是 long memory 的结构化层，但不是完整记忆系统。

已具备：结构压缩

6 篇来源文档被压成 33 个概念属性和 10 个格节点，说明系统能把长文本沉淀为更小的结构状态。

已具备：规则发现

当前规范基有 32 条蕴涵规则，能表达“讨论 A 的资料通常也讨论 B”的结构关系。

已具备：增量编译

系统通过 source_hash、影响锥和概念文章版本，支持局部更新，而不是每次全量重写。

文档 / 概念位

花园范式

超协体

LLM 意图

置信度路由

软归档

设计漂移

品牌叙事资料

面板/灵枢资料

运行审计资料

图示含义：蓝色为强关联概念位，青色为弱/间接关联，灰色为未关联，黄色代表可能触发治理或审计的概念位。当前 Forge 实际存储是硬 0/1 关系；这里用软色表达下一阶段应补的 soft memory 层。

4. AI 原生记忆系统应该从模型能力反推

LLM 的原生能力是语言推理、模式补全、工具调用和上下文整合。它的短板是持续状态、来源追踪、时间一致性和自我校正。因此 AI Memory System 不应模仿海马体，而应补足模型缺失的外部状态能力。

AI 原生能力	对应记忆需求	系统形态	错误形态
语义泛化	跨说法召回同一经验	Embedding + concept prototype	只按关键词匹配，召回失败
符号推理	规则、约束、边界、因果关系	Claim graph + FCA / implication basis	只召回片段，不知道规则
工具执行	项目经验、失败模式、操作偏好	Procedure memory + run ledger summary	每次从零试错
对话协作	用户偏好、长期边界、风格约束	User profile + preference versioning	忘记用户修正，重复犯错
上下文编排	把召回内容压成可用 prompt context	Context compiler + budget manager	召回太多，污染当前任务

5. AI Memory System 的目标架构

一个 AI 原生长期记忆系统应该至少包含五个层面：痕迹层、编码层、存储层、治理层、召回编译层。Knowledge Forge 更适合放在“结构记忆/知识编译”位置，而不是承担全部记忆职责。

Trace Layer

Conversation对话、用户修正、决策

Files文档、代码、报告、素材

Run Ledger任务执行、工具调用、失败

Feedback用户确认、否定、偏好变化

Encode Layer

Embedding连续语义向量

Claims事实与证据片段

Concept Bits软/硬概念归属

Procedures可复用操作经验

Store Layer

Vector Store相似召回

Hamming Index概念位快速比较

Knowledge ForgeFCA / wiki / rules

Temporal Ledger时间、版本、有效期

User Profile偏好、约束、边界

Govern Layer

Evidence来源追踪与引用

Conflict矛盾检测与裁决

Decay降权、过期、归档

Consent用户确认与删除

Recall Layer

Hybrid Retrieval向量 + 汉明 + 图路径

Context Compiler预算内编译 prompt

Action Bias改变计划和工具选择

Eval Feedback召回是否真的有用

6. 从向量空间到汉明空间：它在记忆系统里的位置

这条技术路线不是完整 long memory，但它是 AI memory 的关键桥：把模型擅长的连续语义相似，转成系统擅长的可解释结构和高效索引。

语义层

Embedding

把文本、事件、运行结果映射到连续向量空间。

Concept Prototype

每个概念有原型向量或多原型簇。

Soft Membership

不是 0/1，而是 p(concept|memory)。

Annealing

通过温度/阈值逐步二值化。

Binary Code

形成概念位，可做 XOR / popcount。

结构层

Hamming Space

低成本比较记忆之间的概念差异。

Formal Context

形成 G × M 的二元关系。

FCA Lattice

发现闭包、共同概念和结构层级。

Implication Basis

沉淀规则和共现规律。

Governed Recall

按证据、时间和冲突治理后进入上下文。

关键判断： 向量到汉明的价值不是“压缩向量”本身，而是把不可解释的相似性，转成可计算、可审计、可增量维护的知识结构。

7. 当前技术路线在 long memory 上的不足

Knowledge Forge 已经能做概念结构化，但完整 long memory 还需要事实粒度、时间治理、冲突裁决、遗忘机制和召回反馈。下面是缺口优先级。

缺 soft memory

当前文档-概念关系是硬 0/1。长期记忆需要强弱相关、模型猜测、用户确认、过期降权等灰度状态。

优先级 P0

缺 claim memory

概念能说明“涉及什么”，但不能稳定说明“谁在何处说了什么事实，以及这个事实是否仍有效”。

优先级 P0

缺 hybrid retrieval

当前查询偏概念名/关键词。长期记忆需要向量召回、汉明距离、图路径、时间权重和偏好过滤联合排序。

优先级 P0

缺 temporal model

有时间戳和历史，但没有“发生时间、有效期、替代关系、阶段归属、偏好演化”的统一模型。

优先级 P1

缺 conflict policy

矛盾检测目前偏文本扫描。真实 long memory 需要规则化裁决：用户确认优先、新版本优先、语境隔离。

优先级 P1

缺 feedback loop

召回内容是否帮助了任务、是否被用户接受、是否导致错误，目前还没有成为记忆权重更新信号。

优先级 P1

8. Long Memory 和 Long Runtime 必须分层，但要闭环

Long runtime 负责长时间执行、checkpoint、恢复、队列、权限和观测；long memory 负责把运行经验转成下一次可用的知识状态。二者不是同一个系统，但如果不闭环，Agent 就只能“跑久”，不能“越跑越懂”。

维度

输入

核心能力

状态形态

失败模式

与对方关系

Long Memory

经验、文档、对话、反馈

编码、压缩、召回、治理

事实、偏好、概念、规则、程序经验

记错、过期、召回污染、冲突未裁决

吸收 runtime 经验，并为下一轮 runtime 提供约束

Long Runtime

任务目标、工具、环境、事件流

调度、恢复、重试、观测、交接

run ledger、checkpoint、队列、权限状态

跑偏、卡住、重复执行、失败不可恢复

产生高价值经验，触发 memory 编译和程序学习

工程原则： Knowledge Forge 应作为 long memory 的结构层接入 Run Ledger，而不是替代 runtime。运行时负责“发生了什么”，记忆系统负责“这些经验以后如何改变行动”。

9. 建设 AI Memory System 的五阶段路线

最稳妥的路线不是重写 Knowledge Forge，而是保留它的结构化优势，在前面补 soft/claim 编码，在后面补治理和召回反馈。

Claim Store

把 claims 从 LLM 提取结果里保存下来，建立 claim、evidence span、source、confidence、validity。

Soft Concept

增加 embedding 和 soft membership，保留灰度相关性，再按任务需要硬化成概念位。

Hybrid Retrieval

实现向量相似、汉明距离、FCA 路径、时间权重、用户偏好权重的混合排序。

Governance

加入冲突裁决、版本替代、记忆降权、归档删除、用户确认和敏感记忆边界。

Action Feedback

把召回是否帮助任务、是否被用户纠正、是否导致失败，反写成记忆权重和程序经验。

10. 最终定义：AI Memory System 应该是什么

AI Memory System 是一个证据约束的外部状态机： 它把过去的对话、文件、运行和反馈编译成可检索、可解释、可治理、可更新的状态，并在未来任务中通过上下文编译和行动偏置改变模型行为。

不是

无限上下文窗口。

不是

单纯向量数据库。

不是

聊天记录全文存档。

不是

模仿人脑海马体。

应该是

可证据追踪的事实层。

应该是

可解释的知识结构层。

应该是

可演化的用户偏好层。

应该是

能改变行动的程序经验层。

Evidence basis: current local Knowledge Forge status, packages/knowledge-forge/.forge/context.json, metrics.json, lattice.json, basis.json, and wiki/indices/overview.md. This artifact is a static HTML research report and does not mutate the Forge knowledge base.