尽管人们目前对存储器(内存)市场普遍看跌,但在我看来,泄露的 Claude Code 源代码向我们展示了一些市场尚未定价的额外内存需求。
市场通常将 AI 内存需求视为纯粹的服务器端故事,比如用于推理的 H100 或 B200 芯片上的 HBM。然而,该代码中的错误报告揭示出,AI 编程智能体的客户端同样极其消耗内存。空闲的 Claude Code 进程每个会膨胀到 15GB,而活动会话甚至能达到 93GB 至 129GB。这一点至关重要,因为代码中的功能标志管道(DAEMON、PROACTIVE、CRON)预示着未来会出现始终在线的后台智能体。如果开发人员在活动会话之外还运行着一个持续的守护进程智能体,那么仅 Claude Code 在开发人员工作站上的基础内存消耗就会达到 15GB 到 30GB 以上——这甚至是在他们打开 IDE、浏览器或其他任何程序之前。这意味着企业 IT 部门要么需要大幅升级到更高内存的工作站,要么我们就得将更多吃内存的工作负载转移到云端。
此外,代码中的 Auto Dream 整合功能会在后台运行 Claude 会话来清理内存文件。据观察,一次整合处理 913 个会话需要耗费 8 到 9 分钟。换言之,Anthropic 相当一部分的 Token 消耗是系统在管理自身内存,而不是用户在进行生产性工作。随着内存管理系统变得越来越复杂(例如团队同步、跨会话事件总线、内存整合),这种开销也会随之增加。这是一种递归成本——更丰富的内存功能需要消耗更多的推理算力来进行管理。我认为目前还没有任何人将这一点作为 Token 消耗预估中的独立项目来进行建模。
同时,Claude Code 具备 100 万 Token 的上下文窗口。将上下文从 20 万提升至 100 万,意味着服务器端每个会话的 KV 缓存内存将增加 5 倍。结合多智能体架构(每个用户的需求增加 5 到 15 倍)以及主动/守护进程功能(会话持续数小时或数天而不是短短几分钟),最终呈现的是一条复合的内存需求曲线,它远比许多分析师所建立的线性采用增长模型要陡峭得多。
归根结底,每个活跃用户的内存需求增长速度已经远超用户数量本身的增长速度,因为每个用户的会话都在变得更长、更宽(涉及更多智能体)以及更深(拥有更大的上下文窗口)。
市场通常将 AI 内存需求视为纯粹的服务器端故事,比如用于推理的 H100 或 B200 芯片上的 HBM。然而,该代码中的错误报告揭示出,AI 编程智能体的客户端同样极其消耗内存。空闲的 Claude Code 进程每个会膨胀到 15GB,而活动会话甚至能达到 93GB 至 129GB。这一点至关重要,因为代码中的功能标志管道(DAEMON、PROACTIVE、CRON)预示着未来会出现始终在线的后台智能体。如果开发人员在活动会话之外还运行着一个持续的守护进程智能体,那么仅 Claude Code 在开发人员工作站上的基础内存消耗就会达到 15GB 到 30GB 以上——这甚至是在他们打开 IDE、浏览器或其他任何程序之前。这意味着企业 IT 部门要么需要大幅升级到更高内存的工作站,要么我们就得将更多吃内存的工作负载转移到云端。
此外,代码中的 Auto Dream 整合功能会在后台运行 Claude 会话来清理内存文件。据观察,一次整合处理 913 个会话需要耗费 8 到 9 分钟。换言之,Anthropic 相当一部分的 Token 消耗是系统在管理自身内存,而不是用户在进行生产性工作。随着内存管理系统变得越来越复杂(例如团队同步、跨会话事件总线、内存整合),这种开销也会随之增加。这是一种递归成本——更丰富的内存功能需要消耗更多的推理算力来进行管理。我认为目前还没有任何人将这一点作为 Token 消耗预估中的独立项目来进行建模。
同时,Claude Code 具备 100 万 Token 的上下文窗口。将上下文从 20 万提升至 100 万,意味着服务器端每个会话的 KV 缓存内存将增加 5 倍。结合多智能体架构(每个用户的需求增加 5 到 15 倍)以及主动/守护进程功能(会话持续数小时或数天而不是短短几分钟),最终呈现的是一条复合的内存需求曲线,它远比许多分析师所建立的线性采用增长模型要陡峭得多。
归根结底,每个活跃用户的内存需求增长速度已经远超用户数量本身的增长速度,因为每个用户的会话都在变得更长、更宽(涉及更多智能体)以及更深(拥有更大的上下文窗口)。
source