<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>批判 on 云喵盒子</title><link>https://zyfsir.github.io/tags/%E6%89%B9%E5%88%A4/</link><description>Recent content in 批判 on 云喵盒子</description><generator>Hugo -- gohugo.io</generator><language>zh-cn</language><lastBuildDate>Fri, 01 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://zyfsir.github.io/tags/%E6%89%B9%E5%88%A4/index.xml" rel="self" type="application/rss+xml"/><item><title>SOAR 的记忆蓝图：30 年前的架构，今天的营销话术</title><link>https://zyfsir.github.io/post/soar-memory-blueprint/</link><pubDate>Fri, 01 May 2026 00:00:00 +0000</pubDate><guid>https://zyfsir.github.io/post/soar-memory-blueprint/</guid><description>&lt;p&gt;写上一篇 Agent 架构演变史的时候，有一个时刻让我愣住。&lt;/p&gt;
&lt;p&gt;写到 SOAR（1987）的 Chunking 机制时，我意识到它和今天 Hermes Agent 的 SKILL 系统几乎做的是同一件事：&lt;strong&gt;把成功的经验编译成可复用的规则，下次直接调用。&lt;/strong&gt; 我当时的原话是——&lt;/p&gt;

 &lt;blockquote&gt;
 &lt;p&gt;要我说，ReAct 循环完全跟这个一样，所以算不上什么新东西。&lt;/p&gt;

 &lt;/blockquote&gt;
&lt;p&gt;这不是故作惊人之语。顺着这个思路往下挖，我发现 SOAR 的整个记忆架构在今天看都不过时。不仅不过时，它还比大部分号称有&amp;quot;记忆系统&amp;quot;的产品更完整。&lt;/p&gt;
&lt;p&gt;但这引出一个让我不太舒服的问题：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;一个 1987 年的架构就已经想清楚的事，为什么 2026 年还在被当作创新来营销？&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;或者说更尖锐一点：记忆系统，真的是 Agent 性能的关键瓶颈吗？&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="一soar-的记忆蓝图"&gt;&lt;a href="#%e4%b8%80soar-%e7%9a%84%e8%ae%b0%e5%bf%86%e8%93%9d%e5%9b%be" class="header-anchor"&gt;&lt;/a&gt;一、SOAR 的记忆蓝图
&lt;/h2&gt;&lt;p&gt;SOAR（State, Operator And Result）由 Allen Newell、John Laird 等人在 1987 年提出。它的目标是实现通用人工智能——用的还是符号主义那套方法。&lt;/p&gt;
&lt;p&gt;SOAR 不是&amp;quot;一个 AI 程序&amp;quot;，它是一套关于智能的理论：任何表现出通用智能的系统，都得有某种固定的结构，包含什么记忆系统、什么决策流程、什么学习机制。&lt;/p&gt;
&lt;p&gt;在这个框架里，记忆不是附加功能，是核心架构。SOAR 一共定义了 &lt;strong&gt;9 个记忆系统&lt;/strong&gt;，分三层：&lt;/p&gt;
&lt;h3 id="工作记忆working-memory"&gt;&lt;a href="#%e5%b7%a5%e4%bd%9c%e8%ae%b0%e5%bf%86working-memory" class="header-anchor"&gt;&lt;/a&gt;工作记忆（Working Memory）
&lt;/h3&gt;&lt;p&gt;这是 SOAR 的全局工作空间。所有感知输入、中间推理状态、决策状态都在这里，用栈结构分层表示目标与子目标。相当于今天 Agent 的 Scratchpad + 对话历史。&lt;/p&gt;
&lt;h3 id="长期记忆long-term-memory"&gt;&lt;a href="#%e9%95%bf%e6%9c%9f%e8%ae%b0%e5%bf%86long-term-memory" class="header-anchor"&gt;&lt;/a&gt;长期记忆（Long-term Memory）
&lt;/h3&gt;&lt;p&gt;长期记忆又细分为三个独立系统：&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th style="text-align: left"&gt;记忆类型&lt;/th&gt;
 &lt;th style="text-align: left"&gt;内容&lt;/th&gt;
 &lt;th style="text-align: left"&gt;今天的对应物&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;&lt;strong&gt;程序性记忆&lt;/strong&gt;（Production Rules）&lt;/td&gt;
 &lt;td style="text-align: left"&gt;if-then 规则，决定怎么做&lt;/td&gt;
 &lt;td style="text-align: left"&gt;LLM 的权重 + 推理策略&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;&lt;strong&gt;语义记忆&lt;/strong&gt;（Semantic Memory）&lt;/td&gt;
 &lt;td style="text-align: left"&gt;事实性知识，知道是什么&lt;/td&gt;
 &lt;td style="text-align: left"&gt;RAG 知识库 / 向量数据库&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;&lt;strong&gt;情节记忆&lt;/strong&gt;（Episodic Memory）&lt;/td&gt;
 &lt;td style="text-align: left"&gt;过去的经验，经历过什么&lt;/td&gt;
 &lt;td style="text-align: left"&gt;对话历史 / 记忆流&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="意向记忆intention-memory"&gt;&lt;a href="#%e6%84%8f%e5%90%91%e8%ae%b0%e5%bf%86intention-memory" class="header-anchor"&gt;&lt;/a&gt;意向记忆（Intention Memory）
&lt;/h3&gt;&lt;p&gt;SOAR 还有一个 &lt;strong&gt;Goal Stack&lt;/strong&gt;（目标栈），管理当前正在追求的子目标及其优先级。这对应今天 Agent 的任务队列和规划器。&lt;/p&gt;
&lt;h3 id="决策周期"&gt;&lt;a href="#%e5%86%b3%e7%ad%96%e5%91%a8%e6%9c%9f" class="header-anchor"&gt;&lt;/a&gt;决策周期
&lt;/h3&gt;&lt;p&gt;SOAR 的核心循环是：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;感知 → 匹配规则 → 冲突消解 → 执行 → 学习（Chunking）
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;遇到无法解决的问题时，自动创建子目标去解决。解决后，Chunking 机制把整个推导过程编译成一条新的生产规则。&lt;/p&gt;
&lt;p&gt;每一次循环可以改变行为。每一次 Chunking 可以永久提升效率。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="二今天的记忆营销"&gt;&lt;a href="#%e4%ba%8c%e4%bb%8a%e5%a4%a9%e7%9a%84%e8%ae%b0%e5%bf%86%e8%90%a5%e9%94%80" class="header-anchor"&gt;&lt;/a&gt;二、今天的&amp;quot;记忆营销&amp;quot;
&lt;/h2&gt;&lt;p&gt;现在回过头看 2023-2026 年的 Agent 产品，你会发现一个有趣的现象：&lt;strong&gt;几乎每个产品都在卖&amp;quot;记忆系统&amp;quot;。&lt;/strong&gt;&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th style="text-align: left"&gt;产品/框架&lt;/th&gt;
 &lt;th style="text-align: left"&gt;记忆卖点&lt;/th&gt;
 &lt;th style="text-align: left"&gt;实际实现&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;MemGPT/Letta&lt;/td&gt;
 &lt;td style="text-align: left"&gt;操作系统级分层记忆&lt;/td&gt;
 &lt;td style="text-align: left"&gt;存档存储 → 向量检索 → 注入上下文&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;Hermes Agent&lt;/td&gt;
 &lt;td style="text-align: left"&gt;终身学习、三层记忆&lt;/td&gt;
 &lt;td style="text-align: left"&gt;MEMORY.md(2200字符) + USER.md + FTS5 全文搜索&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;ChatGPT Memory&lt;/td&gt;
 &lt;td style="text-align: left"&gt;跨会话记住用户偏好&lt;/td&gt;
 &lt;td style="text-align: left"&gt;LLM 提取事实 → 结构化摘要 → 下次注入&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;Claude 项目记忆&lt;/td&gt;
 &lt;td style="text-align: left"&gt;记住项目上下文&lt;/td&gt;
 &lt;td style="text-align: left"&gt;单个 LLM 生成的项目摘要&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;Zep&lt;/td&gt;
 &lt;td style="text-align: left"&gt;自动实体提取和记忆管理&lt;/td&gt;
 &lt;td style="text-align: left"&gt;实体图谱 + 时间衰减 + 重要性评分&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;Kimi&lt;/td&gt;
 &lt;td style="text-align: left"&gt;手动保存到 AGENTS.md&lt;/td&gt;
 &lt;td style="text-align: left"&gt;纯文本文件读写&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;把这张表和 SOAR 的 9 层记忆系统放在一起看，你会发现一件尴尬的事：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;今天的&amp;quot;记忆系统&amp;quot;并没有比 SOAR 更丰富，反而更简陋。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;SOAR 有程序性记忆（改变了决策逻辑）、语义记忆（知识库）、情节记忆（经验）、目标栈（任务管理）。今天的产品基本上只实现了&amp;quot;存文本→检索→注入上下文&amp;quot;这一个模式，管它叫&amp;quot;记忆&amp;quot;。&lt;/p&gt;
&lt;p&gt;更关键的区别在后面。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="三检索式记忆的理论天花板"&gt;&lt;a href="#%e4%b8%89%e6%a3%80%e7%b4%a2%e5%bc%8f%e8%ae%b0%e5%bf%86%e7%9a%84%e7%90%86%e8%ae%ba%e5%a4%a9%e8%8a%b1%e6%9d%bf" class="header-anchor"&gt;&lt;/a&gt;三、检索式记忆的理论天花板
&lt;/h2&gt;&lt;p&gt;抛开营销回到技术层面：今天的&amp;quot;记忆系统&amp;quot;本质上都是检索式记忆——你存一段文本，下次用向量搜索找到它，再塞回上下文。&lt;/p&gt;
&lt;p&gt;这个范式有一个&lt;strong&gt;数学层面无法规避&lt;/strong&gt;的问题。&lt;/p&gt;
&lt;h3 id="31-高维诅咒"&gt;&lt;a href="#31-%e9%ab%98%e7%bb%b4%e8%af%85%e5%92%92" class="header-anchor"&gt;&lt;/a&gt;3.1 高维诅咒
&lt;/h3&gt;&lt;p&gt;你能想到的几乎所有嵌入模型都在用 768d 或 1024d 的向量。&lt;/p&gt;
&lt;p&gt;Aggarwal 等人在 2001 年就证明了一个令人不安的事实：当维度超过 ~25 时，高维空间中所有点的距离趋向均匀。最近邻和最远邻的距离比值趋近于 1。&lt;/p&gt;
&lt;p&gt;这意味着：&lt;strong&gt;你的向量索引本质上是一个随机排序器，&lt;/strong&gt; 只是被嵌入模型的&amp;quot;语义压缩&amp;quot;勉强维持着秩序。两个文档余弦相似度 0.85 可能语义无关，另外两个 0.80 可能是同义改写。你的 ANN 索引分辨不了这个区别。&lt;/p&gt;
&lt;p&gt;你提高召回率=扩大检索范围，必然引入噪声——因为决策边界一定包含边界线不相关的文档。&lt;/p&gt;
&lt;h3 id="32-lost-in-the-middle"&gt;&lt;a href="#32-lost-in-the-middle" class="header-anchor"&gt;&lt;/a&gt;3.2 Lost in the Middle
&lt;/h3&gt;&lt;p&gt;Liu 等人（2023）发现 LLM 在长上下文上的表现呈 U 型曲线：相关信息在开头和结尾时性能最好，在中间时下降 20-40%。&lt;/p&gt;
&lt;p&gt;这意味着什么？&lt;strong&gt;你为了提高召回率多检索几个文档进去，这些文档恰好被塞进了模型最不会利用的位置。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;你在主动伤害自己。&lt;/p&gt;
&lt;p&gt;更糟糕的是，这个 U 型是因果注意力（Causal Attention）的结构性属性。长上下文模型（128K、200K、甚至 1M）都没有消除它。它是一个 architectural 问题，不是一个参数能调好的。&lt;/p&gt;
&lt;h3 id="33-llm-对噪声的极度敏感"&gt;&lt;a href="#33-llm-%e5%af%b9%e5%99%aa%e5%a3%b0%e7%9a%84%e6%9e%81%e5%ba%a6%e6%95%8f%e6%84%9f" class="header-anchor"&gt;&lt;/a&gt;3.3 LLM 对噪声的极度敏感
&lt;/h3&gt;&lt;p&gt;Shi 等人（2023）在 GSM-IC 基准上发现：&lt;strong&gt;一个无关句子就让 GPT-3 的准确率从 80% 掉到 55-65%。&lt;/strong&gt; 一个句子。&lt;/p&gt;
&lt;p&gt;Cuconasu 等人（2024）进一步揭示：主题相关但实际无关的文档&lt;strong&gt;比明显无关的文档更有害&lt;/strong&gt;——因为 LLM 分不清&amp;quot;看起来相关但没用&amp;quot;和&amp;quot;真正有用&amp;quot;。&lt;/p&gt;
&lt;p&gt;把这三个事实串起来：&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th style="text-align: left"&gt;事实&lt;/th&gt;
 &lt;th style="text-align: left"&gt;含义&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;高维诅咒&lt;/td&gt;
 &lt;td style="text-align: left"&gt;提高召回率不可避免引入噪声&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;Lost in the Middle&lt;/td&gt;
 &lt;td style="text-align: left"&gt;多塞的文档在模型最不擅长的位置&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;噪声敏感&lt;/td&gt;
 &lt;td style="text-align: left"&gt;少量噪声就显著降低输出质量&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;这就是 Precision-Recall 矛盾的完整图景。它不是工程问题，是&lt;strong&gt;结构性问题&lt;/strong&gt;。&lt;/p&gt;
&lt;h3 id="34-实证记忆增益的边际递减"&gt;&lt;a href="#34-%e5%ae%9e%e8%af%81%e8%ae%b0%e5%bf%86%e5%a2%9e%e7%9b%8a%e7%9a%84%e8%be%b9%e9%99%85%e9%80%92%e5%87%8f" class="header-anchor"&gt;&lt;/a&gt;3.4 实证：记忆增益的边际递减
&lt;/h3&gt;&lt;p&gt;我不是在说记忆系统没用。它确实有效。Hindsight（2025）把 20B 模型在 LongMemEval 上从 39% 提升到 83.6%。CorpGen（2026）把多任务完成率从 8.7% 提升到 15.2%（3.5x）。&lt;/p&gt;
&lt;p&gt;但同一批论文也揭示了一个天花板：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Zep 在 MemGPT 自己的基准上只领先 &lt;strong&gt;1.4 个百分点&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;Lian 等人（2024）发现记忆超过 500 个事件的 Agent 产生矛盾计划的概率是小于 50 个事件的 &lt;strong&gt;2 倍&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;学术界开始承认：当前 RAG 范式的记忆系统正在逼近收益天花板&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h2 id="四soar-chunking-vs-现代-agent-的学习"&gt;&lt;a href="#%e5%9b%9bsoar-chunking-vs-%e7%8e%b0%e4%bb%a3-agent-%e7%9a%84%e5%ad%a6%e4%b9%a0" class="header-anchor"&gt;&lt;/a&gt;四、SOAR Chunking vs 现代 Agent 的&amp;quot;学习&amp;quot;
&lt;/h2&gt;&lt;p&gt;回到 SOAR。它的 Chunking 和今天的&amp;quot;记忆&amp;quot;有一个&lt;strong&gt;本质性的区别&lt;/strong&gt;：&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th style="text-align: left"&gt;维度&lt;/th&gt;
 &lt;th style="text-align: left"&gt;SOAR Chunking&lt;/th&gt;
 &lt;th style="text-align: left"&gt;现代 Agent 记忆&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;改变了什么&lt;/td&gt;
 &lt;td style="text-align: left"&gt;新增生产式规则到架构中&lt;/td&gt;
 &lt;td style="text-align: left"&gt;存一段文本到数据库&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;持久性&lt;/td&gt;
 &lt;td style="text-align: left"&gt;永久的行为改变&lt;/td&gt;
 &lt;td style="text-align: left"&gt;依赖上下文窗口（滚出去就没了）&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;机制&lt;/td&gt;
 &lt;td style="text-align: left"&gt;条件-动作规则编译&lt;/td&gt;
 &lt;td style="text-align: left"&gt;文本注入到 prompt&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;泛化&lt;/td&gt;
 &lt;td style="text-align: left"&gt;规则自动匹配任何符合条件的状态&lt;/td&gt;
 &lt;td style="text-align: left"&gt;只有文本重新注入才生效&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;重量级&lt;/td&gt;
 &lt;td style="text-align: left"&gt;轻量（一条规则）&lt;/td&gt;
 &lt;td style="text-align: left"&gt;重量级（每次检索 + 上下文消耗）&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;strong&gt;SOAR 的 Chunking 是真正的程序性学习&lt;/strong&gt;：系统的决策逻辑被永久修改了。下次遇到同样的情况，它不需要思考，直接反应。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;现代 Agent 的&amp;quot;记忆&amp;quot;是外部文本存储&lt;/strong&gt;：每次使用都需要重新检索、重新注入、让模型重新处理。你记了 100 件事，每次对话开始，你要检索一次，消耗一次上下文。&lt;/p&gt;
&lt;p&gt;这不是同一个量级的东西。&lt;/p&gt;
&lt;p&gt;Hermes Agent 的 SKILL 系统是最接近 Chunking 的——它在完成任务后自动创建 SKILL 文件——但它依然只是存了一段文本，下次读取这段文本。模型权重从未被修改过。&lt;/p&gt;
&lt;p&gt;所有号称&amp;quot;终身学习&amp;quot;的产品都得打上问号。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="五harness-工程被忽视的真正杠杆"&gt;&lt;a href="#%e4%ba%94harness-%e5%b7%a5%e7%a8%8b%e8%a2%ab%e5%bf%bd%e8%a7%86%e7%9a%84%e7%9c%9f%e6%ad%a3%e6%9d%a0%e6%9d%86" class="header-anchor"&gt;&lt;/a&gt;五、Harness 工程：被忽视的真正杠杆
&lt;/h2&gt;&lt;p&gt;如果记忆不是 Agent 性能的关键瓶颈，那什么是？&lt;/p&gt;
&lt;p&gt;越来越多的证据指向另一个方向：&lt;strong&gt;Agent 与环境的接口质量——工具设计、反馈信号、错误处理、状态控制。&lt;/strong&gt; 我称之为 Harness 工程。&lt;/p&gt;
&lt;h3 id="andrew-ng-的数据"&gt;&lt;a href="#andrew-ng-%e7%9a%84%e6%95%b0%e6%8d%ae" class="header-anchor"&gt;&lt;/a&gt;Andrew Ng 的数据
&lt;/h3&gt;&lt;p&gt;2024 年 3 月，Andrew Ng 在 Agentic Design Patterns 系列中公布了一个令人震惊的对比：&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th style="text-align: left"&gt;配置&lt;/th&gt;
 &lt;th style="text-align: left"&gt;HumanEval 准确率&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;GPT-4 零样本&lt;/td&gt;
 &lt;td style="text-align: left"&gt;67.0%&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;GPT-3.5 零样本&lt;/td&gt;
 &lt;td style="text-align: left"&gt;48.1%&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;GPT-3.5 + Agent 循环&lt;/td&gt;
 &lt;td style="text-align: left"&gt;&lt;strong&gt;95.1%&lt;/strong&gt;&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;GPT-3.5（弱模型）+ 良好的 Agent 流水线（工具使用、反思、规划）大幅超越了 GPT-4（强模型）零样本。&lt;/p&gt;
&lt;p&gt;这意味着你可以花精力优化模型内部的记忆系统，也可以花精力优化 Agent 外部的工具和流程。&lt;strong&gt;后者的收益可能更高。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="anthropic-的-aci-概念"&gt;&lt;a href="#anthropic-%e7%9a%84-aci-%e6%a6%82%e5%bf%b5" class="header-anchor"&gt;&lt;/a&gt;Anthropic 的 ACI 概念
&lt;/h3&gt;&lt;p&gt;Anthropic 在 2024 年 12 月的《Building Effective Agents》中提出了 &lt;strong&gt;ACI（Agent-Computer Interface）&lt;/strong&gt; 的概念——Agent 与计算机之间的接口质量和 HCI 一样值得精心设计。&lt;/p&gt;
&lt;p&gt;他们报告：&lt;/p&gt;

 &lt;blockquote&gt;
 &lt;p&gt;&amp;ldquo;在 SWE-bench 的 Agent 上，&lt;strong&gt;优化工具所花的时间比优化整体提示词还要多。&lt;/strong&gt;&amp;rdquo;&lt;/p&gt;

 &lt;/blockquote&gt;
&lt;p&gt;一个具体的案例：把工具参数从相对路径改成绝对路径（简单的防错设计），就消除了一整类错误。&lt;strong&gt;不需要更好的记忆，不需要更强的模型，只需要想清楚工具该怎么暴露。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;这就是 Harness 工程的威力。&lt;/p&gt;
&lt;h3 id="mcp-和-a2a-的标准化信号"&gt;&lt;a href="#mcp-%e5%92%8c-a2a-%e7%9a%84%e6%a0%87%e5%87%86%e5%8c%96%e4%bf%a1%e5%8f%b7" class="header-anchor"&gt;&lt;/a&gt;MCP 和 A2A 的标准化信号
&lt;/h3&gt;&lt;p&gt;2024-2025 年，两个协议的出现标志着产业界意识到 Harness 层的重要性：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;MCP（Model Context Protocol）&lt;/strong&gt;：标准化 Agent 如何访问工具和数据&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;A2A（Agent-to-Agent Protocol）&lt;/strong&gt;：标准化 Agent 之间如何通信&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这两个协议不是在解决&amp;quot;模型怎么更聪明&amp;quot;，而是在解决&amp;quot;Agent 如何更好地与环境互动&amp;quot;。它们本质上都是 Harness 工程的标准化工件。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="六结论先修路再建博物馆"&gt;&lt;a href="#%e5%85%ad%e7%bb%93%e8%ae%ba%e5%85%88%e4%bf%ae%e8%b7%af%e5%86%8d%e5%bb%ba%e5%8d%9a%e7%89%a9%e9%a6%86" class="header-anchor"&gt;&lt;/a&gt;六、结论：先修路，再建博物馆
&lt;/h2&gt;&lt;p&gt;我不是在否定记忆系统。记忆是必要的。SOAR 说得对，任何通用智能系统都需要记忆。今天的产品也确实从记忆中受益。&lt;/p&gt;
&lt;p&gt;我想说的是两件事：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;第一，记忆的收益正在递减。&lt;/strong&gt; 检索式记忆有坚实的理论天花板。你可以继续优化你的 RAG 管道、调参 HNSW、尝试不同的 chunk 策略——但 PR 矛盾不是&amp;quot;优化参数就能解决&amp;quot;的工程问题，是结构性的约束。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;第二，Harness 工程是被忽视的更大杠杆。&lt;/strong&gt; 好的工具设计、清晰的反馈信号、可靠的状态控制——这些给 Agent 带来的增益可能远大于更好的记忆。Andrew Ng 的 95.1% 和 Anthropic 的 ACI 实践都在指向这个方向。&lt;/p&gt;
&lt;p&gt;如果要用一个比喻来总结：&lt;/p&gt;

 &lt;blockquote&gt;
 &lt;p&gt;记忆是博物馆的展品。Harness 是通往博物馆的路。大部分人都在争论展品怎么摆放更漂亮，但真正决定你能看多少展品的，是那条路修得好不好。&lt;/p&gt;

 &lt;/blockquote&gt;
&lt;p&gt;SOAR 在 1987 年就看懂了这件事。它的 9 层记忆系统很漂亮，但真正让它&amp;quot;至今不过时&amp;quot;的，是那个将记忆、决策、执行、学习整合在一起的闭环架构——也就是它对自己的&amp;quot;环境&amp;quot;（包括记忆环境）的完整管理。&lt;/p&gt;
&lt;p&gt;30 年过去了，我们还在卖&amp;quot;记忆系统&amp;quot;这个概念。也许该往前看了。&lt;/p&gt;</description></item></channel></rss>