<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>云喵盒子</title><link>https://zyfsir.github.io/</link><description>Recent content on 云喵盒子</description><generator>Hugo -- gohugo.io</generator><language>zh-cn</language><lastBuildDate>Fri, 01 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://zyfsir.github.io/index.xml" rel="self" type="application/rss+xml"/><item><title>AI产品实际测评</title><link>https://zyfsir.github.io/post/agent-product/</link><pubDate>Tue, 28 Apr 2026 00:00:00 +0000</pubDate><guid>https://zyfsir.github.io/post/agent-product/</guid><description>&lt;h2 id="ai产品领域"&gt;&lt;a href="#ai%e4%ba%a7%e5%93%81%e9%a2%86%e5%9f%9f" class="header-anchor"&gt;&lt;/a&gt;AI产品领域
&lt;/h2&gt;&lt;p&gt;命令行窗口(CLI)，面向对象为程序员，通常用于开发代码项目。因为不存在界面需求，因此增改功能变得非常简单。&lt;/p&gt;
&lt;p&gt;早期产品： Cursor， 仅依赖于VS CODE插件的Roo code。&lt;/p&gt;
&lt;p&gt;首先是该领域的御三家的作品：Claude Code， Code X， Gemini CLI，&lt;/p&gt;
&lt;p&gt;可视化界面
Claude Cowork&lt;/p&gt;
&lt;p&gt;NoteBook LM以及AI Studio&lt;/p&gt;</description></item><item><title>Agent必学：agent架构的演变历程</title><link>https://zyfsir.github.io/post/agent-history/</link><pubDate>Fri, 10 Apr 2026 00:00:00 +0000</pubDate><guid>https://zyfsir.github.io/post/agent-history/</guid><description>&lt;p&gt;Agent 系统架构演变完整调研&lt;/p&gt;
&lt;h2 id="一总览三代范式跃迁"&gt;&lt;a href="#%e4%b8%80%e6%80%bb%e8%a7%88%e4%b8%89%e4%bb%a3%e8%8c%83%e5%bc%8f%e8%b7%83%e8%bf%81" class="header-anchor"&gt;&lt;/a&gt;一、总览：三代范式跃迁
&lt;/h2&gt;&lt;p&gt;Agent 系统架构的演变可归纳为三条并行的技术主线，历经约 70 年的迭代。按照核心驱动力，可划分为&lt;strong&gt;符号主义时代 → 强化学习时代 → LLM 原生时代&lt;/strong&gt;三大范式。当前正处于第三次范式的高潮期，且呈现出&lt;strong&gt;多范式融合&lt;/strong&gt;的趋势。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="二第一阶段符号主义--经典-agent-架构1950s1990s"&gt;&lt;a href="#%e4%ba%8c%e7%ac%ac%e4%b8%80%e9%98%b6%e6%ae%b5%e7%ac%a6%e5%8f%b7%e4%b8%bb%e4%b9%89--%e7%bb%8f%e5%85%b8-agent-%e6%9e%b6%e6%9e%841950s1990s" class="header-anchor"&gt;&lt;/a&gt;二、第一阶段：符号主义 / 经典 Agent 架构（1950s–1990s）
&lt;/h2&gt;&lt;p&gt;Agent理论的发展比深度学习还要早。
在ChatGPT这种能够真正回答人类问题的AI出现之前，就已经开始思考“一个完全由人工定义的智能会是什么样子”这一问题。
这点来讲，哲学理论走得要远远超前。&lt;/p&gt;
&lt;h3 id="21-规则系统rule-based-systems"&gt;&lt;a href="#21-%e8%a7%84%e5%88%99%e7%b3%bb%e7%bb%9frule-based-systems" class="header-anchor"&gt;&lt;/a&gt;2.1 规则系统（Rule-Based Systems）
&lt;/h3&gt;&lt;p&gt;最早的 AI Agent 以 &lt;strong&gt;专家系统（Expert Systems）&lt;/strong&gt; 为代表。架构核心是：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;知识库（Knowledge Base） + 推理引擎（Inference Engine）
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;ul&gt;
&lt;li&gt;知识以 &lt;strong&gt;if-then 规则&lt;/strong&gt; 显式编码&lt;/li&gt;
&lt;li&gt;推理引擎执行前向/后向链式推理&lt;/li&gt;
&lt;li&gt;典型代表：MYCIN（1976，医疗诊断）、DENDRAL（1965，化学分析）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;局限&lt;/strong&gt;：规则数量爆炸、无法处理模糊/未知场景、完全不具备学习能力。&lt;/p&gt;
&lt;p&gt;我甚至不认为规则系统该作为Agent理论的一部分，它用众多规则堆砌出决策，似乎跟智能毫无关系。&lt;/p&gt;
&lt;p&gt;但是目前的智能体有个说法：与其要求ai按照严格语法编写代码，不如让它编写完后执行一遍检查。规则系统适合ai与严谨的外部环境交互时使用。&lt;/p&gt;
&lt;h3 id="22-bdi-架构belief-desire-intention"&gt;&lt;a href="#22-bdi-%e6%9e%b6%e6%9e%84belief-desire-intention" class="header-anchor"&gt;&lt;/a&gt;2.2 BDI 架构（Belief-Desire-Intention）
&lt;/h3&gt;&lt;p&gt;这个理论是来自哲学界的产物，研究的是人类的行为。&lt;/p&gt;
&lt;p&gt;早期的哲学中认为欲望驱动理性。Hume 的核心论证极其著名，就一句话：&lt;/p&gt;
&lt;p&gt;| &amp;ldquo;Reason is, and ought only to be the slave of the passions.&amp;rdquo;
|（理性是，也只应当是激情的奴隶。——《人性论》2.3.3）&lt;/p&gt;
&lt;p&gt;这一观点不依赖任何实验，仅仅通过内省和推理便收获了人们的认可。&lt;/p&gt;
&lt;p&gt;转换到Agent理论中，可以想象，如果让当时的人们设计一个智能体，他们设想的架构会是：给agent设定一个目标(Desire)，agent用它的知识(Belief，指ai相信的世界知识)完成目标。&lt;/p&gt;
&lt;p&gt;即使放到今天，这个想法也不能说是错，但它很粗糙，表达起来很主观，比如Desire跟Belief是什么，都没有明确的定义。只是一种感觉上的描述。&lt;/p&gt;
&lt;p&gt;Dennett(1971)将它更具体一些，让这个理论更像是科学里的描述了： 当我们说一个人有 belief 和 desire，不是说我们真的在他的大脑里找到了这些实体——而是说，用这组概念来预测他的行为，是最有效的策略。&lt;/p&gt;
&lt;p&gt;当理解物理系统时，我们依靠精确但复杂的物理规律去了解；当理解人造物时，我们可以从它的设计目的去了解；当想要了解人类、动物、AI时，我们用belief和desire理论去了解。&lt;/p&gt;
&lt;p&gt;当我们想要科学地研究agent(或人)时，我们&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;假设agent是理性的&lt;/li&gt;
&lt;li&gt;根据它的处境和目的，赋予它应有的belief和desire&lt;/li&gt;
&lt;li&gt;预测理性系统会作出的最符合这些belief和desire的事&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;从此时开始，Belief-Desire理论听上去很像是严谨的科学了。它像是在强调，心理学其实是一种概率学，一种工具；也可以反过来理解，借助生成最高概率的做法，就能模拟出一个理性系统。&lt;/p&gt;
&lt;p&gt;Michael Bratman（1987）的哲学理论，则认为Belief-Desire理论在解释瞬时行动的时候是合理的，但对于跨时间的计划行为，它的解释力不足。&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;想要的未必真的就去做。例如用户可能希望去巴黎旅行，但这并不意味着会立刻触发“订机票、办签证、订住宿”这一系列流程。Desire List不会立刻触发行动。&lt;/li&gt;
&lt;li&gt;想要的东西之间存在矛盾。例如用户想吃蛋糕，以及希望减肥。如果Desire List以同等的地位进入执行阶段，便发生了冲突。但它们在Desire阶段是完全能够共存的。这也说明Desire到执行这一步之间，还存在一些步骤。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;他引入了Intention(意图)，即决定要去做的事。Desire经过“作出承诺要做这件事”这一步骤后，才进入到执行阶段。&lt;/p&gt;
&lt;p&gt;这一理念将 Agent 建模为三种心理状态：&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;组件&lt;/th&gt;
 &lt;th&gt;含义&lt;/th&gt;
 &lt;th&gt;类比&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;Belief（信念）&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;对环境状态的认知&lt;/td&gt;
 &lt;td&gt;数据库/知识图谱&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;Desire（愿望）&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;目标状态/偏好&lt;/td&gt;
 &lt;td&gt;目标队列&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;Intention（意图）&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;已承诺执行的计划&lt;/td&gt;
 &lt;td&gt;执行栈&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;仅仅有Desire不代表真正去做，Intention，也就是下决心真的要去做的时候，才真正开始做。执行阶段不属于心理状态，因此不在表中。&lt;/p&gt;
&lt;p&gt;Intention这一阶段的引入提供了三种作用：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;用Intention作为推理与执行的起点，而不是以Desire作为起点。同时想要减肥与吃蛋糕，欲望是同时存在的，但下决心，到了真正要指导行动的时候，只会留下一个Intention。&lt;/li&gt;
&lt;li&gt;Intention可以实现跨时间协调，也就是对人的“惯性心理”的刻画。人并不会时时刻刻对所有Desire进行评估并重新规划。而是延续之前的“决定”，完成之前心中的承诺。例如在已经决定减肥后，默认的Intention依然是减肥，而不是再次比较一番所有Desire，完全独立的重新构建新的Intention。它不是不可改变，但它会抵抗改变，人们借此得以执行跨越时间的计划。&lt;/li&gt;
&lt;li&gt;在公共关系中同样需要“决定”这一步骤。“我想帮你”与“我会帮你”是存在不同的，在多agent系统中，就可能有必要区分清楚。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;&lt;strong&gt;代表性框架&lt;/strong&gt;：AgentSpeak(L)、Jason、PRS（Procedural Reasoning System）。BDI 至今仍在 MAS（Multi-Agent Systems）研究中有影响力——它将&amp;quot;计划选择&amp;quot;和&amp;quot;目标承诺&amp;quot;显式分离，是 Agent 架构中&amp;quot;认知层&amp;quot;概念的原型。&lt;/p&gt;
&lt;p&gt;这些理论都是基于自省、思维实验构建的。跟工科认知中的科学相差甚远。这种理论通常需要依赖反证法：当缺失这一概念时，理论会怎样的不完善。从而使新理论得到认可。&lt;/p&gt;
&lt;h3 id="23-soar-认知架构1987"&gt;&lt;a href="#23-soar-%e8%ae%a4%e7%9f%a5%e6%9e%b6%e6%9e%841987" class="header-anchor"&gt;&lt;/a&gt;2.3 SOAR 认知架构（1987）
&lt;/h3&gt;&lt;p&gt;SOAR（State, Operator And Result ）是Allen Newell、John Laird 等人提出的&lt;strong&gt;通用认知架构&lt;/strong&gt;，目标是实现通用人工智能。&lt;/p&gt;
&lt;p&gt;这是一个宏大的命题：
既然人类能在所有认知领域表现出智能，那么一定存在一套固定的、通用的底层机制——这个机制就是认知架构（cognitive architecture）。SOAR 是这一机制的一种实现。&lt;/p&gt;
&lt;p&gt;SOAR 不是&amp;quot;一个 AI 程序&amp;quot;，而是一套关于智能是什么的理论——它说：任何表现出通用智能的系统，都得有某种固定的结构，这个结构包含什么记忆系统、什么决策流程、什么学习机制。&lt;/p&gt;
&lt;p&gt;核心机制：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;短期记忆（STM） ↔ 决策周期 ↔ 长期记忆（生产规则 + 语义 + 情节）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ↕
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; 意向栈（Goal Stack）
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;决策周期（Decision Cycle）&lt;/strong&gt;：感知 → 匹配规则 → 冲突消解 → 执行 → 学习（Chunking）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;通用子目标（Universal Subgoaling）&lt;/strong&gt;：遇到困境自动创建子目标&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;学习机制 Chunking&lt;/strong&gt;：将解决方案编译为新的规则&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;SOAR 在 AI Agent 架构史上有着里程碑地位——它首次完整定义了 &lt;strong&gt;感知 - 推理 - 执行 - 学习&lt;/strong&gt;的闭环架构，影响了后续几乎所有 Agent 架构的设计。&lt;/p&gt;
&lt;p&gt;要我说，ReAct循环完全跟这个一样，所以算不上什么新东西。只不过SOAR提出的时间太久远了，人们又只关注近期的知识。这恐怕是人类在知识继承里的常态。&lt;/p&gt;
&lt;p&gt;| 任何需要“在环境中持续行动的智能系统”，都需要有类似这样的闭环，这不能说是发明，而是一种工程约束。&lt;/p&gt;
&lt;p&gt;顺便一提，SOAR可以称得上是早期的“终身学习系统”了，跟现在agent常见的宣传一样，都号称越用越聪明。&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;外部输入&lt;/li&gt;
&lt;li&gt;思考
&lt;ol&gt;
&lt;li&gt;根据外部输入匹配规则&lt;/li&gt;
&lt;li&gt;消解冲突规则，选择其中的规则&lt;/li&gt;
&lt;/ol&gt;
&lt;/li&gt;
&lt;li&gt;执行
&lt;ol&gt;
&lt;li&gt;成功则输出&lt;/li&gt;
&lt;li&gt;不成功则拆解任务为子目标
&lt;ol&gt;
&lt;li&gt;重复循环直到问题解决&lt;/li&gt;
&lt;li&gt;Chunking 将解决问题的方案编译为规则，下次遇到同样问题能够快速处理。&lt;/li&gt;
&lt;/ol&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;这其中的Chunking能力就跟Hermes Agent完成任务后编写SKILL的做法一样，并因此号称终身学习。&lt;/p&gt;
&lt;p&gt;SOAR的认知架构（对应Agent记忆系统）同样是类似如今的多层架构，一共有9个记忆系统&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;工作记忆。这是SOAR管理全局的记忆，所有输入，中间推理，决策状态都在这里，并用栈结构分层表示目标与状态，子目标与子状态。相当于主Agent。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;SOAR架构没有死，甚至还活跃着。&lt;/p&gt;
&lt;h3 id="24-act-r-架构"&gt;&lt;a href="#24-act-r-%e6%9e%b6%e6%9e%84" class="header-anchor"&gt;&lt;/a&gt;2.4 ACT-R 架构
&lt;/h3&gt;&lt;p&gt;Anderson 等人开发的认知架构，专注于模拟人类认知过程。相比 SOAR 的全符号主义，ACT-R 引入了&lt;strong&gt;亚符号层（subsymbolic）&lt;/strong&gt;，包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;扩散激活（Spreading Activation）&lt;/strong&gt;：记忆检索的基础&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;效用学习（Utility Learning）&lt;/strong&gt;：规则选择的最优化&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;ACT-R 是将&amp;quot;计算精度&amp;quot;与&amp;quot;认知真实性&amp;quot;结合的典范，后来被部分 LLM Agent 的记忆设计参考。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="三第二阶段强化学习-agent-架构1990s2010s"&gt;&lt;a href="#%e4%b8%89%e7%ac%ac%e4%ba%8c%e9%98%b6%e6%ae%b5%e5%bc%ba%e5%8c%96%e5%ad%a6%e4%b9%a0-agent-%e6%9e%b6%e6%9e%841990s2010s" class="header-anchor"&gt;&lt;/a&gt;三、第二阶段：强化学习 Agent 架构（1990s–2010s）
&lt;/h2&gt;&lt;h3 id="31-经典-rl-agentq-learning-sarsa"&gt;&lt;a href="#31-%e7%bb%8f%e5%85%b8-rl-agentq-learning-sarsa" class="header-anchor"&gt;&lt;/a&gt;3.1 经典 RL Agent（Q-Learning, SARSA）
&lt;/h3&gt;&lt;p&gt;RL 将 Agent 定义为 &lt;strong&gt;MDP（马尔可夫决策过程）&lt;/strong&gt; 中的决策者：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;状态(State) → 动作(Action) → 奖励(Reward) → 新状态(State&amp;#39;)
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;架构特征：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Value-based&lt;/strong&gt;：Q-Learning，维护 Q(s,a) 表&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Policy-based&lt;/strong&gt;：REINFORCE，直接学习策略 π(a|s)&lt;/li&gt;
&lt;li&gt;局限：状态空间受限，难以应对高维感知&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="32-深度-rl-agentdqn-2013"&gt;&lt;a href="#32-%e6%b7%b1%e5%ba%a6-rl-agentdqn-2013" class="header-anchor"&gt;&lt;/a&gt;3.2 深度 RL Agent（DQN, 2013）
&lt;/h3&gt;&lt;p&gt;DeepMind 的 &lt;strong&gt;DQN（Deep Q-Network）&lt;/strong&gt; 引发 RL 革命，关键架构创新：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;CNN（视觉编码器）→ Q(s,a) Value Network → ε-greedy 策略
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ↕
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; 经验回放缓冲区（Experience Replay）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ↕
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; Target Network（稳定目标分布）
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;经验回放（Experience Replay）&lt;/strong&gt;：打破时序相关性&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;两阶段目标网络（Double DQN）&lt;/strong&gt;：减少价值过估计&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="33-actor-critic-架构ppo-sac"&gt;&lt;a href="#33-actor-critic-%e6%9e%b6%e6%9e%84ppo-sac" class="header-anchor"&gt;&lt;/a&gt;3.3 Actor-Critic 架构（PPO, SAC）
&lt;/h3&gt;&lt;p&gt;现代 RL Agent 的主流架构。分离 &lt;strong&gt;策略网络（Actor）&lt;/strong&gt; 与 &lt;strong&gt;价值评估网络（Critic）&lt;/strong&gt;：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;┌─────────────┐ ┌──────────────┐
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ Actor │ │ Critic │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ π(a|s) │←───│ V(s) / Q(s,a)│
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ 生成动作 │ │ 评估动作质量 │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;└──────┬───────┘ └──────┬────────┘
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; │ │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; └─────────┬─────────┘
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ▼
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; 环境交互 → 奖励信号
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;&lt;strong&gt;PPO（Proximal Policy Optimization, 2017）&lt;/strong&gt; 使用 &lt;strong&gt;Clip 机制&lt;/strong&gt;限制策略更新范围，成为 RL Agent 的事实标准。&lt;strong&gt;SAC（Soft Actor-Critic）&lt;/strong&gt; 通过最大熵强化学习增强了探索能力。&lt;/p&gt;
&lt;p&gt;RL Agent 的架构范式（感知 → 决策 → 执行 → 学习循环）为后来的 LLM Agent 提供了&lt;strong&gt;循环结构&lt;/strong&gt;的设计母板。&lt;/p&gt;
&lt;h3 id="34-多智能体-rlmaddpg-2017"&gt;&lt;a href="#34-%e5%a4%9a%e6%99%ba%e8%83%bd%e4%bd%93-rlmaddpg-2017" class="header-anchor"&gt;&lt;/a&gt;3.4 多智能体 RL（MADDPG, 2017）
&lt;/h3&gt;&lt;p&gt;Lowe 等人提出 &lt;strong&gt;MADDPG（Multi-Agent DDPG）&lt;/strong&gt;，架构核心：每个 Agent 的 Critic 可以观察所有 Agent 的动作（CTDE: Centralized Training, Decentralized Execution）。&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;Agent 1: Actor(s₁) → a₁ │ Critic(s₁, s₂, a₁, a₂) → Q₁
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;Agent 2: Actor(s₂) → a₂ │ Critic(s₂, s₁, a₂, a₁) → Q₂
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;这在多 Agent 协作/竞争的架构设计上提供了基础范式，后来被 LLM Agent 框架（AutoGen、CrewAI）在概念层借鉴。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="四pre-llm-混合架构与过渡期"&gt;&lt;a href="#%e5%9b%9bpre-llm-%e6%b7%b7%e5%90%88%e6%9e%b6%e6%9e%84%e4%b8%8e%e8%bf%87%e6%b8%a1%e6%9c%9f" class="header-anchor"&gt;&lt;/a&gt;四、Pre-LLM 混合架构与过渡期
&lt;/h2&gt;&lt;h3 id="41-rllreinforcement-learning-with-language"&gt;&lt;a href="#41-rllreinforcement-learning-with-language" class="header-anchor"&gt;&lt;/a&gt;4.1 RLL（Reinforcement Learning with Language）
&lt;/h3&gt;&lt;p&gt;在 LLM 大爆发前，研究者试图将&lt;strong&gt;自然语言&lt;/strong&gt;引入 Agent 架构。典型代表：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Embodied Agents (ALFRED, 2020)&lt;/strong&gt;：通过指令-&amp;gt;子任务分解-&amp;gt;RL策略&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Interactive Fiction Agents (Jericho, 2019)&lt;/strong&gt;：自然语言文本界面 + RL&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="42-基于-lstmtransformer-的命令理解-agent"&gt;&lt;a href="#42-%e5%9f%ba%e4%ba%8e-lstmtransformer-%e7%9a%84%e5%91%bd%e4%bb%a4%e7%90%86%e8%a7%a3-agent" class="header-anchor"&gt;&lt;/a&gt;4.2 基于 LSTM/Transformer 的命令理解 Agent
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;WebGPT（OpenAI, 2021）&lt;/strong&gt;：用 GPT-3 + 模仿学习操作浏览器，首次展示了&amp;quot;语言模型 + 工具 + 搜索&amp;quot;的 Agent 雏形&lt;/li&gt;
&lt;li&gt;架构：Behavior Cloning on human demonstrations + RL fine-tuning&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这些系统虽然性能有限，但建立了&lt;strong&gt;语言模型作为 Agent 控制器&lt;/strong&gt;的架构原型，是通往 LLM Agent 的关键桥梁。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="五第三阶段llm-agent-革命2023至今"&gt;&lt;a href="#%e4%ba%94%e7%ac%ac%e4%b8%89%e9%98%b6%e6%ae%b5llm-agent-%e9%9d%a9%e5%91%bd2023%e8%87%b3%e4%bb%8a" class="header-anchor"&gt;&lt;/a&gt;五、第三阶段：LLM Agent 革命（2023–至今）
&lt;/h2&gt;&lt;h3 id="51-分水岭事件gpt-4-function-calling2023-06"&gt;&lt;a href="#51-%e5%88%86%e6%b0%b4%e5%b2%ad%e4%ba%8b%e4%bb%b6gpt-4-function-calling2023-06" class="header-anchor"&gt;&lt;/a&gt;5.1 分水岭事件：GPT-4 Function Calling（2023-06）
&lt;/h3&gt;&lt;p&gt;2023年6月，OpenAI 发布 GPT-4 的 function calling 能力。这是 Agent 架构史上的&lt;strong&gt;分水岭&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;架构变革&lt;/strong&gt;：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-gdscript3" data-lang="gdscript3"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="err"&gt;之前&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="n"&gt;User&lt;/span&gt; &lt;span class="err"&gt;→&lt;/span&gt; &lt;span class="n"&gt;LLM&lt;/span&gt; &lt;span class="err"&gt;→&lt;/span&gt; &lt;span class="n"&gt;Text&lt;/span&gt; &lt;span class="n"&gt;Output&lt;/span&gt; &lt;span class="err"&gt;→&lt;/span&gt; &lt;span class="err"&gt;手动解析&lt;/span&gt; &lt;span class="err"&gt;→&lt;/span&gt; &lt;span class="err"&gt;调用&lt;/span&gt;&lt;span class="n"&gt;API&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="err"&gt;之后&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="n"&gt;User&lt;/span&gt; &lt;span class="err"&gt;→&lt;/span&gt; &lt;span class="n"&gt;LLM&lt;/span&gt; &lt;span class="err"&gt;→&lt;/span&gt; &lt;span class="n"&gt;JSON&lt;/span&gt; &lt;span class="n"&gt;tool_call&lt;/span&gt; &lt;span class="err"&gt;→&lt;/span&gt; &lt;span class="err"&gt;自动执行&lt;/span&gt; &lt;span class="err"&gt;→&lt;/span&gt; &lt;span class="err"&gt;结果反馈&lt;/span&gt; &lt;span class="err"&gt;→&lt;/span&gt; &lt;span class="n"&gt;LLM&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;Function Calling 使得 LLM 可以：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;结构化输出函数参数&lt;/strong&gt;（不再是自由文本）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;多轮工具调用&lt;/strong&gt;（chain of tool calls）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;自动反馈循环&lt;/strong&gt;（工具结果作为上下文回注）&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;这标志着 &lt;strong&gt;LLM-based Agent&lt;/strong&gt; 时代正式开启。&lt;/p&gt;
&lt;h3 id="52-react-范式的崛起yao-et-al-2023"&gt;&lt;a href="#52-react-%e8%8c%83%e5%bc%8f%e7%9a%84%e5%b4%9b%e8%b5%b7yao-et-al-2023" class="header-anchor"&gt;&lt;/a&gt;5.2 ReAct 范式的崛起（Yao et al., 2023）
&lt;/h3&gt;&lt;p&gt;ReAct（Reasoning + Acting）是 LLM Agent &lt;strong&gt;最核心的架构范式&lt;/strong&gt;，由 Yao 等人在 2023 年提出。&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;Thought: 我需要查找当前的天气数据
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;Action: search_weather(location=&amp;#34;Beijing&amp;#34;)
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;Observation: {&amp;#34;temp&amp;#34;: 28, &amp;#34;humidity&amp;#34;: 65%}
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;Thought: 气温 28°C，湿度 65%，建议穿短袖
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;Action: complete
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;&lt;strong&gt;架构循环&lt;/strong&gt;：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;┌─────────────────────────────────────┐
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ LLM (核心推理引擎) │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ 思考(Thought) → 动作(Action) │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ ↑ ↓ │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ 观察(Observation) ← 工具执行结果 │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ ↑ │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ Scratchpad (上下文缓冲区) │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;└─────────────────────────────────────┘
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;ReAct 的关键设计要素：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Scratchpad&lt;/strong&gt;：作为 Agent 的&amp;quot;工作记忆&amp;quot;，存储推理链&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Thought-Action-Observation 三元组&lt;/strong&gt;：可解释的决策轨迹&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;动态停止条件&lt;/strong&gt;：Agent 自行判断任务是否完成&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="53-第一代自主-agent-框架2023-年中"&gt;&lt;a href="#53-%e7%ac%ac%e4%b8%80%e4%bb%a3%e8%87%aa%e4%b8%bb-agent-%e6%a1%86%e6%9e%b62023-%e5%b9%b4%e4%b8%ad" class="header-anchor"&gt;&lt;/a&gt;5.3 第一代自主 Agent 框架（2023 年中）
&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;AutoGPT（2023-03）&lt;/strong&gt; 和 &lt;strong&gt;BabyAGI（2023-04）&lt;/strong&gt; 引爆了 Agent 概念。&lt;/p&gt;
&lt;p&gt;AutoGPT 架构：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;┌─────────────────────────────────────────┐
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ Goal → 任务队列(Task Queue) │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ ↓ │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ LLM 推理 → 执行动作 → 存储结果 │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ ↓ │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ 优先队列(优先级排序 → 再次执行) │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ ↓ │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ 向量数据库(长期记忆检索) │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;└─────────────────────────────────────────┘
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;BabyAGI 架构创新：引入了&lt;strong&gt;任务分解（task decomposition）&lt;/strong&gt; 与&lt;strong&gt;记忆优先级（memory prioritization）&lt;/strong&gt;，但其无限制的自我循环也引发了&amp;quot;Agent 失控&amp;quot;的讨论。&lt;/p&gt;
&lt;h3 id="54-主流框架生态成型2023-年底2024-年"&gt;&lt;a href="#54-%e4%b8%bb%e6%b5%81%e6%a1%86%e6%9e%b6%e7%94%9f%e6%80%81%e6%88%90%e5%9e%8b2023-%e5%b9%b4%e5%ba%952024-%e5%b9%b4" class="header-anchor"&gt;&lt;/a&gt;5.4 主流框架生态成型（2023 年底–2024 年）
&lt;/h3&gt;&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;框架&lt;/th&gt;
 &lt;th&gt;发布时间&lt;/th&gt;
 &lt;th&gt;架构特色&lt;/th&gt;
 &lt;th&gt;核心理念&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;LangChain&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;2023-01&lt;/td&gt;
 &lt;td&gt;链式组合（Chain）+ 工具抽象&lt;/td&gt;
 &lt;td&gt;可组合的 LLM 应用框架&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;LangGraph&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;2023-中&lt;/td&gt;
 &lt;td&gt;有向图状态机 + 循环节点&lt;/td&gt;
 &lt;td&gt;细粒度控制 Agent 流程&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;AutoGen&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;2023-10&lt;/td&gt;
 &lt;td&gt;多 Agent 对话 + 角色分离&lt;/td&gt;
 &lt;td&gt;Agent 即消息参与者&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;CrewAI&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;2023-12&lt;/td&gt;
 &lt;td&gt;角色 + 任务 + 团队（Crew）&lt;/td&gt;
 &lt;td&gt;模拟人类团队协作&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;Semantic Kernel&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;2023-05&lt;/td&gt;
 &lt;td&gt;编排层 + 插件 + 记忆&lt;/td&gt;
 &lt;td&gt;企业级 Agent 架构&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;LlamaIndex&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;2023-01&lt;/td&gt;
 &lt;td&gt;数据索引（Index）+ RAG&lt;/td&gt;
 &lt;td&gt;Agent 检索增强架构&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h4 id="langchain--langgraph-的架构进化"&gt;&lt;a href="#langchain--langgraph-%e7%9a%84%e6%9e%b6%e6%9e%84%e8%bf%9b%e5%8c%96" class="header-anchor"&gt;&lt;/a&gt;LangChain → LangGraph 的架构进化
&lt;/h4&gt;&lt;p&gt;LangChain 最初使用 &lt;strong&gt;Sequential Chain&lt;/strong&gt;（线性管道），架构为：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;Input → PromptTemplate → LLM → OutputParser → NextChain → ...
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;问题：线性链条无法处理&lt;strong&gt;条件分支、循环、多工具调用&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;LangGraph&lt;/strong&gt; 的革命性升级：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-gdscript3" data-lang="gdscript3"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="n"&gt;StateGraph&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="ne"&gt;Node&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;agent&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt; &lt;span class="err"&gt;→&lt;/span&gt; &lt;span class="n"&gt;Edge&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;router&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt; &lt;span class="err"&gt;→&lt;/span&gt; &lt;span class="ne"&gt;Node&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;tools&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="err"&gt;↑&lt;/span&gt; &lt;span class="err"&gt;│&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="err"&gt;└─────────────────────────────┘&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="err"&gt;循环，直到&lt;/span&gt; &lt;span class="n"&gt;agent&lt;/span&gt; &lt;span class="err"&gt;决定停止&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;LangGraph 引入了：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Stateful Graph&lt;/strong&gt;：节点间通过共享状态通信&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Conditional Edges&lt;/strong&gt;：根据条件动态路由&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Persistence&lt;/strong&gt;：内置的持久化/中断/恢复机制&lt;/li&gt;
&lt;/ul&gt;
&lt;h4 id="autogen-的对话式架构"&gt;&lt;a href="#autogen-%e7%9a%84%e5%af%b9%e8%af%9d%e5%bc%8f%e6%9e%b6%e6%9e%84" class="header-anchor"&gt;&lt;/a&gt;AutoGen 的对话式架构
&lt;/h4&gt;&lt;p&gt;Microsoft AutoGen 的架构核心是 &lt;strong&gt;Agent-Centric&lt;/strong&gt; 的消息驱动模型：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;┌─────────────────────────────────────────────┐
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ UserProxyAgent AssistantAgent │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ (人类代理) (LLM代理) │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ │ │ │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ └─────── 对话循环 ──────┘ │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ │ │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ Tool/Function │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ (代码/API执行) │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;└─────────────────────────────────────────────┘
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;关键创新：&lt;strong&gt;多 Agent 通过自然语言对话完成协作&lt;/strong&gt;，而非硬编码的流程控制。&lt;/p&gt;
&lt;h4 id="crewai-的角色化架构"&gt;&lt;a href="#crewai-%e7%9a%84%e8%a7%92%e8%89%b2%e5%8c%96%e6%9e%b6%e6%9e%84" class="header-anchor"&gt;&lt;/a&gt;CrewAI 的角色化架构
&lt;/h4&gt;&lt;p&gt;CrewAI 引入了&lt;strong&gt;组织隐喻（Organizational Metaphor）&lt;/strong&gt;：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;Crew (团队)
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;├── Agent: 研究员（角色: 研究者, 目标: 收集信息, 工具: web_search）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;├── Agent: 分析师（角色: 分析师, 目标: 分析数据, 工具: code_exec)
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;├── Task: 收集数据（分配给 研究员 Agent）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;└── Task: 生成报告（分配给 分析师 Agent, 依赖 Task1）
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;设计理念：将 Agent 组织视为&lt;strong&gt;虚拟公司&lt;/strong&gt;，通过角色、职责、任务的显式分配来解耦复杂系统。&lt;/p&gt;
&lt;h3 id="55-prompt-agent--工具-agent-的架构转变"&gt;&lt;a href="#55-prompt-agent--%e5%b7%a5%e5%85%b7-agent-%e7%9a%84%e6%9e%b6%e6%9e%84%e8%bd%ac%e5%8f%98" class="header-anchor"&gt;&lt;/a&gt;5.5 Prompt Agent → 工具 Agent 的架构转变
&lt;/h3&gt;&lt;p&gt;2024 年的关键趋势是从&lt;strong&gt;提示代理（Prompt Agent）&lt;/strong&gt; 向&lt;strong&gt;工具代理（Tool Agent）&lt;/strong&gt; 的演变：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-gdscript3" data-lang="gdscript3"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="n"&gt;Prompt&lt;/span&gt; &lt;span class="n"&gt;Agent&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="err"&gt;单一&lt;/span&gt; &lt;span class="n"&gt;LLM&lt;/span&gt; &lt;span class="err"&gt;调用&lt;/span&gt; &lt;span class="err"&gt;→&lt;/span&gt; &lt;span class="err"&gt;文本输出&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="err"&gt;无外部反馈循环&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="err"&gt;依赖模型能力&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="n"&gt;Tool&lt;/span&gt; &lt;span class="n"&gt;Agent&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="n"&gt;LLM&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="err"&gt;工具描述&lt;/span&gt; &lt;span class="o"&gt;+&lt;/span&gt; &lt;span class="err"&gt;上下文&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt; &lt;span class="err"&gt;→&lt;/span&gt; &lt;span class="n"&gt;tool_call&lt;/span&gt; &lt;span class="err"&gt;→&lt;/span&gt; &lt;span class="err"&gt;执行结果&lt;/span&gt; &lt;span class="err"&gt;→&lt;/span&gt; &lt;span class="n"&gt;LLM&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="err"&gt;结果&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="err"&gt;结构化工具接口&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="err"&gt;持续交互闭环&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;&lt;strong&gt;Function Calling / Tool Use&lt;/strong&gt; 成为 Agent 架构的标准层：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;Agent
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;├── Orchestrator（编排器：决定调用哪个工具、何时停止）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;├── Tool Registry（工具注册表：名称+描述+参数Schema）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ ├── search | code | calculator | file_ops | ...
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ └── MCP Tool（通过 Model Context Protocol 发现）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;├── Memory（记忆系统）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ ├── Working Memory（Scratchpad）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ ├── Short-term（对话历史）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ └── Long-term（向量检索 + 持久化）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;└── Safety Layer（安全层：输入过滤 + 输出审核）
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;hr&gt;
&lt;h2 id="六多-agent-系统架构成熟期20242025"&gt;&lt;a href="#%e5%85%ad%e5%a4%9a-agent-%e7%b3%bb%e7%bb%9f%e6%9e%b6%e6%9e%84%e6%88%90%e7%86%9f%e6%9c%9f20242025" class="header-anchor"&gt;&lt;/a&gt;六、多 Agent 系统架构成熟期（2024–2025）
&lt;/h2&gt;&lt;h3 id="61-主流多-agent-架构模式"&gt;&lt;a href="#61-%e4%b8%bb%e6%b5%81%e5%a4%9a-agent-%e6%9e%b6%e6%9e%84%e6%a8%a1%e5%bc%8f" class="header-anchor"&gt;&lt;/a&gt;6.1 主流多 Agent 架构模式
&lt;/h3&gt;&lt;h4 id="模式-1中心化编排器orchestrator"&gt;&lt;a href="#%e6%a8%a1%e5%bc%8f-1%e4%b8%ad%e5%bf%83%e5%8c%96%e7%bc%96%e6%8e%92%e5%99%a8orchestrator" class="header-anchor"&gt;&lt;/a&gt;模式 1：中心化编排器（Orchestrator）
&lt;/h4&gt;&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;┌──────────────┐
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ Orchestrator │ ← 单一决策点
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;├──────┬───────┤
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ │ │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ↓ ↓ ↓
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;Agent1 Agent2 Agent3
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;ul&gt;
&lt;li&gt;代表：LangGraph（Supervisor Pattern）&lt;/li&gt;
&lt;li&gt;优点：全局可控、确定性高&lt;/li&gt;
&lt;li&gt;局限：单点瓶颈、编排器可能成为性能瓶颈&lt;/li&gt;
&lt;/ul&gt;
&lt;h4 id="模式-2对话式协作conversational"&gt;&lt;a href="#%e6%a8%a1%e5%bc%8f-2%e5%af%b9%e8%af%9d%e5%bc%8f%e5%8d%8f%e4%bd%9cconversational" class="header-anchor"&gt;&lt;/a&gt;模式 2：对话式协作（Conversational）
&lt;/h4&gt;&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;Agent1 ←→ Agent2 ←→ Agent3
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ↕ ↕ ↕
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; Tool Tool Tool
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;ul&gt;
&lt;li&gt;代表：AutoGen&lt;/li&gt;
&lt;li&gt;优点：自然协作、灵活性高&lt;/li&gt;
&lt;li&gt;局限：对话开销、可能陷入循环&lt;/li&gt;
&lt;/ul&gt;
&lt;h4 id="模式-3分层管理hierarchical"&gt;&lt;a href="#%e6%a8%a1%e5%bc%8f-3%e5%88%86%e5%b1%82%e7%ae%a1%e7%90%86hierarchical" class="header-anchor"&gt;&lt;/a&gt;模式 3：分层管理（Hierarchical）
&lt;/h4&gt;&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;Manager Agent
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;├── Researcher Agent
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ ├── Web Searcher
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ └── Paper Analyzer
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;├── Writer Agent
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;└── Reviewer Agent
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;ul&gt;
&lt;li&gt;代表：Anthropic Multi-Agent Research System&lt;/li&gt;
&lt;li&gt;优点：任务分解自然、各层职责清晰&lt;/li&gt;
&lt;li&gt;局限：层级间通信延迟&lt;/li&gt;
&lt;/ul&gt;
&lt;h4 id="模式-4群体智能swarm"&gt;&lt;a href="#%e6%a8%a1%e5%bc%8f-4%e7%be%a4%e4%bd%93%e6%99%ba%e8%83%bdswarm" class="header-anchor"&gt;&lt;/a&gt;模式 4：群体智能（Swarm）
&lt;/h4&gt;&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; Agent1 → Agent2 → Agent3
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ↑ Agent4 → Agent5 ↕
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; Agent6 ← Agent7 ← Agent8
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;ul&gt;
&lt;li&gt;代表：OpenAI Swarm、MADDPG 精神延续&lt;/li&gt;
&lt;li&gt;优点：容错、可扩展&lt;/li&gt;
&lt;li&gt;局限：协调复杂、调试困难&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="62-关键研究成果"&gt;&lt;a href="#62-%e5%85%b3%e9%94%ae%e7%a0%94%e7%a9%b6%e6%88%90%e6%9e%9c" class="header-anchor"&gt;&lt;/a&gt;6.2 关键研究成果
&lt;/h3&gt;&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;研究&lt;/th&gt;
 &lt;th&gt;年份&lt;/th&gt;
 &lt;th&gt;架构贡献&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;ReAct&lt;/strong&gt; (Yao et al.)&lt;/td&gt;
 &lt;td&gt;2023&lt;/td&gt;
 &lt;td&gt;Thought-Action-Observation 循环&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;Reflexion&lt;/strong&gt; (Shinn et al.)&lt;/td&gt;
 &lt;td&gt;2023&lt;/td&gt;
 &lt;td&gt;语言反馈 + 自我反思 + 经验回放&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;Tree-of-Thoughts&lt;/strong&gt; (Yao et al.)&lt;/td&gt;
 &lt;td&gt;2023&lt;/td&gt;
 &lt;td&gt;多路径探索 + BFS/DFS&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;Self-Refine&lt;/strong&gt; (Madaan et al.)&lt;/td&gt;
 &lt;td&gt;2023&lt;/td&gt;
 &lt;td&gt;Agent 自我生成 → 自我反馈 → 自我改进&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;ReWOO&lt;/strong&gt; (Xu et al.)&lt;/td&gt;
 &lt;td&gt;2023&lt;/td&gt;
 &lt;td&gt;规划与执行分离（Plan-then-Execute）&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;AgentTuning&lt;/strong&gt; (Zeng et al.)&lt;/td&gt;
 &lt;td&gt;2023&lt;/td&gt;
 &lt;td&gt;从 Agent 轨迹中微调 LLM&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;GPT-4 Function Calling&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;2023-06&lt;/td&gt;
 &lt;td&gt;原生工具调用接口&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;MCP (Model Context Protocol)&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;2024-11&lt;/td&gt;
 &lt;td&gt;标准化工具/数据协议&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;A2A (Agent-to-Agent)&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;2025-04&lt;/td&gt;
 &lt;td&gt;Agent 间通信协议&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;Deep Research (OpenAI)&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;2025-02&lt;/td&gt;
 &lt;td&gt;多层搜索 + 规划 + 报告合成&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;Anthropic MCP&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;2024-11&lt;/td&gt;
 &lt;td&gt;Function Calling 的协议级标准化&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="63-reflexion-架构agent-的自我改进"&gt;&lt;a href="#63-reflexion-%e6%9e%b6%e6%9e%84agent-%e7%9a%84%e8%87%aa%e6%88%91%e6%94%b9%e8%bf%9b" class="header-anchor"&gt;&lt;/a&gt;6.3 Reflexion 架构：Agent 的自我改进
&lt;/h3&gt;&lt;p&gt;Reflexion（Shinn et al., 2023）在 ReAct 基础上引入&lt;strong&gt;评估-反思闭环&lt;/strong&gt;：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;┌─────────────────────────────────────┐
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ Actor (ReAct Loop) │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ Thought → Action → Observation │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;└─────────────┬───────────────────────┘
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; │ 完成/失败
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ▼
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;┌─────────────────────────────────────┐
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ Evaluator │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ 评估任务完成质量 → 生成反馈 │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;└─────────────┬───────────────────────┘
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; │ 结构化反馈
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ▼
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;┌─────────────────────────────────────┐
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ Memory │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ 经验回放缓冲区（失败的决策 + 原因） │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;└─────────────┬───────────────────────┘
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; │ 提取经验
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ▼
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; 回到 Actor 重新执行
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;核心创新：Agent 通过&lt;strong&gt;自然语言反思自己的失败&lt;/strong&gt;并将经验存入记忆，而非通过权重更新。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="七协议标准化时代2024-年底2026"&gt;&lt;a href="#%e4%b8%83%e5%8d%8f%e8%ae%ae%e6%a0%87%e5%87%86%e5%8c%96%e6%97%b6%e4%bb%a32024-%e5%b9%b4%e5%ba%952026" class="header-anchor"&gt;&lt;/a&gt;七、协议标准化时代（2024 年底–2026）
&lt;/h2&gt;&lt;h3 id="71-mcpmodel-context-protocol"&gt;&lt;a href="#71-mcpmodel-context-protocol" class="header-anchor"&gt;&lt;/a&gt;7.1 MCP（Model Context Protocol）
&lt;/h3&gt;&lt;p&gt;Anthropic 于 2024 年 11 月推出的开放协议，定位在 &lt;strong&gt;Agent 与工具/数据源之间&lt;/strong&gt;的标准化接口。2025 年 12 月，Anthropic 将其捐赠给 Linux 基金会下的 &lt;strong&gt;Agentic AI Foundation&lt;/strong&gt;。&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;┌─────────┐ MCP 协议 ┌──────────┐
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ Agent │ ◄──────────► │ MCP Server │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ (Host) │ │ │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ │ │ ├── Database│
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ │ │ ├── Files │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ │ │ ├── API │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ │ │ └── Search │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;└─────────┘ └──────────┘
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;&lt;strong&gt;架构意义&lt;/strong&gt;：MCP 将工具接口从&amp;quot;厂商锁定&amp;quot;推向&lt;strong&gt;标准化&lt;/strong&gt;，使任何 MCP-compatible 的 Agent 都能自动发现和调用工具。&lt;/p&gt;
&lt;h3 id="72-a2aagent-to-agent-protocol"&gt;&lt;a href="#72-a2aagent-to-agent-protocol" class="header-anchor"&gt;&lt;/a&gt;7.2 A2A（Agent-to-Agent Protocol）
&lt;/h3&gt;&lt;p&gt;Google 于 2025 年 4 月发布，定位在 &lt;strong&gt;Agent 与 Agent 之间&lt;/strong&gt;的通信协议。2025 年 6 月贡献给 Linux 基金会。&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ┌──────────────┐
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; │ Orchestrator │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; │ Agent │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; └──────┬───────┘
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; A2A ┌───────┴────────┐
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ┌──────▼────┐ ┌──────▼────┐
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; │ Agent A │ │ Agent B │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; │ (MCP工具) │ │ (MCP工具) │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; └───────────┘ └───────────┘
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;&lt;strong&gt;MCP vs A2A 的关系&lt;/strong&gt;：&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;协议&lt;/th&gt;
 &lt;th&gt;解决的问题&lt;/th&gt;
 &lt;th&gt;方向&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;MCP&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;Agent 如何访问工具和数据&lt;/td&gt;
 &lt;td&gt;上下层连接&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;A2A&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;Agent 之间如何协作通信&lt;/td&gt;
 &lt;td&gt;平行连接&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="73-协议栈全景20252026"&gt;&lt;a href="#73-%e5%8d%8f%e8%ae%ae%e6%a0%88%e5%85%a8%e6%99%af20252026" class="header-anchor"&gt;&lt;/a&gt;7.3 协议栈全景（2025–2026）
&lt;/h3&gt;&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;Agent-to-Agent (A2A) ← Agent 间协作层
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ↕
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; Agent 核心（推理+规划+执行）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ↕
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;Model Context Protocol (MCP) ← 工具/数据接入层
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ↕
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; 数据库 | 文件 | API | 搜索 | 代码
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;hr&gt;
&lt;h2 id="八20252026-架构前沿"&gt;&lt;a href="#%e5%85%ab20252026-%e6%9e%b6%e6%9e%84%e5%89%8d%e6%b2%bf" class="header-anchor"&gt;&lt;/a&gt;八、2025–2026 架构前沿
&lt;/h2&gt;&lt;h3 id="81-深度推理-agentdeep-research"&gt;&lt;a href="#81-%e6%b7%b1%e5%ba%a6%e6%8e%a8%e7%90%86-agentdeep-research" class="header-anchor"&gt;&lt;/a&gt;8.1 深度推理 Agent（Deep Research）
&lt;/h3&gt;&lt;p&gt;OpenAI 的 &lt;strong&gt;Deep Research&lt;/strong&gt; 和类似的深度研究 Agent 架构：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;User Query → [Search Loop]
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ├── 规划搜索策略
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ├── 并行多源搜索（Web + Academic + Code）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ├── 阅读 + 提取关键信息
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ├── 交叉验证冲突信息
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; └── 是否足够？→ 是 → 合成报告
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ↓
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; 报告生成（带引用）
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;核心架构特征：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;多层搜索规划&lt;/strong&gt;：BFS 式探索&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;信息到报告的直接转换&lt;/strong&gt;：减少中间损耗&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;引用锚定（Citation Anchoring）&lt;/strong&gt;：免幻觉的可溯源设计&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="82-agentic-rag检索增强生成--agent-决策"&gt;&lt;a href="#82-agentic-rag%e6%a3%80%e7%b4%a2%e5%a2%9e%e5%bc%ba%e7%94%9f%e6%88%90--agent-%e5%86%b3%e7%ad%96" class="header-anchor"&gt;&lt;/a&gt;8.2 Agentic RAG（检索增强生成 + Agent 决策）
&lt;/h3&gt;&lt;p&gt;Agentic RAG 将传统 RAG 的&amp;quot;一阶段检索+生成&amp;quot;升级为&lt;strong&gt;多策略决策&lt;/strong&gt;：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;Query
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ↓
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;Router（路由决策）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;├──→ Vector Search（语义检索）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;├──→ Web Search（实时网络搜索）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;├──→ SQL Query（结构化数据）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;└──→ Agent Loop（复杂查询：分解→检索→合成）
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h3 id="83-hermes-agent-自身的架构mirror-of-the-trend"&gt;&lt;a href="#83-hermes-agent-%e8%87%aa%e8%ba%ab%e7%9a%84%e6%9e%b6%e6%9e%84mirror-of-the-trend" class="header-anchor"&gt;&lt;/a&gt;8.3 Hermes Agent 自身的架构（Mirror of the Trend）
&lt;/h3&gt;&lt;p&gt;你正在对话的 Hermes Agent 本身也体现了当前架构设计的最新趋势：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;工具中心&lt;/strong&gt;：所有工具（web_search, browser, terminal, execute_code 等）通过工具注册表暴露&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;ReAct Loop&lt;/strong&gt;：Thought（推理）→ Action（工具调用）→ Observation（结果回注）的自然循环&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Skills = 过程记忆&lt;/strong&gt;：将可复用的工作流编码为 skill（类似 SOAR 的 Chunking）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Memory 系统&lt;/strong&gt;：持久记忆（跨 session）+ 会话搜索（短时上下文检索）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;MCP 原生支持&lt;/strong&gt;：通过 Native MCP 技能连接标准协议工具&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Subagent 架构&lt;/strong&gt;：delegate_task 实现多 Agent 并行协作（类似 AutoGen 模式）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Cron Job&lt;/strong&gt;：事件驱动的自主执行&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h2 id="九架构演变总览图"&gt;&lt;a href="#%e4%b9%9d%e6%9e%b6%e6%9e%84%e6%bc%94%e5%8f%98%e6%80%bb%e8%a7%88%e5%9b%be" class="header-anchor"&gt;&lt;/a&gt;九、架构演变总览图
&lt;/h2&gt;&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;1950s──┐
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ├── 专家系统（规则引擎）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;1960s──┘
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;1980s ├── BDI（信念-愿望-意图）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ├── SOAR（通用认知架构 / 决策周期 + Chunking）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; └── ACT-R（认知建模 + 亚符号层）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;1990s ├── MDP + Q-Learning（经典RL）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ├── 多Agent系统理论
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;2000s──┘
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;2013 ├── DQN（深度RL / 经验回放）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;2016 ├── PPO（Actor-Critic / 策略优化）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;2017───┴── MADDPG（CTDE / 多Agent协作）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;2021 ├── WebGPT（语言模型 + 浏览器）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;2022───┴── ChatGPT + 第三方插件
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;2023-03├── AutoGPT / BabyAGI（任务分解 + 循环）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;2023-06├── GPT-4 Function Calling（工具调用原生化）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;2023-10├── ReAct（推理-行动闭环）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;2023-12├── LangChain / LangGraph（链→图 / 状态机）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;2024 ├── AutoGen / CrewAI（多Agent编排）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ├── Reflexion（自我反思 + 经验回放）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;2024-11 ├── MCP（工具/数据协议标准化）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;2025-04 ├── A2A（Agent间通信协议）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;2025-06 ├── Deep Research（深度推理检索）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;2025-12 ├── MCP捐赠至Agentic AI Foundation
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;2026 └── 多范式融合：符号规则 + LLM 推理 + RL 反馈
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;hr&gt;
&lt;h2 id="十核心洞察与结论"&gt;&lt;a href="#%e5%8d%81%e6%a0%b8%e5%bf%83%e6%b4%9e%e5%af%9f%e4%b8%8e%e7%bb%93%e8%ae%ba" class="header-anchor"&gt;&lt;/a&gt;十、核心洞察与结论
&lt;/h2&gt;&lt;ol&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;从封闭到开放&lt;/strong&gt;：Agent 架构从封闭的符号规则系统，演化为通过协议（MCP/A2A）开放互联的生态系统。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;从单一体到协作体&lt;/strong&gt;：单一 LLM Agent → 多 Agent 编排（Orchestration）→ Agent 联邦（Federation）。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;循环结构是永恒模式&lt;/strong&gt;：从 SOAR 的决策周期到 ReAct 的 Thought-Action-Observation，循环感知-推理-执行架构是所有 Agent 系统的基础。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;记忆系统分层化&lt;/strong&gt;：Working Memory（Scratchpad）→ Short-term（对话历史）→ Long-term（向量数据库）的三层架构成为事实标准。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;编排粒度的细化&lt;/strong&gt;：从 Sequential Chain → State Graph → Multi-Agent Conversation → Role-based Team，编排抽象层次不断上升。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;&amp;ldquo;大脑&amp;quot;与&amp;quot;四肢&amp;quot;分离&lt;/strong&gt;：LLM 作为推理核心 → 工具作为执行层 → 协议作为连接层，三者走向解耦与标准化。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;评估-反馈-学习闭环&lt;/strong&gt;：Reflexion、RLHF、SFT from Agent Trajectory… Agent 正在从&amp;quot;一次执行&amp;quot;走向&amp;quot;自我进化&amp;rdquo;。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;当前的瓶颈&lt;/strong&gt;：Agent 可靠性（一致性幻觉）、成本控制（token 堆积）、安全边界（工具调用权限）、调试/可观测性——这些是 2025–2026 年的核心工程挑战。&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;</description></item><item><title>写作方案规划：围绕Agent技术的梳理文章</title><link>https://zyfsir.github.io/post/write-plan/</link><pubDate>Fri, 10 Apr 2026 00:00:00 +0000</pubDate><guid>https://zyfsir.github.io/post/write-plan/</guid><description>&lt;p&gt;以Agent开发岗位所需的知识为参考，编写博客&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;input disabled="" type="checkbox"&gt; Agent系统架构的演进历程&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;多智能体协作&lt;/p&gt;
&lt;p&gt;记忆与上下文管理&lt;/p&gt;
&lt;p&gt;知识库/工具集/MCP/Skill&lt;/p&gt;
&lt;p&gt;Agent框架：OpenCode, ClaudeCode, LangGraph&lt;/p&gt;
&lt;p&gt;研发效能 / DevOps 平台经验优先（CICD / WebIDE / 工程效能度量）&lt;/p&gt;
&lt;p&gt;意图识别&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;Go / Python + LangChain / LangGraph&lt;/li&gt;
&lt;li&gt;Coze / Dify 等低代码平台经验&lt;/li&gt;
&lt;li&gt;RAG 深入理解 + 向量数据库实践经验&lt;/li&gt;
&lt;li&gt;Prompt Engineering（问题拆解 / 规划 / 执行）&lt;/li&gt;
&lt;li&gt;多 Agent 协作架构 + 任务调度逻辑&lt;/li&gt;
&lt;/ol&gt;</description></item><item><title>SOAR 的记忆蓝图：30 年前的架构，今天的营销话术</title><link>https://zyfsir.github.io/post/soar-memory-blueprint/</link><pubDate>Fri, 01 May 2026 00:00:00 +0000</pubDate><guid>https://zyfsir.github.io/post/soar-memory-blueprint/</guid><description>&lt;p&gt;写上一篇 Agent 架构演变史的时候，有一个时刻让我愣住。&lt;/p&gt;
&lt;p&gt;写到 SOAR（1987）的 Chunking 机制时，我意识到它和今天 Hermes Agent 的 SKILL 系统几乎做的是同一件事：&lt;strong&gt;把成功的经验编译成可复用的规则，下次直接调用。&lt;/strong&gt; 我当时的原话是——&lt;/p&gt;

 &lt;blockquote&gt;
 &lt;p&gt;要我说，ReAct 循环完全跟这个一样，所以算不上什么新东西。&lt;/p&gt;

 &lt;/blockquote&gt;
&lt;p&gt;这不是故作惊人之语。顺着这个思路往下挖，我发现 SOAR 的整个记忆架构在今天看都不过时。不仅不过时，它还比大部分号称有&amp;quot;记忆系统&amp;quot;的产品更完整。&lt;/p&gt;
&lt;p&gt;但这引出一个让我不太舒服的问题：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;一个 1987 年的架构就已经想清楚的事，为什么 2026 年还在被当作创新来营销？&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;或者说更尖锐一点：记忆系统，真的是 Agent 性能的关键瓶颈吗？&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="一soar-的记忆蓝图"&gt;&lt;a href="#%e4%b8%80soar-%e7%9a%84%e8%ae%b0%e5%bf%86%e8%93%9d%e5%9b%be" class="header-anchor"&gt;&lt;/a&gt;一、SOAR 的记忆蓝图
&lt;/h2&gt;&lt;p&gt;SOAR（State, Operator And Result）由 Allen Newell、John Laird 等人在 1987 年提出。它的目标是实现通用人工智能——用的还是符号主义那套方法。&lt;/p&gt;
&lt;p&gt;SOAR 不是&amp;quot;一个 AI 程序&amp;quot;，它是一套关于智能的理论：任何表现出通用智能的系统，都得有某种固定的结构，包含什么记忆系统、什么决策流程、什么学习机制。&lt;/p&gt;
&lt;p&gt;在这个框架里，记忆不是附加功能，是核心架构。SOAR 一共定义了 &lt;strong&gt;9 个记忆系统&lt;/strong&gt;，分三层：&lt;/p&gt;
&lt;h3 id="工作记忆working-memory"&gt;&lt;a href="#%e5%b7%a5%e4%bd%9c%e8%ae%b0%e5%bf%86working-memory" class="header-anchor"&gt;&lt;/a&gt;工作记忆（Working Memory）
&lt;/h3&gt;&lt;p&gt;这是 SOAR 的全局工作空间。所有感知输入、中间推理状态、决策状态都在这里，用栈结构分层表示目标与子目标。相当于今天 Agent 的 Scratchpad + 对话历史。&lt;/p&gt;
&lt;h3 id="长期记忆long-term-memory"&gt;&lt;a href="#%e9%95%bf%e6%9c%9f%e8%ae%b0%e5%bf%86long-term-memory" class="header-anchor"&gt;&lt;/a&gt;长期记忆（Long-term Memory）
&lt;/h3&gt;&lt;p&gt;长期记忆又细分为三个独立系统：&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th style="text-align: left"&gt;记忆类型&lt;/th&gt;
 &lt;th style="text-align: left"&gt;内容&lt;/th&gt;
 &lt;th style="text-align: left"&gt;今天的对应物&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;&lt;strong&gt;程序性记忆&lt;/strong&gt;（Production Rules）&lt;/td&gt;
 &lt;td style="text-align: left"&gt;if-then 规则，决定怎么做&lt;/td&gt;
 &lt;td style="text-align: left"&gt;LLM 的权重 + 推理策略&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;&lt;strong&gt;语义记忆&lt;/strong&gt;（Semantic Memory）&lt;/td&gt;
 &lt;td style="text-align: left"&gt;事实性知识，知道是什么&lt;/td&gt;
 &lt;td style="text-align: left"&gt;RAG 知识库 / 向量数据库&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;&lt;strong&gt;情节记忆&lt;/strong&gt;（Episodic Memory）&lt;/td&gt;
 &lt;td style="text-align: left"&gt;过去的经验，经历过什么&lt;/td&gt;
 &lt;td style="text-align: left"&gt;对话历史 / 记忆流&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="意向记忆intention-memory"&gt;&lt;a href="#%e6%84%8f%e5%90%91%e8%ae%b0%e5%bf%86intention-memory" class="header-anchor"&gt;&lt;/a&gt;意向记忆（Intention Memory）
&lt;/h3&gt;&lt;p&gt;SOAR 还有一个 &lt;strong&gt;Goal Stack&lt;/strong&gt;（目标栈），管理当前正在追求的子目标及其优先级。这对应今天 Agent 的任务队列和规划器。&lt;/p&gt;
&lt;h3 id="决策周期"&gt;&lt;a href="#%e5%86%b3%e7%ad%96%e5%91%a8%e6%9c%9f" class="header-anchor"&gt;&lt;/a&gt;决策周期
&lt;/h3&gt;&lt;p&gt;SOAR 的核心循环是：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;感知 → 匹配规则 → 冲突消解 → 执行 → 学习（Chunking）
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;遇到无法解决的问题时，自动创建子目标去解决。解决后，Chunking 机制把整个推导过程编译成一条新的生产规则。&lt;/p&gt;
&lt;p&gt;每一次循环可以改变行为。每一次 Chunking 可以永久提升效率。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="二今天的记忆营销"&gt;&lt;a href="#%e4%ba%8c%e4%bb%8a%e5%a4%a9%e7%9a%84%e8%ae%b0%e5%bf%86%e8%90%a5%e9%94%80" class="header-anchor"&gt;&lt;/a&gt;二、今天的&amp;quot;记忆营销&amp;quot;
&lt;/h2&gt;&lt;p&gt;现在回过头看 2023-2026 年的 Agent 产品，你会发现一个有趣的现象：&lt;strong&gt;几乎每个产品都在卖&amp;quot;记忆系统&amp;quot;。&lt;/strong&gt;&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th style="text-align: left"&gt;产品/框架&lt;/th&gt;
 &lt;th style="text-align: left"&gt;记忆卖点&lt;/th&gt;
 &lt;th style="text-align: left"&gt;实际实现&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;MemGPT/Letta&lt;/td&gt;
 &lt;td style="text-align: left"&gt;操作系统级分层记忆&lt;/td&gt;
 &lt;td style="text-align: left"&gt;存档存储 → 向量检索 → 注入上下文&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;Hermes Agent&lt;/td&gt;
 &lt;td style="text-align: left"&gt;终身学习、三层记忆&lt;/td&gt;
 &lt;td style="text-align: left"&gt;MEMORY.md(2200字符) + USER.md + FTS5 全文搜索&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;ChatGPT Memory&lt;/td&gt;
 &lt;td style="text-align: left"&gt;跨会话记住用户偏好&lt;/td&gt;
 &lt;td style="text-align: left"&gt;LLM 提取事实 → 结构化摘要 → 下次注入&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;Claude 项目记忆&lt;/td&gt;
 &lt;td style="text-align: left"&gt;记住项目上下文&lt;/td&gt;
 &lt;td style="text-align: left"&gt;单个 LLM 生成的项目摘要&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;Zep&lt;/td&gt;
 &lt;td style="text-align: left"&gt;自动实体提取和记忆管理&lt;/td&gt;
 &lt;td style="text-align: left"&gt;实体图谱 + 时间衰减 + 重要性评分&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;Kimi&lt;/td&gt;
 &lt;td style="text-align: left"&gt;手动保存到 AGENTS.md&lt;/td&gt;
 &lt;td style="text-align: left"&gt;纯文本文件读写&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;把这张表和 SOAR 的 9 层记忆系统放在一起看，你会发现一件尴尬的事：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;今天的&amp;quot;记忆系统&amp;quot;并没有比 SOAR 更丰富，反而更简陋。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;SOAR 有程序性记忆（改变了决策逻辑）、语义记忆（知识库）、情节记忆（经验）、目标栈（任务管理）。今天的产品基本上只实现了&amp;quot;存文本→检索→注入上下文&amp;quot;这一个模式，管它叫&amp;quot;记忆&amp;quot;。&lt;/p&gt;
&lt;p&gt;更关键的区别在后面。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="三检索式记忆的理论天花板"&gt;&lt;a href="#%e4%b8%89%e6%a3%80%e7%b4%a2%e5%bc%8f%e8%ae%b0%e5%bf%86%e7%9a%84%e7%90%86%e8%ae%ba%e5%a4%a9%e8%8a%b1%e6%9d%bf" class="header-anchor"&gt;&lt;/a&gt;三、检索式记忆的理论天花板
&lt;/h2&gt;&lt;p&gt;抛开营销回到技术层面：今天的&amp;quot;记忆系统&amp;quot;本质上都是检索式记忆——你存一段文本，下次用向量搜索找到它，再塞回上下文。&lt;/p&gt;
&lt;p&gt;这个范式有一个&lt;strong&gt;数学层面无法规避&lt;/strong&gt;的问题。&lt;/p&gt;
&lt;h3 id="31-高维诅咒"&gt;&lt;a href="#31-%e9%ab%98%e7%bb%b4%e8%af%85%e5%92%92" class="header-anchor"&gt;&lt;/a&gt;3.1 高维诅咒
&lt;/h3&gt;&lt;p&gt;你能想到的几乎所有嵌入模型都在用 768d 或 1024d 的向量。&lt;/p&gt;
&lt;p&gt;Aggarwal 等人在 2001 年就证明了一个令人不安的事实：当维度超过 ~25 时，高维空间中所有点的距离趋向均匀。最近邻和最远邻的距离比值趋近于 1。&lt;/p&gt;
&lt;p&gt;这意味着：&lt;strong&gt;你的向量索引本质上是一个随机排序器，&lt;/strong&gt; 只是被嵌入模型的&amp;quot;语义压缩&amp;quot;勉强维持着秩序。两个文档余弦相似度 0.85 可能语义无关，另外两个 0.80 可能是同义改写。你的 ANN 索引分辨不了这个区别。&lt;/p&gt;
&lt;p&gt;你提高召回率=扩大检索范围，必然引入噪声——因为决策边界一定包含边界线不相关的文档。&lt;/p&gt;
&lt;h3 id="32-lost-in-the-middle"&gt;&lt;a href="#32-lost-in-the-middle" class="header-anchor"&gt;&lt;/a&gt;3.2 Lost in the Middle
&lt;/h3&gt;&lt;p&gt;Liu 等人（2023）发现 LLM 在长上下文上的表现呈 U 型曲线：相关信息在开头和结尾时性能最好，在中间时下降 20-40%。&lt;/p&gt;
&lt;p&gt;这意味着什么？&lt;strong&gt;你为了提高召回率多检索几个文档进去，这些文档恰好被塞进了模型最不会利用的位置。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;你在主动伤害自己。&lt;/p&gt;
&lt;p&gt;更糟糕的是，这个 U 型是因果注意力（Causal Attention）的结构性属性。长上下文模型（128K、200K、甚至 1M）都没有消除它。它是一个 architectural 问题，不是一个参数能调好的。&lt;/p&gt;
&lt;h3 id="33-llm-对噪声的极度敏感"&gt;&lt;a href="#33-llm-%e5%af%b9%e5%99%aa%e5%a3%b0%e7%9a%84%e6%9e%81%e5%ba%a6%e6%95%8f%e6%84%9f" class="header-anchor"&gt;&lt;/a&gt;3.3 LLM 对噪声的极度敏感
&lt;/h3&gt;&lt;p&gt;Shi 等人（2023）在 GSM-IC 基准上发现：&lt;strong&gt;一个无关句子就让 GPT-3 的准确率从 80% 掉到 55-65%。&lt;/strong&gt; 一个句子。&lt;/p&gt;
&lt;p&gt;Cuconasu 等人（2024）进一步揭示：主题相关但实际无关的文档&lt;strong&gt;比明显无关的文档更有害&lt;/strong&gt;——因为 LLM 分不清&amp;quot;看起来相关但没用&amp;quot;和&amp;quot;真正有用&amp;quot;。&lt;/p&gt;
&lt;p&gt;把这三个事实串起来：&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th style="text-align: left"&gt;事实&lt;/th&gt;
 &lt;th style="text-align: left"&gt;含义&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;高维诅咒&lt;/td&gt;
 &lt;td style="text-align: left"&gt;提高召回率不可避免引入噪声&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;Lost in the Middle&lt;/td&gt;
 &lt;td style="text-align: left"&gt;多塞的文档在模型最不擅长的位置&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;噪声敏感&lt;/td&gt;
 &lt;td style="text-align: left"&gt;少量噪声就显著降低输出质量&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;这就是 Precision-Recall 矛盾的完整图景。它不是工程问题，是&lt;strong&gt;结构性问题&lt;/strong&gt;。&lt;/p&gt;
&lt;h3 id="34-实证记忆增益的边际递减"&gt;&lt;a href="#34-%e5%ae%9e%e8%af%81%e8%ae%b0%e5%bf%86%e5%a2%9e%e7%9b%8a%e7%9a%84%e8%be%b9%e9%99%85%e9%80%92%e5%87%8f" class="header-anchor"&gt;&lt;/a&gt;3.4 实证：记忆增益的边际递减
&lt;/h3&gt;&lt;p&gt;我不是在说记忆系统没用。它确实有效。Hindsight（2025）把 20B 模型在 LongMemEval 上从 39% 提升到 83.6%。CorpGen（2026）把多任务完成率从 8.7% 提升到 15.2%（3.5x）。&lt;/p&gt;
&lt;p&gt;但同一批论文也揭示了一个天花板：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Zep 在 MemGPT 自己的基准上只领先 &lt;strong&gt;1.4 个百分点&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;Lian 等人（2024）发现记忆超过 500 个事件的 Agent 产生矛盾计划的概率是小于 50 个事件的 &lt;strong&gt;2 倍&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;学术界开始承认：当前 RAG 范式的记忆系统正在逼近收益天花板&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h2 id="四soar-chunking-vs-现代-agent-的学习"&gt;&lt;a href="#%e5%9b%9bsoar-chunking-vs-%e7%8e%b0%e4%bb%a3-agent-%e7%9a%84%e5%ad%a6%e4%b9%a0" class="header-anchor"&gt;&lt;/a&gt;四、SOAR Chunking vs 现代 Agent 的&amp;quot;学习&amp;quot;
&lt;/h2&gt;&lt;p&gt;回到 SOAR。它的 Chunking 和今天的&amp;quot;记忆&amp;quot;有一个&lt;strong&gt;本质性的区别&lt;/strong&gt;：&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th style="text-align: left"&gt;维度&lt;/th&gt;
 &lt;th style="text-align: left"&gt;SOAR Chunking&lt;/th&gt;
 &lt;th style="text-align: left"&gt;现代 Agent 记忆&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;改变了什么&lt;/td&gt;
 &lt;td style="text-align: left"&gt;新增生产式规则到架构中&lt;/td&gt;
 &lt;td style="text-align: left"&gt;存一段文本到数据库&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;持久性&lt;/td&gt;
 &lt;td style="text-align: left"&gt;永久的行为改变&lt;/td&gt;
 &lt;td style="text-align: left"&gt;依赖上下文窗口（滚出去就没了）&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;机制&lt;/td&gt;
 &lt;td style="text-align: left"&gt;条件-动作规则编译&lt;/td&gt;
 &lt;td style="text-align: left"&gt;文本注入到 prompt&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;泛化&lt;/td&gt;
 &lt;td style="text-align: left"&gt;规则自动匹配任何符合条件的状态&lt;/td&gt;
 &lt;td style="text-align: left"&gt;只有文本重新注入才生效&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;重量级&lt;/td&gt;
 &lt;td style="text-align: left"&gt;轻量（一条规则）&lt;/td&gt;
 &lt;td style="text-align: left"&gt;重量级（每次检索 + 上下文消耗）&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;strong&gt;SOAR 的 Chunking 是真正的程序性学习&lt;/strong&gt;：系统的决策逻辑被永久修改了。下次遇到同样的情况，它不需要思考，直接反应。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;现代 Agent 的&amp;quot;记忆&amp;quot;是外部文本存储&lt;/strong&gt;：每次使用都需要重新检索、重新注入、让模型重新处理。你记了 100 件事，每次对话开始，你要检索一次，消耗一次上下文。&lt;/p&gt;
&lt;p&gt;这不是同一个量级的东西。&lt;/p&gt;
&lt;p&gt;Hermes Agent 的 SKILL 系统是最接近 Chunking 的——它在完成任务后自动创建 SKILL 文件——但它依然只是存了一段文本，下次读取这段文本。模型权重从未被修改过。&lt;/p&gt;
&lt;p&gt;所有号称&amp;quot;终身学习&amp;quot;的产品都得打上问号。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="五harness-工程被忽视的真正杠杆"&gt;&lt;a href="#%e4%ba%94harness-%e5%b7%a5%e7%a8%8b%e8%a2%ab%e5%bf%bd%e8%a7%86%e7%9a%84%e7%9c%9f%e6%ad%a3%e6%9d%a0%e6%9d%86" class="header-anchor"&gt;&lt;/a&gt;五、Harness 工程：被忽视的真正杠杆
&lt;/h2&gt;&lt;p&gt;如果记忆不是 Agent 性能的关键瓶颈，那什么是？&lt;/p&gt;
&lt;p&gt;越来越多的证据指向另一个方向：&lt;strong&gt;Agent 与环境的接口质量——工具设计、反馈信号、错误处理、状态控制。&lt;/strong&gt; 我称之为 Harness 工程。&lt;/p&gt;
&lt;h3 id="andrew-ng-的数据"&gt;&lt;a href="#andrew-ng-%e7%9a%84%e6%95%b0%e6%8d%ae" class="header-anchor"&gt;&lt;/a&gt;Andrew Ng 的数据
&lt;/h3&gt;&lt;p&gt;2024 年 3 月，Andrew Ng 在 Agentic Design Patterns 系列中公布了一个令人震惊的对比：&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th style="text-align: left"&gt;配置&lt;/th&gt;
 &lt;th style="text-align: left"&gt;HumanEval 准确率&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;GPT-4 零样本&lt;/td&gt;
 &lt;td style="text-align: left"&gt;67.0%&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;GPT-3.5 零样本&lt;/td&gt;
 &lt;td style="text-align: left"&gt;48.1%&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;GPT-3.5 + Agent 循环&lt;/td&gt;
 &lt;td style="text-align: left"&gt;&lt;strong&gt;95.1%&lt;/strong&gt;&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;GPT-3.5（弱模型）+ 良好的 Agent 流水线（工具使用、反思、规划）大幅超越了 GPT-4（强模型）零样本。&lt;/p&gt;
&lt;p&gt;这意味着你可以花精力优化模型内部的记忆系统，也可以花精力优化 Agent 外部的工具和流程。&lt;strong&gt;后者的收益可能更高。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="anthropic-的-aci-概念"&gt;&lt;a href="#anthropic-%e7%9a%84-aci-%e6%a6%82%e5%bf%b5" class="header-anchor"&gt;&lt;/a&gt;Anthropic 的 ACI 概念
&lt;/h3&gt;&lt;p&gt;Anthropic 在 2024 年 12 月的《Building Effective Agents》中提出了 &lt;strong&gt;ACI（Agent-Computer Interface）&lt;/strong&gt; 的概念——Agent 与计算机之间的接口质量和 HCI 一样值得精心设计。&lt;/p&gt;
&lt;p&gt;他们报告：&lt;/p&gt;

 &lt;blockquote&gt;
 &lt;p&gt;&amp;ldquo;在 SWE-bench 的 Agent 上，&lt;strong&gt;优化工具所花的时间比优化整体提示词还要多。&lt;/strong&gt;&amp;rdquo;&lt;/p&gt;

 &lt;/blockquote&gt;
&lt;p&gt;一个具体的案例：把工具参数从相对路径改成绝对路径（简单的防错设计），就消除了一整类错误。&lt;strong&gt;不需要更好的记忆，不需要更强的模型，只需要想清楚工具该怎么暴露。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;这就是 Harness 工程的威力。&lt;/p&gt;
&lt;h3 id="mcp-和-a2a-的标准化信号"&gt;&lt;a href="#mcp-%e5%92%8c-a2a-%e7%9a%84%e6%a0%87%e5%87%86%e5%8c%96%e4%bf%a1%e5%8f%b7" class="header-anchor"&gt;&lt;/a&gt;MCP 和 A2A 的标准化信号
&lt;/h3&gt;&lt;p&gt;2024-2025 年，两个协议的出现标志着产业界意识到 Harness 层的重要性：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;MCP（Model Context Protocol）&lt;/strong&gt;：标准化 Agent 如何访问工具和数据&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;A2A（Agent-to-Agent Protocol）&lt;/strong&gt;：标准化 Agent 之间如何通信&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这两个协议不是在解决&amp;quot;模型怎么更聪明&amp;quot;，而是在解决&amp;quot;Agent 如何更好地与环境互动&amp;quot;。它们本质上都是 Harness 工程的标准化工件。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="六结论先修路再建博物馆"&gt;&lt;a href="#%e5%85%ad%e7%bb%93%e8%ae%ba%e5%85%88%e4%bf%ae%e8%b7%af%e5%86%8d%e5%bb%ba%e5%8d%9a%e7%89%a9%e9%a6%86" class="header-anchor"&gt;&lt;/a&gt;六、结论：先修路，再建博物馆
&lt;/h2&gt;&lt;p&gt;我不是在否定记忆系统。记忆是必要的。SOAR 说得对，任何通用智能系统都需要记忆。今天的产品也确实从记忆中受益。&lt;/p&gt;
&lt;p&gt;我想说的是两件事：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;第一，记忆的收益正在递减。&lt;/strong&gt; 检索式记忆有坚实的理论天花板。你可以继续优化你的 RAG 管道、调参 HNSW、尝试不同的 chunk 策略——但 PR 矛盾不是&amp;quot;优化参数就能解决&amp;quot;的工程问题，是结构性的约束。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;第二，Harness 工程是被忽视的更大杠杆。&lt;/strong&gt; 好的工具设计、清晰的反馈信号、可靠的状态控制——这些给 Agent 带来的增益可能远大于更好的记忆。Andrew Ng 的 95.1% 和 Anthropic 的 ACI 实践都在指向这个方向。&lt;/p&gt;
&lt;p&gt;如果要用一个比喻来总结：&lt;/p&gt;

 &lt;blockquote&gt;
 &lt;p&gt;记忆是博物馆的展品。Harness 是通往博物馆的路。大部分人都在争论展品怎么摆放更漂亮，但真正决定你能看多少展品的，是那条路修得好不好。&lt;/p&gt;

 &lt;/blockquote&gt;
&lt;p&gt;SOAR 在 1987 年就看懂了这件事。它的 9 层记忆系统很漂亮，但真正让它&amp;quot;至今不过时&amp;quot;的，是那个将记忆、决策、执行、学习整合在一起的闭环架构——也就是它对自己的&amp;quot;环境&amp;quot;（包括记忆环境）的完整管理。&lt;/p&gt;
&lt;p&gt;30 年过去了，我们还在卖&amp;quot;记忆系统&amp;quot;这个概念。也许该往前看了。&lt;/p&gt;</description></item><item><title>生产环境 RAG 的七步流水线：PR 矛盾没被解决，只是被管理了</title><link>https://zyfsir.github.io/post/rag-seven-step-pipeline/</link><pubDate>Fri, 01 May 2026 00:00:00 +0000</pubDate><guid>https://zyfsir.github.io/post/rag-seven-step-pipeline/</guid><description>&lt;p&gt;在上一篇（《SOAR 的记忆蓝图》）里，我拆解了检索式记忆系统的 Precision-Recall 矛盾：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;提高召回率&lt;/strong&gt; → 必然引入噪声 → LLM 被无关信息干扰&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;提高精度&lt;/strong&gt; → 降低召回率 → 遗漏相关信息&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;加 Reranker/CRAG&lt;/strong&gt; → 延迟和复杂度上升 → 本身也会失败&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这不是&amp;quot;优化几个参数就能解决&amp;quot;的工程问题，这是高维空间的几何学、Transformer 的注意力机制、以及 LLM 的噪声敏感性共同决定的&lt;strong&gt;结构性约束&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;但有一个问题还没回答：如果这个矛盾没法解决，那在实际干活的人是怎么做的？&lt;/p&gt;
&lt;p&gt;答案是：&lt;strong&gt;他们不解决矛盾，他们管理矛盾。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;经过 2023-2026 年的快速迭代，工业界已经收敛到一个标准的&amp;quot;七步流水线&amp;quot;。每一步都在做不同的权衡，每一步都承认矛盾没有被消除。但这个管道叠加起来，把 PR 矛盾压到了一个可接受的范围。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="第一步查询变换query-transformation"&gt;&lt;a href="#%e7%ac%ac%e4%b8%80%e6%ad%a5%e6%9f%a5%e8%af%a2%e5%8f%98%e6%8d%a2query-transformation" class="header-anchor"&gt;&lt;/a&gt;第一步：查询变换（Query Transformation）
&lt;/h2&gt;&lt;p&gt;原始的用户查询很少适合直接检索。&lt;/p&gt;
&lt;p&gt;用户说&amp;quot;帮我看看那个张三上次提到的项目进度&amp;quot;，直接拿去向量检索，八成找不到对应的文档。需要先把查询转换成更适合检索的形式。&lt;/p&gt;
&lt;h3 id="常用方案"&gt;&lt;a href="#%e5%b8%b8%e7%94%a8%e6%96%b9%e6%a1%88" class="header-anchor"&gt;&lt;/a&gt;常用方案
&lt;/h3&gt;&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th style="text-align: left"&gt;方法&lt;/th&gt;
 &lt;th style="text-align: left"&gt;做法&lt;/th&gt;
 &lt;th style="text-align: left"&gt;效果&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;&lt;strong&gt;Multi-Query&lt;/strong&gt;&lt;/td&gt;
 &lt;td style="text-align: left"&gt;用 LLM 把一个问题改写为 3-5 个不同角度的检索词&lt;/td&gt;
 &lt;td style="text-align: left"&gt;增加召回率，减少遗漏&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;&lt;strong&gt;HyDE&lt;/strong&gt; (Gao, 2022)&lt;/td&gt;
 &lt;td style="text-align: left"&gt;先生成一个&amp;quot;假设的理想文档&amp;quot;，用它的嵌入去检索&lt;/td&gt;
 &lt;td style="text-align: left"&gt;对需要精确匹配的场景效果好&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;&lt;strong&gt;Step-back Prompting&lt;/strong&gt;&lt;/td&gt;
 &lt;td style="text-align: left"&gt;先生成一个更抽象的宽泛问题，从宽到窄检索&lt;/td&gt;
 &lt;td style="text-align: left"&gt;适合需要先理解上下文再找细节的场景&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;&lt;strong&gt;查询分解&lt;/strong&gt;&lt;/td&gt;
 &lt;td style="text-align: left"&gt;把复杂问题拆成多个子问题，分别检索&lt;/td&gt;
 &lt;td style="text-align: left"&gt;适合多跳问题&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="这一步的权衡"&gt;&lt;a href="#%e8%bf%99%e4%b8%80%e6%ad%a5%e7%9a%84%e6%9d%83%e8%a1%a1" class="header-anchor"&gt;&lt;/a&gt;这一步的权衡
&lt;/h3&gt;&lt;p&gt;查询变换提高了召回率（覆盖了查询的不同侧面），但代价是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;可能偏离原始意图&lt;/strong&gt;——改写后的查询抓住了相关的 false positive，漏掉了真正的目标&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;LLM 调用成本&lt;/strong&gt;——每次查询变换都多了一次 LLM 调用&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;延迟增加&lt;/strong&gt;——Multi-Query 让一次检索变成 3-5 次&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;这是 PR 矛盾的第一层应对：用算力换召回率。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="第二步元数据预过滤metadata-pre-filtering"&gt;&lt;a href="#%e7%ac%ac%e4%ba%8c%e6%ad%a5%e5%85%83%e6%95%b0%e6%8d%ae%e9%a2%84%e8%bf%87%e6%bb%a4metadata-pre-filtering" class="header-anchor"&gt;&lt;/a&gt;第二步：元数据预过滤（Metadata Pre-filtering）
&lt;/h2&gt;&lt;p&gt;纯向量检索在生产环境中已经没人用了。&lt;/p&gt;
&lt;p&gt;你的知识库有各种属性——时间范围、文档来源、领域、权限级别。如果不在向量检索之前用这些属性做预过滤，你的向量搜索就会在一个巨大的、大部分不相关的空间里找相似度。&lt;/p&gt;
&lt;p&gt;Pinecone、Weaviate、Qdrant 的生产指南里有一条共识：&lt;strong&gt;先过元数据，再过向量。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="典型实现"&gt;&lt;a href="#%e5%85%b8%e5%9e%8b%e5%ae%9e%e7%8e%b0" class="header-anchor"&gt;&lt;/a&gt;典型实现
&lt;/h3&gt;&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;查询: &amp;#34;2026年Q1的项目报告&amp;#34;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;过滤: date &amp;gt;= 2026-01-01 AND date &amp;lt;= 2026-03-31
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; AND type = &amp;#34;project_report&amp;#34;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;向量检索: 在过滤后的子集里做 top-k
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h3 id="这一步的权衡-1"&gt;&lt;a href="#%e8%bf%99%e4%b8%80%e6%ad%a5%e7%9a%84%e6%9d%83%e8%a1%a1-1" class="header-anchor"&gt;&lt;/a&gt;这一步的权衡
&lt;/h3&gt;&lt;p&gt;预过滤大幅提高精度（把搜索空间缩小到真正相关的子集），但代价是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;如果过滤条件太激进，召回率会骤降&lt;/strong&gt;——你过滤掉了你以为是无关、但实际上相关的内容&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;预过滤 vs 后过滤的永恒争议&lt;/strong&gt;：先过滤再向量搜索（丢失潜在匹配）vs 先向量搜索再过滤（浪费算力在不相关的结果上）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;两个过滤器之间的&lt;/strong&gt;：元数据过滤掉的文档，向量搜索不会看到&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;这是 PR 矛盾的第二层应对：用先验知识减少搜索空间。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="第三步混合检索--rrfhybrid-search--reciprocal-rank-fusion"&gt;&lt;a href="#%e7%ac%ac%e4%b8%89%e6%ad%a5%e6%b7%b7%e5%90%88%e6%a3%80%e7%b4%a2--rrfhybrid-search--reciprocal-rank-fusion" class="header-anchor"&gt;&lt;/a&gt;第三步：混合检索 + RRF（Hybrid Search + Reciprocal Rank Fusion）
&lt;/h2&gt;&lt;p&gt;纯稠密检索（Dense Retrieval）和纯稀疏检索（BM25）各有缺陷：&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th style="text-align: left"&gt;检索方式&lt;/th&gt;
 &lt;th style="text-align: left"&gt;强项&lt;/th&gt;
 &lt;th style="text-align: left"&gt;弱项&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;稠密检索（Embedding）&lt;/td&gt;
 &lt;td style="text-align: left"&gt;语义匹配&lt;/td&gt;
 &lt;td style="text-align: left"&gt;丢失精确关键词匹配，受嵌入质量影响&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;稀疏检索（BM25）&lt;/td&gt;
 &lt;td style="text-align: left"&gt;精确关键词匹配&lt;/td&gt;
 &lt;td style="text-align: left"&gt;无法处理同义、近义表达&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;工业界的答案是：&lt;strong&gt;两个都做，然后把结果融合。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="reciprocal-rank-fusionrrf"&gt;&lt;a href="#reciprocal-rank-fusionrrf" class="header-anchor"&gt;&lt;/a&gt;Reciprocal Rank Fusion（RRF）
&lt;/h3&gt;&lt;p&gt;RRF 的公式极其简单：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;score(d) = Σ 1 / (k + rank(d))
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;对每个文档，取它在两种检索方式中的排名，加起来算一个综合分数。k 是一个平滑常数，通常取 60。&lt;/p&gt;
&lt;h3 id="这一步的权衡-2"&gt;&lt;a href="#%e8%bf%99%e4%b8%80%e6%ad%a5%e7%9a%84%e6%9d%83%e8%a1%a1-2" class="header-anchor"&gt;&lt;/a&gt;这一步的权衡
&lt;/h3&gt;&lt;p&gt;混合检索在召回率上有明显的提升（5-15% 的 recall@10 改善），但代价是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;两个索引都要维护&lt;/strong&gt;——稠密索引 + 稀疏索引，存储翻倍&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;RRF 权重难调&lt;/strong&gt;——k 值、稠密 vs 稀疏的权重比例，对不同的领域和查询类型有不同的最优值&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;两个引擎都可能出问题&lt;/strong&gt;——一个引擎的失败结果会通过 RRF 污染最终排名&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;这是 PR 矛盾的第三层应对：用多个正交的检索信号互相补充。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="第四步小-chunk-检索small-chunk-retrieval"&gt;&lt;a href="#%e7%ac%ac%e5%9b%9b%e6%ad%a5%e5%b0%8f-chunk-%e6%a3%80%e7%b4%a2small-chunk-retrieval" class="header-anchor"&gt;&lt;/a&gt;第四步：小 Chunk 检索（Small Chunk Retrieval）
&lt;/h2&gt;&lt;p&gt;这是整个流水线里最微妙的一步。&lt;/p&gt;
&lt;p&gt;你面临一个根本性的矛盾：&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th style="text-align: left"&gt;Chunk 大小&lt;/th&gt;
 &lt;th style="text-align: left"&gt;嵌入精度&lt;/th&gt;
 &lt;th style="text-align: left"&gt;上下文完整性&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;小（~200 tokens）&lt;/td&gt;
 &lt;td style="text-align: left"&gt;高——每段聚焦一个主题，嵌入向量干净&lt;/td&gt;
 &lt;td style="text-align: left"&gt;低——切碎了语义边界&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;大（~1000 tokens）&lt;/td&gt;
 &lt;td style="text-align: left"&gt;低——一段包含多个主题，嵌入向量的平均化稀释了语义&lt;/td&gt;
 &lt;td style="text-align: left"&gt;高——保留了上下文&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;Anyscale 在 2023 年做了一个有影响力的实验：把 chunk_size 从 100 逐步增加到 900，观察检索分数和生成质量的变化。&lt;/p&gt;
&lt;p&gt;结果是两条方向相反的曲线：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;检索分数单调递增&lt;/strong&gt;——更大的 chunk 更容易被命中（里面有更多关键词）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;生成质量先升后降&lt;/strong&gt;——在 300-500 tokens 达到峰值，之后更多的上下文开始引入噪声&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="工业界的共识"&gt;&lt;a href="#%e5%b7%a5%e4%b8%9a%e7%95%8c%e7%9a%84%e5%85%b1%e8%af%86" class="header-anchor"&gt;&lt;/a&gt;工业界的共识
&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;小 chunk 用于检索，大 chunk 用于阅读。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;具体来说：嵌入和检索用 256-512 tokens 的小 chunk（保证精度），检索到之后把整个 parent document 或相邻 chunk 一起拉上来送给 LLM。&lt;/p&gt;
&lt;p&gt;这被称为 &lt;strong&gt;&amp;ldquo;small-to-retrieve, big-to-read&amp;rdquo;&lt;/strong&gt; 模式。&lt;/p&gt;
&lt;h3 id="这一步的权衡-3"&gt;&lt;a href="#%e8%bf%99%e4%b8%80%e6%ad%a5%e7%9a%84%e6%9d%83%e8%a1%a1-3" class="header-anchor"&gt;&lt;/a&gt;这一步的权衡
&lt;/h3&gt;&lt;p&gt;小 chunk 让检索精度大幅提升，但引入了一个新的复杂度：你需要额外维护 chunk ↔ parent 的映射关系，且 chunk 边界的切割永远会破坏一些语义边界。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;这是 PR 矛盾的第四层应对：把&amp;quot;检索&amp;quot;和&amp;quot;阅读&amp;quot;解耦，让它们用不同的粒度。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="第五步上下文展开context-expansion"&gt;&lt;a href="#%e7%ac%ac%e4%ba%94%e6%ad%a5%e4%b8%8a%e4%b8%8b%e6%96%87%e5%b1%95%e5%bc%80context-expansion" class="header-anchor"&gt;&lt;/a&gt;第五步：上下文展开（Context Expansion）
&lt;/h2&gt;&lt;p&gt;第四步检索到的是小 chunk。但单独把小 chunk 扔给 LLM 是不够的——它只看到了切片，看不到上下文。&lt;/p&gt;
&lt;p&gt;上下文展开的做法是：&lt;strong&gt;拿到命中的小 chunk 后，把它的邻居 chunk 或 parent 文档一起带上来。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="实现方式"&gt;&lt;a href="#%e5%ae%9e%e7%8e%b0%e6%96%b9%e5%bc%8f" class="header-anchor"&gt;&lt;/a&gt;实现方式
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;SentenceWindowRetrieval&lt;/strong&gt;：命中一个句子，拉它前后 N 个句子作为上下文窗口&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;ParentDocumentRetriever&lt;/strong&gt;：命中一个子 chunk，拉对应的父文档&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Sliding Window&lt;/strong&gt;：把 chunk 边界滑动一下，重新拼接上下文&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="这一步的权衡-4"&gt;&lt;a href="#%e8%bf%99%e4%b8%80%e6%ad%a5%e7%9a%84%e6%9d%83%e8%a1%a1-4" class="header-anchor"&gt;&lt;/a&gt;这一步的权衡
&lt;/h3&gt;&lt;p&gt;展开把精度↔完整性的天平往回拉了拉——你放弃了部分精度，换回了上下文。但展开范围越大，你重新引入了多少噪声就越不可控：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;chunk 精度: 高
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;展开后: 上下文完整了，但噪声回来了
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;&lt;strong&gt;这是 PR 矛盾的第五层应对：用&amp;quot;检索精度换阅读完整性&amp;quot;.&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="第六步重排序re-ranking"&gt;&lt;a href="#%e7%ac%ac%e5%85%ad%e6%ad%a5%e9%87%8d%e6%8e%92%e5%ba%8fre-ranking" class="header-anchor"&gt;&lt;/a&gt;第六步：重排序（Re-ranking）
&lt;/h2&gt;&lt;p&gt;前五步产出的结果是一堆&amp;quot;roughly 相关&amp;quot;的候选。它们之间的相关性差异很小，而向量相似度在这个阶段已经丧失了分辨力。&lt;/p&gt;
&lt;p&gt;Reranker（通常是一个交叉编码器）把 query 和每个候选文档配对，算一个精确的相关性分数。&lt;/p&gt;
&lt;h3 id="效果"&gt;&lt;a href="#%e6%95%88%e6%9e%9c" class="header-anchor"&gt;&lt;/a&gt;效果
&lt;/h3&gt;&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th style="text-align: left"&gt;方案&lt;/th&gt;
 &lt;th style="text-align: left"&gt;精度提升&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;不加 Reranker&lt;/td&gt;
 &lt;td style="text-align: left"&gt;基线&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;加 Cross-encoder Reranker&lt;/td&gt;
 &lt;td style="text-align: left"&gt;+5-15pp nDCG（在 BEIR 基准上）&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;Cohere Rerank、BGE-Reranker 是生产中最常用的选择。&lt;/p&gt;
&lt;h3 id="这一步的权衡-5"&gt;&lt;a href="#%e8%bf%99%e4%b8%80%e6%ad%a5%e7%9a%84%e6%9d%83%e8%a1%a1-5" class="header-anchor"&gt;&lt;/a&gt;这一步的权衡
&lt;/h3&gt;&lt;p&gt;Reranker 是目前最有效的精度提升手段，但它有一个你不能忽视的限制：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;它不能挽救没有被前面步骤命中到的文档。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;Reranker 做的是&amp;quot;从候选里挑出最相关的&amp;quot;，候选名单在上一步就已经定了。如果前面六步都没有命中那个真正相关的文档，Reranker 也帮不了你。&lt;/p&gt;

 &lt;blockquote&gt;
 &lt;p&gt;Reranker 提高精度，召回率天花板由前序步骤设定。&lt;/p&gt;

 &lt;/blockquote&gt;
&lt;p&gt;另外，交叉编码器比双编码器慢 2-5x。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;这是 PR 矛盾的第六层应对：用更多的算力（交叉编码）换取精度，但承认召回率的天花板已经定了。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="第七步llm-生成"&gt;&lt;a href="#%e7%ac%ac%e4%b8%83%e6%ad%a5llm-%e7%94%9f%e6%88%90" class="header-anchor"&gt;&lt;/a&gt;第七步：LLM 生成
&lt;/h2&gt;&lt;p&gt;最后一步，把前六步精挑细选出来的上下文送给 LLM，让它生成答案。&lt;/p&gt;
&lt;p&gt;这一步本身也能做一些事情来管理 PR 矛盾：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;系统提示约束&lt;/strong&gt;：明确告诉 LLM&amp;quot;如果检索到的内容不足以回答，请说不知道&amp;quot;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;引用锚定（Citation Anchoring）&lt;/strong&gt;：要求 LLM 在回答的每个关键事实后面注明来源 chunk&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;置信度声明&lt;/strong&gt;：如果模型的回答基于不充分的检索结果，要求它声明不确定性&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="这一步的权衡-6"&gt;&lt;a href="#%e8%bf%99%e4%b8%80%e6%ad%a5%e7%9a%84%e6%9d%83%e8%a1%a1-6" class="header-anchor"&gt;&lt;/a&gt;这一步的权衡
&lt;/h3&gt;&lt;p&gt;这一步的约束越严格，精度越高（更少幻觉），但用户可能得到更多&amp;quot;我不知道&amp;quot;的回复——这是用&lt;strong&gt;用户满意度换精度&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;这是 PR 矛盾的第七层应对：用生成时的约束来兜底。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="全景七步的得失"&gt;&lt;a href="#%e5%85%a8%e6%99%af%e4%b8%83%e6%ad%a5%e7%9a%84%e5%be%97%e5%a4%b1" class="header-anchor"&gt;&lt;/a&gt;全景：七步的得失
&lt;/h2&gt;&lt;p&gt;把七步串起来，每一层的权衡一目了然：&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th style="text-align: left"&gt;步骤&lt;/th&gt;
 &lt;th style="text-align: left"&gt;主要 tradeoff&lt;/th&gt;
 &lt;th style="text-align: left"&gt;状态&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;查询变换&lt;/td&gt;
 &lt;td style="text-align: left"&gt;召回率 ↑ / 意图偏离风险 ↑&lt;/td&gt;
 &lt;td style="text-align: left"&gt;生产标配&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;元数据过滤&lt;/td&gt;
 &lt;td style="text-align: left"&gt;精度 ↑ / 过滤过头则召回率骤降&lt;/td&gt;
 &lt;td style="text-align: left"&gt;生产标配&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;混合检索 + RRF&lt;/td&gt;
 &lt;td style="text-align: left"&gt;召回率 ↑ / 维护成本 ↑ / 权重难调&lt;/td&gt;
 &lt;td style="text-align: left"&gt;生产标配&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;小 chunk 检索&lt;/td&gt;
 &lt;td style="text-align: left"&gt;精度 ↑ / 上下文完整性 ↓&lt;/td&gt;
 &lt;td style="text-align: left"&gt;生产标配&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;上下文展开&lt;/td&gt;
 &lt;td style="text-align: left"&gt;完整性 ↑ / 噪声回归&lt;/td&gt;
 &lt;td style="text-align: left"&gt;生产标配&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;重排序&lt;/td&gt;
 &lt;td style="text-align: left"&gt;精度 ↑ / 延迟 ↑ / 召回率天花板已定&lt;/td&gt;
 &lt;td style="text-align: left"&gt;生产标配&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;LLM 生成约束&lt;/td&gt;
 &lt;td style="text-align: left"&gt;精度 ↑ / 用户满意度 ↓&lt;/td&gt;
 &lt;td style="text-align: left"&gt;按需采用&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;strong&gt;每一个步骤都引入了一个新的 tradeoff，下一个步骤又来部分弥补这个 tradeoff。整个流水线不是在解决问题，而是在不断转移问题。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="局限七步之后矛盾仍在"&gt;&lt;a href="#%e5%b1%80%e9%99%90%e4%b8%83%e6%ad%a5%e4%b9%8b%e5%90%8e%e7%9f%9b%e7%9b%be%e4%bb%8d%e5%9c%a8" class="header-anchor"&gt;&lt;/a&gt;局限：七步之后，矛盾仍在
&lt;/h2&gt;&lt;p&gt;必须坦诚地说：即使走了七步，PR 矛盾也没有被消灭。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Query 理解是根本瓶颈&lt;/strong&gt;——如果你的查询本身就是模糊的，整个管道的上限就定死了&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Chunk 边界永远在丢失信息&lt;/strong&gt;——无论切多小，信息的连续性都会在切割点中断&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;递归检索没有好的停止条件&lt;/strong&gt;——搜了一次觉得不够，再搜一次，什么时候该停？&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;新鲜度检测没人做好&lt;/strong&gt;——系统无法可靠判断检索到的信息是否已经过时&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;工业界的七步流水线是一个&amp;quot;足够好&amp;quot;的方案，不是一个&amp;quot;解决了问题&amp;quot;的方案。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="结论管理矛盾而不是解决矛盾"&gt;&lt;a href="#%e7%bb%93%e8%ae%ba%e7%ae%a1%e7%90%86%e7%9f%9b%e7%9b%be%e8%80%8c%e4%b8%8d%e6%98%af%e8%a7%a3%e5%86%b3%e7%9f%9b%e7%9b%be" class="header-anchor"&gt;&lt;/a&gt;结论：管理矛盾，而不是解决矛盾
&lt;/h2&gt;&lt;p&gt;Precision-Recall 矛盾不是一个 bug，是一个 feature——它是检索式记忆系统在数学层面的固有属性。你不可能消除它，就像不可能消除重力。&lt;/p&gt;
&lt;p&gt;但你可以在重力存在的情况下建房子。七步流水线就是那个房子。&lt;/p&gt;
&lt;p&gt;每一步都在做权衡，每一步都在承认矛盾没有被消除。但这个管道叠加起来，把 PR 矛盾压到了一个工程上可接受的范围内，让生产系统能够稳定运行。&lt;/p&gt;
&lt;p&gt;如果你在做 RAG 或 Agent 记忆系统，我的建议是：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;先走完前六步&lt;/strong&gt;，看看效果。大部分人走到第三步就觉得够了。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;在每一步记录你的权衡。&lt;/strong&gt; 清楚你在哪里丢了精度、哪里丢了召回率。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;接受&amp;rsquo;足够好&amp;rsquo;。&lt;/strong&gt; 追求完美的 PR 平衡会让你走进死胡同。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;回到上一篇的核心论点：记忆系统有用，但它有天花板。七步流水线就是工业界在天花板之下能找到的最佳实践。&lt;/p&gt;
&lt;p&gt;理解了这个框架，你就理解了为什么 Harness 工程（工具设计、反馈质量、状态控制）可能是比记忆系统更大的杠杆——&lt;strong&gt;因为你在七步之内能做的最大的改变，往往不在检索这一步。&lt;/strong&gt;&lt;/p&gt;</description></item></channel></rss>