<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>日常 on 云喵盒子</title><link>https://zyfsir.github.io/tags/%E6%97%A5%E5%B8%B8/</link><description>Recent content in 日常 on 云喵盒子</description><generator>Hugo -- gohugo.io</generator><language>zh-cn</language><lastBuildDate>Thu, 23 Apr 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://zyfsir.github.io/tags/%E6%97%A5%E5%B8%B8/index.xml" rel="self" type="application/rss+xml"/><item><title>Agent必学：agent架构的演变历程</title><link>https://zyfsir.github.io/post/agent-history/</link><pubDate>Fri, 10 Apr 2026 00:00:00 +0000</pubDate><guid>https://zyfsir.github.io/post/agent-history/</guid><description>&lt;p&gt;Agent 系统架构演变完整调研&lt;/p&gt;
&lt;h2 id="一总览三代范式跃迁"&gt;&lt;a href="#%e4%b8%80%e6%80%bb%e8%a7%88%e4%b8%89%e4%bb%a3%e8%8c%83%e5%bc%8f%e8%b7%83%e8%bf%81" class="header-anchor"&gt;&lt;/a&gt;一、总览：三代范式跃迁
&lt;/h2&gt;&lt;p&gt;Agent 系统架构的演变可归纳为三条并行的技术主线，历经约 70 年的迭代。按照核心驱动力，可划分为&lt;strong&gt;符号主义时代 → 强化学习时代 → LLM 原生时代&lt;/strong&gt;三大范式。当前正处于第三次范式的高潮期，且呈现出&lt;strong&gt;多范式融合&lt;/strong&gt;的趋势。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="二第一阶段符号主义--经典-agent-架构1950s1990s"&gt;&lt;a href="#%e4%ba%8c%e7%ac%ac%e4%b8%80%e9%98%b6%e6%ae%b5%e7%ac%a6%e5%8f%b7%e4%b8%bb%e4%b9%89--%e7%bb%8f%e5%85%b8-agent-%e6%9e%b6%e6%9e%841950s1990s" class="header-anchor"&gt;&lt;/a&gt;二、第一阶段：符号主义 / 经典 Agent 架构（1950s–1990s）
&lt;/h2&gt;&lt;p&gt;Agent理论的发展比深度学习还要早。
在ChatGPT这种能够真正回答人类问题的AI出现之前，就已经开始思考“一个完全由人工定义的智能会是什么样子”这一问题。
这点来讲，哲学理论走得要远远超前。&lt;/p&gt;
&lt;h3 id="21-规则系统rule-based-systems"&gt;&lt;a href="#21-%e8%a7%84%e5%88%99%e7%b3%bb%e7%bb%9frule-based-systems" class="header-anchor"&gt;&lt;/a&gt;2.1 规则系统（Rule-Based Systems）
&lt;/h3&gt;&lt;p&gt;最早的 AI Agent 以 &lt;strong&gt;专家系统（Expert Systems）&lt;/strong&gt; 为代表。架构核心是：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;知识库（Knowledge Base） + 推理引擎（Inference Engine）
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;ul&gt;
&lt;li&gt;知识以 &lt;strong&gt;if-then 规则&lt;/strong&gt; 显式编码&lt;/li&gt;
&lt;li&gt;推理引擎执行前向/后向链式推理&lt;/li&gt;
&lt;li&gt;典型代表：MYCIN（1976，医疗诊断）、DENDRAL（1965，化学分析）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;局限&lt;/strong&gt;：规则数量爆炸、无法处理模糊/未知场景、完全不具备学习能力。&lt;/p&gt;
&lt;p&gt;我甚至不认为规则系统该作为Agent理论的一部分，它用众多规则堆砌出决策，似乎跟智能毫无关系。&lt;/p&gt;
&lt;p&gt;但是目前的智能体有个说法：与其要求ai按照严格语法编写代码，不如让它编写完后执行一遍检查。规则系统适合ai与严谨的外部环境交互时使用。&lt;/p&gt;
&lt;h3 id="22-bdi-架构belief-desire-intention"&gt;&lt;a href="#22-bdi-%e6%9e%b6%e6%9e%84belief-desire-intention" class="header-anchor"&gt;&lt;/a&gt;2.2 BDI 架构（Belief-Desire-Intention）
&lt;/h3&gt;&lt;p&gt;这个理论是来自哲学界的产物，研究的是人类的行为。&lt;/p&gt;
&lt;p&gt;早期的哲学中认为欲望驱动理性。Hume 的核心论证极其著名，就一句话：&lt;/p&gt;
&lt;p&gt;| &amp;ldquo;Reason is, and ought only to be the slave of the passions.&amp;rdquo;
|（理性是，也只应当是激情的奴隶。——《人性论》2.3.3）&lt;/p&gt;
&lt;p&gt;这一观点不依赖任何实验，仅仅通过内省和推理便收获了人们的认可。&lt;/p&gt;
&lt;p&gt;转换到Agent理论中，可以想象，如果让当时的人们设计一个智能体，他们设想的架构会是：给agent设定一个目标(Desire)，agent用它的知识(Belief，指ai相信的世界知识)完成目标。&lt;/p&gt;
&lt;p&gt;即使放到今天，这个想法也不能说是错，但它很粗糙，表达起来很主观，比如Desire跟Belief是什么，都没有明确的定义。只是一种感觉上的描述。&lt;/p&gt;
&lt;p&gt;Dennett(1971)将它更具体一些，让这个理论更像是科学里的描述了： 当我们说一个人有 belief 和 desire，不是说我们真的在他的大脑里找到了这些实体——而是说，用这组概念来预测他的行为，是最有效的策略。&lt;/p&gt;
&lt;p&gt;当理解物理系统时，我们依靠精确但复杂的物理规律去了解；当理解人造物时，我们可以从它的设计目的去了解；当想要了解人类、动物、AI时，我们用belief和desire理论去了解。&lt;/p&gt;
&lt;p&gt;当我们想要科学地研究agent(或人)时，我们&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;假设agent是理性的&lt;/li&gt;
&lt;li&gt;根据它的处境和目的，赋予它应有的belief和desire&lt;/li&gt;
&lt;li&gt;预测理性系统会作出的最符合这些belief和desire的事&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;从此时开始，Belief-Desire理论听上去很像是严谨的科学了。它像是在强调，心理学其实是一种概率学，一种工具；也可以反过来理解，借助生成最高概率的做法，就能模拟出一个理性系统。&lt;/p&gt;
&lt;p&gt;Michael Bratman（1987）的哲学理论，则认为Belief-Desire理论在解释瞬时行动的时候是合理的，但对于跨时间的计划行为，它的解释力不足。&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;想要的未必真的就去做。例如用户可能希望去巴黎旅行，但这并不意味着会立刻触发“订机票、办签证、订住宿”这一系列流程。Desire List不会立刻触发行动。&lt;/li&gt;
&lt;li&gt;想要的东西之间存在矛盾。例如用户想吃蛋糕，以及希望减肥。如果Desire List以同等的地位进入执行阶段，便发生了冲突。但它们在Desire阶段是完全能够共存的。这也说明Desire到执行这一步之间，还存在一些步骤。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;他引入了Intention(意图)，即决定要去做的事。Desire经过“作出承诺要做这件事”这一步骤后，才进入到执行阶段。&lt;/p&gt;
&lt;p&gt;这一理念将 Agent 建模为三种心理状态：&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;组件&lt;/th&gt;
 &lt;th&gt;含义&lt;/th&gt;
 &lt;th&gt;类比&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;Belief（信念）&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;对环境状态的认知&lt;/td&gt;
 &lt;td&gt;数据库/知识图谱&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;Desire（愿望）&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;目标状态/偏好&lt;/td&gt;
 &lt;td&gt;目标队列&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;Intention（意图）&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;已承诺执行的计划&lt;/td&gt;
 &lt;td&gt;执行栈&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;仅仅有Desire不代表真正去做，Intention，也就是下决心真的要去做的时候，才真正开始做。执行阶段不属于心理状态，因此不在表中。&lt;/p&gt;
&lt;p&gt;Intention这一阶段的引入提供了三种作用：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;用Intention作为推理与执行的起点，而不是以Desire作为起点。同时想要减肥与吃蛋糕，欲望是同时存在的，但下决心，到了真正要指导行动的时候，只会留下一个Intention。&lt;/li&gt;
&lt;li&gt;Intention可以实现跨时间协调，也就是对人的“惯性心理”的刻画。人并不会时时刻刻对所有Desire进行评估并重新规划。而是延续之前的“决定”，完成之前心中的承诺。例如在已经决定减肥后，默认的Intention依然是减肥，而不是再次比较一番所有Desire，完全独立的重新构建新的Intention。它不是不可改变，但它会抵抗改变，人们借此得以执行跨越时间的计划。&lt;/li&gt;
&lt;li&gt;在公共关系中同样需要“决定”这一步骤。“我想帮你”与“我会帮你”是存在不同的，在多agent系统中，就可能有必要区分清楚。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;&lt;strong&gt;代表性框架&lt;/strong&gt;：AgentSpeak(L)、Jason、PRS（Procedural Reasoning System）。BDI 至今仍在 MAS（Multi-Agent Systems）研究中有影响力——它将&amp;quot;计划选择&amp;quot;和&amp;quot;目标承诺&amp;quot;显式分离，是 Agent 架构中&amp;quot;认知层&amp;quot;概念的原型。&lt;/p&gt;
&lt;p&gt;这些理论都是基于自省、思维实验构建的。跟工科认知中的科学相差甚远。这种理论通常需要依赖反证法：当缺失这一概念时，理论会怎样的不完善。从而使新理论得到认可。&lt;/p&gt;
&lt;h3 id="23-soar-认知架构1987"&gt;&lt;a href="#23-soar-%e8%ae%a4%e7%9f%a5%e6%9e%b6%e6%9e%841987" class="header-anchor"&gt;&lt;/a&gt;2.3 SOAR 认知架构（1987）
&lt;/h3&gt;&lt;p&gt;SOAR（State, Operator And Result ）是Allen Newell、John Laird 等人提出的&lt;strong&gt;通用认知架构&lt;/strong&gt;，目标是实现通用人工智能。&lt;/p&gt;
&lt;p&gt;这是一个宏大的命题：
既然人类能在所有认知领域表现出智能，那么一定存在一套固定的、通用的底层机制——这个机制就是认知架构（cognitive architecture）。SOAR 是这一机制的一种实现。&lt;/p&gt;
&lt;p&gt;SOAR 不是&amp;quot;一个 AI 程序&amp;quot;，而是一套关于智能是什么的理论——它说：任何表现出通用智能的系统，都得有某种固定的结构，这个结构包含什么记忆系统、什么决策流程、什么学习机制。&lt;/p&gt;
&lt;p&gt;核心机制：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;短期记忆（STM） ↔ 决策周期 ↔ 长期记忆（生产规则 + 语义 + 情节）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ↕
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; 意向栈（Goal Stack）
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;决策周期（Decision Cycle）&lt;/strong&gt;：感知 → 匹配规则 → 冲突消解 → 执行 → 学习（Chunking）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;通用子目标（Universal Subgoaling）&lt;/strong&gt;：遇到困境自动创建子目标&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;学习机制 Chunking&lt;/strong&gt;：将解决方案编译为新的规则&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;SOAR 在 AI Agent 架构史上有着里程碑地位——它首次完整定义了 &lt;strong&gt;感知 - 推理 - 执行 - 学习&lt;/strong&gt;的闭环架构，影响了后续几乎所有 Agent 架构的设计。&lt;/p&gt;
&lt;p&gt;要我说，ReAct循环完全跟这个一样，所以算不上什么新东西。只不过SOAR提出的时间太久远了，人们又只关注近期的知识。这恐怕是人类在知识继承里的常态。&lt;/p&gt;
&lt;p&gt;| 任何需要“在环境中持续行动的智能系统”，都需要有类似这样的闭环，这不能说是发明，而是一种工程约束。&lt;/p&gt;
&lt;p&gt;顺便一提，SOAR可以称得上是早期的“终身学习系统”了，跟现在agent常见的宣传一样，都号称越用越聪明。&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;外部输入&lt;/li&gt;
&lt;li&gt;思考
&lt;ol&gt;
&lt;li&gt;根据外部输入匹配规则&lt;/li&gt;
&lt;li&gt;消解冲突规则，选择其中的规则&lt;/li&gt;
&lt;/ol&gt;
&lt;/li&gt;
&lt;li&gt;执行
&lt;ol&gt;
&lt;li&gt;成功则输出&lt;/li&gt;
&lt;li&gt;不成功则拆解任务为子目标
&lt;ol&gt;
&lt;li&gt;重复循环直到问题解决&lt;/li&gt;
&lt;li&gt;Chunking 将解决问题的方案编译为规则，下次遇到同样问题能够快速处理。&lt;/li&gt;
&lt;/ol&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;这其中的Chunking能力就跟Hermes Agent完成任务后编写SKILL的做法一样，并因此号称终身学习。&lt;/p&gt;
&lt;p&gt;SOAR的认知架构（对应Agent记忆系统）同样是类似如今的多层架构，一共有9个记忆系统&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;工作记忆。这是SOAR管理全局的记忆，所有输入，中间推理，决策状态都在这里，并用栈结构分层表示目标与状态，子目标与子状态。相当于主Agent。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;SOAR架构没有死，甚至还活跃着。&lt;/p&gt;
&lt;h3 id="24-act-r-架构"&gt;&lt;a href="#24-act-r-%e6%9e%b6%e6%9e%84" class="header-anchor"&gt;&lt;/a&gt;2.4 ACT-R 架构
&lt;/h3&gt;&lt;p&gt;Anderson 等人开发的认知架构，专注于模拟人类认知过程。相比 SOAR 的全符号主义，ACT-R 引入了&lt;strong&gt;亚符号层（subsymbolic）&lt;/strong&gt;，包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;扩散激活（Spreading Activation）&lt;/strong&gt;：记忆检索的基础&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;效用学习（Utility Learning）&lt;/strong&gt;：规则选择的最优化&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;ACT-R 是将&amp;quot;计算精度&amp;quot;与&amp;quot;认知真实性&amp;quot;结合的典范，后来被部分 LLM Agent 的记忆设计参考。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="三第二阶段强化学习-agent-架构1990s2010s"&gt;&lt;a href="#%e4%b8%89%e7%ac%ac%e4%ba%8c%e9%98%b6%e6%ae%b5%e5%bc%ba%e5%8c%96%e5%ad%a6%e4%b9%a0-agent-%e6%9e%b6%e6%9e%841990s2010s" class="header-anchor"&gt;&lt;/a&gt;三、第二阶段：强化学习 Agent 架构（1990s–2010s）
&lt;/h2&gt;&lt;h3 id="31-经典-rl-agentq-learning-sarsa"&gt;&lt;a href="#31-%e7%bb%8f%e5%85%b8-rl-agentq-learning-sarsa" class="header-anchor"&gt;&lt;/a&gt;3.1 经典 RL Agent（Q-Learning, SARSA）
&lt;/h3&gt;&lt;p&gt;RL 将 Agent 定义为 &lt;strong&gt;MDP（马尔可夫决策过程）&lt;/strong&gt; 中的决策者：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;状态(State) → 动作(Action) → 奖励(Reward) → 新状态(State&amp;#39;)
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;架构特征：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Value-based&lt;/strong&gt;：Q-Learning，维护 Q(s,a) 表&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Policy-based&lt;/strong&gt;：REINFORCE，直接学习策略 π(a|s)&lt;/li&gt;
&lt;li&gt;局限：状态空间受限，难以应对高维感知&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="32-深度-rl-agentdqn-2013"&gt;&lt;a href="#32-%e6%b7%b1%e5%ba%a6-rl-agentdqn-2013" class="header-anchor"&gt;&lt;/a&gt;3.2 深度 RL Agent（DQN, 2013）
&lt;/h3&gt;&lt;p&gt;DeepMind 的 &lt;strong&gt;DQN（Deep Q-Network）&lt;/strong&gt; 引发 RL 革命，关键架构创新：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;CNN（视觉编码器）→ Q(s,a) Value Network → ε-greedy 策略
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ↕
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; 经验回放缓冲区（Experience Replay）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ↕
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; Target Network（稳定目标分布）
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;经验回放（Experience Replay）&lt;/strong&gt;：打破时序相关性&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;两阶段目标网络（Double DQN）&lt;/strong&gt;：减少价值过估计&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="33-actor-critic-架构ppo-sac"&gt;&lt;a href="#33-actor-critic-%e6%9e%b6%e6%9e%84ppo-sac" class="header-anchor"&gt;&lt;/a&gt;3.3 Actor-Critic 架构（PPO, SAC）
&lt;/h3&gt;&lt;p&gt;现代 RL Agent 的主流架构。分离 &lt;strong&gt;策略网络（Actor）&lt;/strong&gt; 与 &lt;strong&gt;价值评估网络（Critic）&lt;/strong&gt;：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;┌─────────────┐ ┌──────────────┐
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ Actor │ │ Critic │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ π(a|s) │←───│ V(s) / Q(s,a)│
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ 生成动作 │ │ 评估动作质量 │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;└──────┬───────┘ └──────┬────────┘
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; │ │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; └─────────┬─────────┘
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ▼
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; 环境交互 → 奖励信号
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;&lt;strong&gt;PPO（Proximal Policy Optimization, 2017）&lt;/strong&gt; 使用 &lt;strong&gt;Clip 机制&lt;/strong&gt;限制策略更新范围，成为 RL Agent 的事实标准。&lt;strong&gt;SAC（Soft Actor-Critic）&lt;/strong&gt; 通过最大熵强化学习增强了探索能力。&lt;/p&gt;
&lt;p&gt;RL Agent 的架构范式（感知 → 决策 → 执行 → 学习循环）为后来的 LLM Agent 提供了&lt;strong&gt;循环结构&lt;/strong&gt;的设计母板。&lt;/p&gt;
&lt;h3 id="34-多智能体-rlmaddpg-2017"&gt;&lt;a href="#34-%e5%a4%9a%e6%99%ba%e8%83%bd%e4%bd%93-rlmaddpg-2017" class="header-anchor"&gt;&lt;/a&gt;3.4 多智能体 RL（MADDPG, 2017）
&lt;/h3&gt;&lt;p&gt;Lowe 等人提出 &lt;strong&gt;MADDPG（Multi-Agent DDPG）&lt;/strong&gt;，架构核心：每个 Agent 的 Critic 可以观察所有 Agent 的动作（CTDE: Centralized Training, Decentralized Execution）。&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;Agent 1: Actor(s₁) → a₁ │ Critic(s₁, s₂, a₁, a₂) → Q₁
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;Agent 2: Actor(s₂) → a₂ │ Critic(s₂, s₁, a₂, a₁) → Q₂
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;这在多 Agent 协作/竞争的架构设计上提供了基础范式，后来被 LLM Agent 框架（AutoGen、CrewAI）在概念层借鉴。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="四pre-llm-混合架构与过渡期"&gt;&lt;a href="#%e5%9b%9bpre-llm-%e6%b7%b7%e5%90%88%e6%9e%b6%e6%9e%84%e4%b8%8e%e8%bf%87%e6%b8%a1%e6%9c%9f" class="header-anchor"&gt;&lt;/a&gt;四、Pre-LLM 混合架构与过渡期
&lt;/h2&gt;&lt;h3 id="41-rllreinforcement-learning-with-language"&gt;&lt;a href="#41-rllreinforcement-learning-with-language" class="header-anchor"&gt;&lt;/a&gt;4.1 RLL（Reinforcement Learning with Language）
&lt;/h3&gt;&lt;p&gt;在 LLM 大爆发前，研究者试图将&lt;strong&gt;自然语言&lt;/strong&gt;引入 Agent 架构。典型代表：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Embodied Agents (ALFRED, 2020)&lt;/strong&gt;：通过指令-&amp;gt;子任务分解-&amp;gt;RL策略&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Interactive Fiction Agents (Jericho, 2019)&lt;/strong&gt;：自然语言文本界面 + RL&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="42-基于-lstmtransformer-的命令理解-agent"&gt;&lt;a href="#42-%e5%9f%ba%e4%ba%8e-lstmtransformer-%e7%9a%84%e5%91%bd%e4%bb%a4%e7%90%86%e8%a7%a3-agent" class="header-anchor"&gt;&lt;/a&gt;4.2 基于 LSTM/Transformer 的命令理解 Agent
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;WebGPT（OpenAI, 2021）&lt;/strong&gt;：用 GPT-3 + 模仿学习操作浏览器，首次展示了&amp;quot;语言模型 + 工具 + 搜索&amp;quot;的 Agent 雏形&lt;/li&gt;
&lt;li&gt;架构：Behavior Cloning on human demonstrations + RL fine-tuning&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这些系统虽然性能有限，但建立了&lt;strong&gt;语言模型作为 Agent 控制器&lt;/strong&gt;的架构原型，是通往 LLM Agent 的关键桥梁。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="五第三阶段llm-agent-革命2023至今"&gt;&lt;a href="#%e4%ba%94%e7%ac%ac%e4%b8%89%e9%98%b6%e6%ae%b5llm-agent-%e9%9d%a9%e5%91%bd2023%e8%87%b3%e4%bb%8a" class="header-anchor"&gt;&lt;/a&gt;五、第三阶段：LLM Agent 革命（2023–至今）
&lt;/h2&gt;&lt;h3 id="51-分水岭事件gpt-4-function-calling2023-06"&gt;&lt;a href="#51-%e5%88%86%e6%b0%b4%e5%b2%ad%e4%ba%8b%e4%bb%b6gpt-4-function-calling2023-06" class="header-anchor"&gt;&lt;/a&gt;5.1 分水岭事件：GPT-4 Function Calling（2023-06）
&lt;/h3&gt;&lt;p&gt;2023年6月，OpenAI 发布 GPT-4 的 function calling 能力。这是 Agent 架构史上的&lt;strong&gt;分水岭&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;架构变革&lt;/strong&gt;：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-gdscript3" data-lang="gdscript3"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="err"&gt;之前&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="n"&gt;User&lt;/span&gt; &lt;span class="err"&gt;→&lt;/span&gt; &lt;span class="n"&gt;LLM&lt;/span&gt; &lt;span class="err"&gt;→&lt;/span&gt; &lt;span class="n"&gt;Text&lt;/span&gt; &lt;span class="n"&gt;Output&lt;/span&gt; &lt;span class="err"&gt;→&lt;/span&gt; &lt;span class="err"&gt;手动解析&lt;/span&gt; &lt;span class="err"&gt;→&lt;/span&gt; &lt;span class="err"&gt;调用&lt;/span&gt;&lt;span class="n"&gt;API&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="err"&gt;之后&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="n"&gt;User&lt;/span&gt; &lt;span class="err"&gt;→&lt;/span&gt; &lt;span class="n"&gt;LLM&lt;/span&gt; &lt;span class="err"&gt;→&lt;/span&gt; &lt;span class="n"&gt;JSON&lt;/span&gt; &lt;span class="n"&gt;tool_call&lt;/span&gt; &lt;span class="err"&gt;→&lt;/span&gt; &lt;span class="err"&gt;自动执行&lt;/span&gt; &lt;span class="err"&gt;→&lt;/span&gt; &lt;span class="err"&gt;结果反馈&lt;/span&gt; &lt;span class="err"&gt;→&lt;/span&gt; &lt;span class="n"&gt;LLM&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;Function Calling 使得 LLM 可以：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;结构化输出函数参数&lt;/strong&gt;（不再是自由文本）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;多轮工具调用&lt;/strong&gt;（chain of tool calls）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;自动反馈循环&lt;/strong&gt;（工具结果作为上下文回注）&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;这标志着 &lt;strong&gt;LLM-based Agent&lt;/strong&gt; 时代正式开启。&lt;/p&gt;
&lt;h3 id="52-react-范式的崛起yao-et-al-2023"&gt;&lt;a href="#52-react-%e8%8c%83%e5%bc%8f%e7%9a%84%e5%b4%9b%e8%b5%b7yao-et-al-2023" class="header-anchor"&gt;&lt;/a&gt;5.2 ReAct 范式的崛起（Yao et al., 2023）
&lt;/h3&gt;&lt;p&gt;ReAct（Reasoning + Acting）是 LLM Agent &lt;strong&gt;最核心的架构范式&lt;/strong&gt;，由 Yao 等人在 2023 年提出。&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;Thought: 我需要查找当前的天气数据
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;Action: search_weather(location=&amp;#34;Beijing&amp;#34;)
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;Observation: {&amp;#34;temp&amp;#34;: 28, &amp;#34;humidity&amp;#34;: 65%}
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;Thought: 气温 28°C，湿度 65%，建议穿短袖
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;Action: complete
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;&lt;strong&gt;架构循环&lt;/strong&gt;：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;┌─────────────────────────────────────┐
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ LLM (核心推理引擎) │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ 思考(Thought) → 动作(Action) │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ ↑ ↓ │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ 观察(Observation) ← 工具执行结果 │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ ↑ │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ Scratchpad (上下文缓冲区) │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;└─────────────────────────────────────┘
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;ReAct 的关键设计要素：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Scratchpad&lt;/strong&gt;：作为 Agent 的&amp;quot;工作记忆&amp;quot;，存储推理链&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Thought-Action-Observation 三元组&lt;/strong&gt;：可解释的决策轨迹&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;动态停止条件&lt;/strong&gt;：Agent 自行判断任务是否完成&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="53-第一代自主-agent-框架2023-年中"&gt;&lt;a href="#53-%e7%ac%ac%e4%b8%80%e4%bb%a3%e8%87%aa%e4%b8%bb-agent-%e6%a1%86%e6%9e%b62023-%e5%b9%b4%e4%b8%ad" class="header-anchor"&gt;&lt;/a&gt;5.3 第一代自主 Agent 框架（2023 年中）
&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;AutoGPT（2023-03）&lt;/strong&gt; 和 &lt;strong&gt;BabyAGI（2023-04）&lt;/strong&gt; 引爆了 Agent 概念。&lt;/p&gt;
&lt;p&gt;AutoGPT 架构：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;┌─────────────────────────────────────────┐
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ Goal → 任务队列(Task Queue) │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ ↓ │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ LLM 推理 → 执行动作 → 存储结果 │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ ↓ │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ 优先队列(优先级排序 → 再次执行) │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ ↓ │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ 向量数据库(长期记忆检索) │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;└─────────────────────────────────────────┘
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;BabyAGI 架构创新：引入了&lt;strong&gt;任务分解（task decomposition）&lt;/strong&gt; 与&lt;strong&gt;记忆优先级（memory prioritization）&lt;/strong&gt;，但其无限制的自我循环也引发了&amp;quot;Agent 失控&amp;quot;的讨论。&lt;/p&gt;
&lt;h3 id="54-主流框架生态成型2023-年底2024-年"&gt;&lt;a href="#54-%e4%b8%bb%e6%b5%81%e6%a1%86%e6%9e%b6%e7%94%9f%e6%80%81%e6%88%90%e5%9e%8b2023-%e5%b9%b4%e5%ba%952024-%e5%b9%b4" class="header-anchor"&gt;&lt;/a&gt;5.4 主流框架生态成型（2023 年底–2024 年）
&lt;/h3&gt;&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;框架&lt;/th&gt;
 &lt;th&gt;发布时间&lt;/th&gt;
 &lt;th&gt;架构特色&lt;/th&gt;
 &lt;th&gt;核心理念&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;LangChain&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;2023-01&lt;/td&gt;
 &lt;td&gt;链式组合（Chain）+ 工具抽象&lt;/td&gt;
 &lt;td&gt;可组合的 LLM 应用框架&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;LangGraph&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;2023-中&lt;/td&gt;
 &lt;td&gt;有向图状态机 + 循环节点&lt;/td&gt;
 &lt;td&gt;细粒度控制 Agent 流程&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;AutoGen&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;2023-10&lt;/td&gt;
 &lt;td&gt;多 Agent 对话 + 角色分离&lt;/td&gt;
 &lt;td&gt;Agent 即消息参与者&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;CrewAI&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;2023-12&lt;/td&gt;
 &lt;td&gt;角色 + 任务 + 团队（Crew）&lt;/td&gt;
 &lt;td&gt;模拟人类团队协作&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;Semantic Kernel&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;2023-05&lt;/td&gt;
 &lt;td&gt;编排层 + 插件 + 记忆&lt;/td&gt;
 &lt;td&gt;企业级 Agent 架构&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;LlamaIndex&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;2023-01&lt;/td&gt;
 &lt;td&gt;数据索引（Index）+ RAG&lt;/td&gt;
 &lt;td&gt;Agent 检索增强架构&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h4 id="langchain--langgraph-的架构进化"&gt;&lt;a href="#langchain--langgraph-%e7%9a%84%e6%9e%b6%e6%9e%84%e8%bf%9b%e5%8c%96" class="header-anchor"&gt;&lt;/a&gt;LangChain → LangGraph 的架构进化
&lt;/h4&gt;&lt;p&gt;LangChain 最初使用 &lt;strong&gt;Sequential Chain&lt;/strong&gt;（线性管道），架构为：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;Input → PromptTemplate → LLM → OutputParser → NextChain → ...
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;问题：线性链条无法处理&lt;strong&gt;条件分支、循环、多工具调用&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;LangGraph&lt;/strong&gt; 的革命性升级：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-gdscript3" data-lang="gdscript3"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="n"&gt;StateGraph&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="ne"&gt;Node&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;agent&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt; &lt;span class="err"&gt;→&lt;/span&gt; &lt;span class="n"&gt;Edge&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;router&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt; &lt;span class="err"&gt;→&lt;/span&gt; &lt;span class="ne"&gt;Node&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;tools&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="err"&gt;↑&lt;/span&gt; &lt;span class="err"&gt;│&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="err"&gt;└─────────────────────────────┘&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="err"&gt;循环，直到&lt;/span&gt; &lt;span class="n"&gt;agent&lt;/span&gt; &lt;span class="err"&gt;决定停止&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;LangGraph 引入了：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Stateful Graph&lt;/strong&gt;：节点间通过共享状态通信&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Conditional Edges&lt;/strong&gt;：根据条件动态路由&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Persistence&lt;/strong&gt;：内置的持久化/中断/恢复机制&lt;/li&gt;
&lt;/ul&gt;
&lt;h4 id="autogen-的对话式架构"&gt;&lt;a href="#autogen-%e7%9a%84%e5%af%b9%e8%af%9d%e5%bc%8f%e6%9e%b6%e6%9e%84" class="header-anchor"&gt;&lt;/a&gt;AutoGen 的对话式架构
&lt;/h4&gt;&lt;p&gt;Microsoft AutoGen 的架构核心是 &lt;strong&gt;Agent-Centric&lt;/strong&gt; 的消息驱动模型：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;┌─────────────────────────────────────────────┐
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ UserProxyAgent AssistantAgent │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ (人类代理) (LLM代理) │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ │ │ │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ └─────── 对话循环 ──────┘ │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ │ │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ Tool/Function │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ (代码/API执行) │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;└─────────────────────────────────────────────┘
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;关键创新：&lt;strong&gt;多 Agent 通过自然语言对话完成协作&lt;/strong&gt;，而非硬编码的流程控制。&lt;/p&gt;
&lt;h4 id="crewai-的角色化架构"&gt;&lt;a href="#crewai-%e7%9a%84%e8%a7%92%e8%89%b2%e5%8c%96%e6%9e%b6%e6%9e%84" class="header-anchor"&gt;&lt;/a&gt;CrewAI 的角色化架构
&lt;/h4&gt;&lt;p&gt;CrewAI 引入了&lt;strong&gt;组织隐喻（Organizational Metaphor）&lt;/strong&gt;：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;Crew (团队)
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;├── Agent: 研究员（角色: 研究者, 目标: 收集信息, 工具: web_search）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;├── Agent: 分析师（角色: 分析师, 目标: 分析数据, 工具: code_exec)
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;├── Task: 收集数据（分配给 研究员 Agent）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;└── Task: 生成报告（分配给 分析师 Agent, 依赖 Task1）
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;设计理念：将 Agent 组织视为&lt;strong&gt;虚拟公司&lt;/strong&gt;，通过角色、职责、任务的显式分配来解耦复杂系统。&lt;/p&gt;
&lt;h3 id="55-prompt-agent--工具-agent-的架构转变"&gt;&lt;a href="#55-prompt-agent--%e5%b7%a5%e5%85%b7-agent-%e7%9a%84%e6%9e%b6%e6%9e%84%e8%bd%ac%e5%8f%98" class="header-anchor"&gt;&lt;/a&gt;5.5 Prompt Agent → 工具 Agent 的架构转变
&lt;/h3&gt;&lt;p&gt;2024 年的关键趋势是从&lt;strong&gt;提示代理（Prompt Agent）&lt;/strong&gt; 向&lt;strong&gt;工具代理（Tool Agent）&lt;/strong&gt; 的演变：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-gdscript3" data-lang="gdscript3"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="n"&gt;Prompt&lt;/span&gt; &lt;span class="n"&gt;Agent&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="err"&gt;单一&lt;/span&gt; &lt;span class="n"&gt;LLM&lt;/span&gt; &lt;span class="err"&gt;调用&lt;/span&gt; &lt;span class="err"&gt;→&lt;/span&gt; &lt;span class="err"&gt;文本输出&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="err"&gt;无外部反馈循环&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="err"&gt;依赖模型能力&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="n"&gt;Tool&lt;/span&gt; &lt;span class="n"&gt;Agent&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="n"&gt;LLM&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="err"&gt;工具描述&lt;/span&gt; &lt;span class="o"&gt;+&lt;/span&gt; &lt;span class="err"&gt;上下文&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt; &lt;span class="err"&gt;→&lt;/span&gt; &lt;span class="n"&gt;tool_call&lt;/span&gt; &lt;span class="err"&gt;→&lt;/span&gt; &lt;span class="err"&gt;执行结果&lt;/span&gt; &lt;span class="err"&gt;→&lt;/span&gt; &lt;span class="n"&gt;LLM&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="err"&gt;结果&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="err"&gt;结构化工具接口&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="err"&gt;持续交互闭环&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;&lt;strong&gt;Function Calling / Tool Use&lt;/strong&gt; 成为 Agent 架构的标准层：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;Agent
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;├── Orchestrator（编排器：决定调用哪个工具、何时停止）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;├── Tool Registry（工具注册表：名称+描述+参数Schema）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ ├── search | code | calculator | file_ops | ...
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ └── MCP Tool（通过 Model Context Protocol 发现）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;├── Memory（记忆系统）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ ├── Working Memory（Scratchpad）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ ├── Short-term（对话历史）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ └── Long-term（向量检索 + 持久化）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;└── Safety Layer（安全层：输入过滤 + 输出审核）
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;hr&gt;
&lt;h2 id="六多-agent-系统架构成熟期20242025"&gt;&lt;a href="#%e5%85%ad%e5%a4%9a-agent-%e7%b3%bb%e7%bb%9f%e6%9e%b6%e6%9e%84%e6%88%90%e7%86%9f%e6%9c%9f20242025" class="header-anchor"&gt;&lt;/a&gt;六、多 Agent 系统架构成熟期（2024–2025）
&lt;/h2&gt;&lt;h3 id="61-主流多-agent-架构模式"&gt;&lt;a href="#61-%e4%b8%bb%e6%b5%81%e5%a4%9a-agent-%e6%9e%b6%e6%9e%84%e6%a8%a1%e5%bc%8f" class="header-anchor"&gt;&lt;/a&gt;6.1 主流多 Agent 架构模式
&lt;/h3&gt;&lt;h4 id="模式-1中心化编排器orchestrator"&gt;&lt;a href="#%e6%a8%a1%e5%bc%8f-1%e4%b8%ad%e5%bf%83%e5%8c%96%e7%bc%96%e6%8e%92%e5%99%a8orchestrator" class="header-anchor"&gt;&lt;/a&gt;模式 1：中心化编排器（Orchestrator）
&lt;/h4&gt;&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;┌──────────────┐
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ Orchestrator │ ← 单一决策点
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;├──────┬───────┤
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ │ │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ↓ ↓ ↓
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;Agent1 Agent2 Agent3
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;ul&gt;
&lt;li&gt;代表：LangGraph（Supervisor Pattern）&lt;/li&gt;
&lt;li&gt;优点：全局可控、确定性高&lt;/li&gt;
&lt;li&gt;局限：单点瓶颈、编排器可能成为性能瓶颈&lt;/li&gt;
&lt;/ul&gt;
&lt;h4 id="模式-2对话式协作conversational"&gt;&lt;a href="#%e6%a8%a1%e5%bc%8f-2%e5%af%b9%e8%af%9d%e5%bc%8f%e5%8d%8f%e4%bd%9cconversational" class="header-anchor"&gt;&lt;/a&gt;模式 2：对话式协作（Conversational）
&lt;/h4&gt;&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;Agent1 ←→ Agent2 ←→ Agent3
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ↕ ↕ ↕
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; Tool Tool Tool
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;ul&gt;
&lt;li&gt;代表：AutoGen&lt;/li&gt;
&lt;li&gt;优点：自然协作、灵活性高&lt;/li&gt;
&lt;li&gt;局限：对话开销、可能陷入循环&lt;/li&gt;
&lt;/ul&gt;
&lt;h4 id="模式-3分层管理hierarchical"&gt;&lt;a href="#%e6%a8%a1%e5%bc%8f-3%e5%88%86%e5%b1%82%e7%ae%a1%e7%90%86hierarchical" class="header-anchor"&gt;&lt;/a&gt;模式 3：分层管理（Hierarchical）
&lt;/h4&gt;&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;Manager Agent
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;├── Researcher Agent
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ ├── Web Searcher
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ └── Paper Analyzer
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;├── Writer Agent
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;└── Reviewer Agent
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;ul&gt;
&lt;li&gt;代表：Anthropic Multi-Agent Research System&lt;/li&gt;
&lt;li&gt;优点：任务分解自然、各层职责清晰&lt;/li&gt;
&lt;li&gt;局限：层级间通信延迟&lt;/li&gt;
&lt;/ul&gt;
&lt;h4 id="模式-4群体智能swarm"&gt;&lt;a href="#%e6%a8%a1%e5%bc%8f-4%e7%be%a4%e4%bd%93%e6%99%ba%e8%83%bdswarm" class="header-anchor"&gt;&lt;/a&gt;模式 4：群体智能（Swarm）
&lt;/h4&gt;&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; Agent1 → Agent2 → Agent3
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ↑ Agent4 → Agent5 ↕
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; Agent6 ← Agent7 ← Agent8
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;ul&gt;
&lt;li&gt;代表：OpenAI Swarm、MADDPG 精神延续&lt;/li&gt;
&lt;li&gt;优点：容错、可扩展&lt;/li&gt;
&lt;li&gt;局限：协调复杂、调试困难&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="62-关键研究成果"&gt;&lt;a href="#62-%e5%85%b3%e9%94%ae%e7%a0%94%e7%a9%b6%e6%88%90%e6%9e%9c" class="header-anchor"&gt;&lt;/a&gt;6.2 关键研究成果
&lt;/h3&gt;&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;研究&lt;/th&gt;
 &lt;th&gt;年份&lt;/th&gt;
 &lt;th&gt;架构贡献&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;ReAct&lt;/strong&gt; (Yao et al.)&lt;/td&gt;
 &lt;td&gt;2023&lt;/td&gt;
 &lt;td&gt;Thought-Action-Observation 循环&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;Reflexion&lt;/strong&gt; (Shinn et al.)&lt;/td&gt;
 &lt;td&gt;2023&lt;/td&gt;
 &lt;td&gt;语言反馈 + 自我反思 + 经验回放&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;Tree-of-Thoughts&lt;/strong&gt; (Yao et al.)&lt;/td&gt;
 &lt;td&gt;2023&lt;/td&gt;
 &lt;td&gt;多路径探索 + BFS/DFS&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;Self-Refine&lt;/strong&gt; (Madaan et al.)&lt;/td&gt;
 &lt;td&gt;2023&lt;/td&gt;
 &lt;td&gt;Agent 自我生成 → 自我反馈 → 自我改进&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;ReWOO&lt;/strong&gt; (Xu et al.)&lt;/td&gt;
 &lt;td&gt;2023&lt;/td&gt;
 &lt;td&gt;规划与执行分离（Plan-then-Execute）&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;AgentTuning&lt;/strong&gt; (Zeng et al.)&lt;/td&gt;
 &lt;td&gt;2023&lt;/td&gt;
 &lt;td&gt;从 Agent 轨迹中微调 LLM&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;GPT-4 Function Calling&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;2023-06&lt;/td&gt;
 &lt;td&gt;原生工具调用接口&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;MCP (Model Context Protocol)&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;2024-11&lt;/td&gt;
 &lt;td&gt;标准化工具/数据协议&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;A2A (Agent-to-Agent)&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;2025-04&lt;/td&gt;
 &lt;td&gt;Agent 间通信协议&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;Deep Research (OpenAI)&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;2025-02&lt;/td&gt;
 &lt;td&gt;多层搜索 + 规划 + 报告合成&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;Anthropic MCP&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;2024-11&lt;/td&gt;
 &lt;td&gt;Function Calling 的协议级标准化&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="63-reflexion-架构agent-的自我改进"&gt;&lt;a href="#63-reflexion-%e6%9e%b6%e6%9e%84agent-%e7%9a%84%e8%87%aa%e6%88%91%e6%94%b9%e8%bf%9b" class="header-anchor"&gt;&lt;/a&gt;6.3 Reflexion 架构：Agent 的自我改进
&lt;/h3&gt;&lt;p&gt;Reflexion（Shinn et al., 2023）在 ReAct 基础上引入&lt;strong&gt;评估-反思闭环&lt;/strong&gt;：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;┌─────────────────────────────────────┐
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ Actor (ReAct Loop) │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ Thought → Action → Observation │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;└─────────────┬───────────────────────┘
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; │ 完成/失败
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ▼
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;┌─────────────────────────────────────┐
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ Evaluator │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ 评估任务完成质量 → 生成反馈 │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;└─────────────┬───────────────────────┘
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; │ 结构化反馈
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ▼
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;┌─────────────────────────────────────┐
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ Memory │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ 经验回放缓冲区（失败的决策 + 原因） │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;└─────────────┬───────────────────────┘
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; │ 提取经验
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ▼
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; 回到 Actor 重新执行
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;核心创新：Agent 通过&lt;strong&gt;自然语言反思自己的失败&lt;/strong&gt;并将经验存入记忆，而非通过权重更新。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="七协议标准化时代2024-年底2026"&gt;&lt;a href="#%e4%b8%83%e5%8d%8f%e8%ae%ae%e6%a0%87%e5%87%86%e5%8c%96%e6%97%b6%e4%bb%a32024-%e5%b9%b4%e5%ba%952026" class="header-anchor"&gt;&lt;/a&gt;七、协议标准化时代（2024 年底–2026）
&lt;/h2&gt;&lt;h3 id="71-mcpmodel-context-protocol"&gt;&lt;a href="#71-mcpmodel-context-protocol" class="header-anchor"&gt;&lt;/a&gt;7.1 MCP（Model Context Protocol）
&lt;/h3&gt;&lt;p&gt;Anthropic 于 2024 年 11 月推出的开放协议，定位在 &lt;strong&gt;Agent 与工具/数据源之间&lt;/strong&gt;的标准化接口。2025 年 12 月，Anthropic 将其捐赠给 Linux 基金会下的 &lt;strong&gt;Agentic AI Foundation&lt;/strong&gt;。&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;┌─────────┐ MCP 协议 ┌──────────┐
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ Agent │ ◄──────────► │ MCP Server │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ (Host) │ │ │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ │ │ ├── Database│
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ │ │ ├── Files │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ │ │ ├── API │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;│ │ │ └── Search │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;└─────────┘ └──────────┘
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;&lt;strong&gt;架构意义&lt;/strong&gt;：MCP 将工具接口从&amp;quot;厂商锁定&amp;quot;推向&lt;strong&gt;标准化&lt;/strong&gt;，使任何 MCP-compatible 的 Agent 都能自动发现和调用工具。&lt;/p&gt;
&lt;h3 id="72-a2aagent-to-agent-protocol"&gt;&lt;a href="#72-a2aagent-to-agent-protocol" class="header-anchor"&gt;&lt;/a&gt;7.2 A2A（Agent-to-Agent Protocol）
&lt;/h3&gt;&lt;p&gt;Google 于 2025 年 4 月发布，定位在 &lt;strong&gt;Agent 与 Agent 之间&lt;/strong&gt;的通信协议。2025 年 6 月贡献给 Linux 基金会。&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ┌──────────────┐
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; │ Orchestrator │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; │ Agent │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; └──────┬───────┘
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; A2A ┌───────┴────────┐
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ┌──────▼────┐ ┌──────▼────┐
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; │ Agent A │ │ Agent B │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; │ (MCP工具) │ │ (MCP工具) │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; └───────────┘ └───────────┘
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;&lt;strong&gt;MCP vs A2A 的关系&lt;/strong&gt;：&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;协议&lt;/th&gt;
 &lt;th&gt;解决的问题&lt;/th&gt;
 &lt;th&gt;方向&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;MCP&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;Agent 如何访问工具和数据&lt;/td&gt;
 &lt;td&gt;上下层连接&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;A2A&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;Agent 之间如何协作通信&lt;/td&gt;
 &lt;td&gt;平行连接&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="73-协议栈全景20252026"&gt;&lt;a href="#73-%e5%8d%8f%e8%ae%ae%e6%a0%88%e5%85%a8%e6%99%af20252026" class="header-anchor"&gt;&lt;/a&gt;7.3 协议栈全景（2025–2026）
&lt;/h3&gt;&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;Agent-to-Agent (A2A) ← Agent 间协作层
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ↕
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; Agent 核心（推理+规划+执行）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ↕
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;Model Context Protocol (MCP) ← 工具/数据接入层
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ↕
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; 数据库 | 文件 | API | 搜索 | 代码
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;hr&gt;
&lt;h2 id="八20252026-架构前沿"&gt;&lt;a href="#%e5%85%ab20252026-%e6%9e%b6%e6%9e%84%e5%89%8d%e6%b2%bf" class="header-anchor"&gt;&lt;/a&gt;八、2025–2026 架构前沿
&lt;/h2&gt;&lt;h3 id="81-深度推理-agentdeep-research"&gt;&lt;a href="#81-%e6%b7%b1%e5%ba%a6%e6%8e%a8%e7%90%86-agentdeep-research" class="header-anchor"&gt;&lt;/a&gt;8.1 深度推理 Agent（Deep Research）
&lt;/h3&gt;&lt;p&gt;OpenAI 的 &lt;strong&gt;Deep Research&lt;/strong&gt; 和类似的深度研究 Agent 架构：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;User Query → [Search Loop]
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ├── 规划搜索策略
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ├── 并行多源搜索（Web + Academic + Code）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ├── 阅读 + 提取关键信息
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ├── 交叉验证冲突信息
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; └── 是否足够？→ 是 → 合成报告
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ↓
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; 报告生成（带引用）
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;核心架构特征：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;多层搜索规划&lt;/strong&gt;：BFS 式探索&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;信息到报告的直接转换&lt;/strong&gt;：减少中间损耗&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;引用锚定（Citation Anchoring）&lt;/strong&gt;：免幻觉的可溯源设计&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="82-agentic-rag检索增强生成--agent-决策"&gt;&lt;a href="#82-agentic-rag%e6%a3%80%e7%b4%a2%e5%a2%9e%e5%bc%ba%e7%94%9f%e6%88%90--agent-%e5%86%b3%e7%ad%96" class="header-anchor"&gt;&lt;/a&gt;8.2 Agentic RAG（检索增强生成 + Agent 决策）
&lt;/h3&gt;&lt;p&gt;Agentic RAG 将传统 RAG 的&amp;quot;一阶段检索+生成&amp;quot;升级为&lt;strong&gt;多策略决策&lt;/strong&gt;：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;Query
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ↓
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;Router（路由决策）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;├──→ Vector Search（语义检索）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;├──→ Web Search（实时网络搜索）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;├──→ SQL Query（结构化数据）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;└──→ Agent Loop（复杂查询：分解→检索→合成）
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h3 id="83-hermes-agent-自身的架构mirror-of-the-trend"&gt;&lt;a href="#83-hermes-agent-%e8%87%aa%e8%ba%ab%e7%9a%84%e6%9e%b6%e6%9e%84mirror-of-the-trend" class="header-anchor"&gt;&lt;/a&gt;8.3 Hermes Agent 自身的架构（Mirror of the Trend）
&lt;/h3&gt;&lt;p&gt;你正在对话的 Hermes Agent 本身也体现了当前架构设计的最新趋势：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;工具中心&lt;/strong&gt;：所有工具（web_search, browser, terminal, execute_code 等）通过工具注册表暴露&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;ReAct Loop&lt;/strong&gt;：Thought（推理）→ Action（工具调用）→ Observation（结果回注）的自然循环&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Skills = 过程记忆&lt;/strong&gt;：将可复用的工作流编码为 skill（类似 SOAR 的 Chunking）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Memory 系统&lt;/strong&gt;：持久记忆（跨 session）+ 会话搜索（短时上下文检索）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;MCP 原生支持&lt;/strong&gt;：通过 Native MCP 技能连接标准协议工具&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Subagent 架构&lt;/strong&gt;：delegate_task 实现多 Agent 并行协作（类似 AutoGen 模式）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Cron Job&lt;/strong&gt;：事件驱动的自主执行&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h2 id="九架构演变总览图"&gt;&lt;a href="#%e4%b9%9d%e6%9e%b6%e6%9e%84%e6%bc%94%e5%8f%98%e6%80%bb%e8%a7%88%e5%9b%be" class="header-anchor"&gt;&lt;/a&gt;九、架构演变总览图
&lt;/h2&gt;&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;1950s──┐
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ├── 专家系统（规则引擎）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;1960s──┘
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;1980s ├── BDI（信念-愿望-意图）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ├── SOAR（通用认知架构 / 决策周期 + Chunking）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; └── ACT-R（认知建模 + 亚符号层）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;1990s ├── MDP + Q-Learning（经典RL）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ├── 多Agent系统理论
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;2000s──┘
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;2013 ├── DQN（深度RL / 经验回放）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;2016 ├── PPO（Actor-Critic / 策略优化）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;2017───┴── MADDPG（CTDE / 多Agent协作）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;2021 ├── WebGPT（语言模型 + 浏览器）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;2022───┴── ChatGPT + 第三方插件
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; │
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;2023-03├── AutoGPT / BabyAGI（任务分解 + 循环）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;2023-06├── GPT-4 Function Calling（工具调用原生化）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;2023-10├── ReAct（推理-行动闭环）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;2023-12├── LangChain / LangGraph（链→图 / 状态机）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;2024 ├── AutoGen / CrewAI（多Agent编排）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ├── Reflexion（自我反思 + 经验回放）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;2024-11 ├── MCP（工具/数据协议标准化）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;2025-04 ├── A2A（Agent间通信协议）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;2025-06 ├── Deep Research（深度推理检索）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;2025-12 ├── MCP捐赠至Agentic AI Foundation
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;2026 └── 多范式融合：符号规则 + LLM 推理 + RL 反馈
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;hr&gt;
&lt;h2 id="十核心洞察与结论"&gt;&lt;a href="#%e5%8d%81%e6%a0%b8%e5%bf%83%e6%b4%9e%e5%af%9f%e4%b8%8e%e7%bb%93%e8%ae%ba" class="header-anchor"&gt;&lt;/a&gt;十、核心洞察与结论
&lt;/h2&gt;&lt;ol&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;从封闭到开放&lt;/strong&gt;：Agent 架构从封闭的符号规则系统，演化为通过协议（MCP/A2A）开放互联的生态系统。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;从单一体到协作体&lt;/strong&gt;：单一 LLM Agent → 多 Agent 编排（Orchestration）→ Agent 联邦（Federation）。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;循环结构是永恒模式&lt;/strong&gt;：从 SOAR 的决策周期到 ReAct 的 Thought-Action-Observation，循环感知-推理-执行架构是所有 Agent 系统的基础。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;记忆系统分层化&lt;/strong&gt;：Working Memory（Scratchpad）→ Short-term（对话历史）→ Long-term（向量数据库）的三层架构成为事实标准。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;编排粒度的细化&lt;/strong&gt;：从 Sequential Chain → State Graph → Multi-Agent Conversation → Role-based Team，编排抽象层次不断上升。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;&amp;ldquo;大脑&amp;quot;与&amp;quot;四肢&amp;quot;分离&lt;/strong&gt;：LLM 作为推理核心 → 工具作为执行层 → 协议作为连接层，三者走向解耦与标准化。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;评估-反馈-学习闭环&lt;/strong&gt;：Reflexion、RLHF、SFT from Agent Trajectory… Agent 正在从&amp;quot;一次执行&amp;quot;走向&amp;quot;自我进化&amp;rdquo;。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;当前的瓶颈&lt;/strong&gt;：Agent 可靠性（一致性幻觉）、成本控制（token 堆积）、安全边界（工具调用权限）、调试/可观测性——这些是 2025–2026 年的核心工程挑战。&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;</description></item><item><title>写作方案规划：围绕Agent技术的梳理文章</title><link>https://zyfsir.github.io/post/write-plan/</link><pubDate>Fri, 10 Apr 2026 00:00:00 +0000</pubDate><guid>https://zyfsir.github.io/post/write-plan/</guid><description>&lt;p&gt;以Agent开发岗位所需的知识为参考，编写博客&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;input disabled="" type="checkbox"&gt; Agent系统架构的演进历程&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;多智能体协作&lt;/p&gt;
&lt;p&gt;记忆与上下文管理&lt;/p&gt;
&lt;p&gt;知识库/工具集/MCP/Skill&lt;/p&gt;
&lt;p&gt;Agent框架：OpenCode, ClaudeCode, LangGraph&lt;/p&gt;
&lt;p&gt;研发效能 / DevOps 平台经验优先（CICD / WebIDE / 工程效能度量）&lt;/p&gt;
&lt;p&gt;意图识别&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;Go / Python + LangChain / LangGraph&lt;/li&gt;
&lt;li&gt;Coze / Dify 等低代码平台经验&lt;/li&gt;
&lt;li&gt;RAG 深入理解 + 向量数据库实践经验&lt;/li&gt;
&lt;li&gt;Prompt Engineering（问题拆解 / 规划 / 执行）&lt;/li&gt;
&lt;li&gt;多 Agent 协作架构 + 任务调度逻辑&lt;/li&gt;
&lt;/ol&gt;</description></item></channel></rss>