Agent 系统架构演变完整调研
一、总览:三代范式跃迁
Agent 系统架构的演变可归纳为三条并行的技术主线,历经约 70 年的迭代。按照核心驱动力,可划分为符号主义时代 → 强化学习时代 → LLM 原生时代三大范式。当前正处于第三次范式的高潮期,且呈现出多范式融合的趋势。
二、第一阶段:符号主义 / 经典 Agent 架构(1950s–1990s)
Agent理论的发展比深度学习还要早。 在ChatGPT这种能够真正回答人类问题的AI出现之前,就已经开始思考“一个完全由人工定义的智能会是什么样子”这一问题。 这点来讲,哲学理论走得要远远超前。
2.1 规则系统(Rule-Based Systems)
最早的 AI Agent 以 专家系统(Expert Systems) 为代表。架构核心是:
知识库(Knowledge Base) + 推理引擎(Inference Engine)
- 知识以 if-then 规则 显式编码
- 推理引擎执行前向/后向链式推理
- 典型代表:MYCIN(1976,医疗诊断)、DENDRAL(1965,化学分析)
局限:规则数量爆炸、无法处理模糊/未知场景、完全不具备学习能力。
我甚至不认为规则系统该作为Agent理论的一部分,它用众多规则堆砌出决策,似乎跟智能毫无关系。
但是目前的智能体有个说法:与其要求ai按照严格语法编写代码,不如让它编写完后执行一遍检查。规则系统适合ai与严谨的外部环境交互时使用。
2.2 BDI 架构(Belief-Desire-Intention)
这个理论是来自哲学界的产物,研究的是人类的行为。
早期的哲学中认为欲望驱动理性。Hume 的核心论证极其著名,就一句话:
| “Reason is, and ought only to be the slave of the passions.” |(理性是,也只应当是激情的奴隶。——《人性论》2.3.3)
这一观点不依赖任何实验,仅仅通过内省和推理便收获了人们的认可。
转换到Agent理论中,可以想象,如果让当时的人们设计一个智能体,他们设想的架构会是:给agent设定一个目标(Desire),agent用它的知识(Belief,指ai相信的世界知识)完成目标。
即使放到今天,这个想法也不能说是错,但它很粗糙,表达起来很主观,比如Desire跟Belief是什么,都没有明确的定义。只是一种感觉上的描述。
Dennett(1971)将它更具体一些,让这个理论更像是科学里的描述了: 当我们说一个人有 belief 和 desire,不是说我们真的在他的大脑里找到了这些实体——而是说,用这组概念来预测他的行为,是最有效的策略。
当理解物理系统时,我们依靠精确但复杂的物理规律去了解;当理解人造物时,我们可以从它的设计目的去了解;当想要了解人类、动物、AI时,我们用belief和desire理论去了解。
当我们想要科学地研究agent(或人)时,我们
- 假设agent是理性的
- 根据它的处境和目的,赋予它应有的belief和desire
- 预测理性系统会作出的最符合这些belief和desire的事
从此时开始,Belief-Desire理论听上去很像是严谨的科学了。它像是在强调,心理学其实是一种概率学,一种工具;也可以反过来理解,借助生成最高概率的做法,就能模拟出一个理性系统。
Michael Bratman(1987)的哲学理论,则认为Belief-Desire理论在解释瞬时行动的时候是合理的,但对于跨时间的计划行为,它的解释力不足。
- 想要的未必真的就去做。例如用户可能希望去巴黎旅行,但这并不意味着会立刻触发“订机票、办签证、订住宿”这一系列流程。Desire List不会立刻触发行动。
- 想要的东西之间存在矛盾。例如用户想吃蛋糕,以及希望减肥。如果Desire List以同等的地位进入执行阶段,便发生了冲突。但它们在Desire阶段是完全能够共存的。这也说明Desire到执行这一步之间,还存在一些步骤。
他引入了Intention(意图),即决定要去做的事。Desire经过“作出承诺要做这件事”这一步骤后,才进入到执行阶段。
这一理念将 Agent 建模为三种心理状态:
| 组件 | 含义 | 类比 |
|---|---|---|
| Belief(信念) | 对环境状态的认知 | 数据库/知识图谱 |
| Desire(愿望) | 目标状态/偏好 | 目标队列 |
| Intention(意图) | 已承诺执行的计划 | 执行栈 |
仅仅有Desire不代表真正去做,Intention,也就是下决心真的要去做的时候,才真正开始做。执行阶段不属于心理状态,因此不在表中。
Intention这一阶段的引入提供了三种作用:
- 用Intention作为推理与执行的起点,而不是以Desire作为起点。同时想要减肥与吃蛋糕,欲望是同时存在的,但下决心,到了真正要指导行动的时候,只会留下一个Intention。
- Intention可以实现跨时间协调,也就是对人的“惯性心理”的刻画。人并不会时时刻刻对所有Desire进行评估并重新规划。而是延续之前的“决定”,完成之前心中的承诺。例如在已经决定减肥后,默认的Intention依然是减肥,而不是再次比较一番所有Desire,完全独立的重新构建新的Intention。它不是不可改变,但它会抵抗改变,人们借此得以执行跨越时间的计划。
- 在公共关系中同样需要“决定”这一步骤。“我想帮你”与“我会帮你”是存在不同的,在多agent系统中,就可能有必要区分清楚。
代表性框架:AgentSpeak(L)、Jason、PRS(Procedural Reasoning System)。BDI 至今仍在 MAS(Multi-Agent Systems)研究中有影响力——它将"计划选择"和"目标承诺"显式分离,是 Agent 架构中"认知层"概念的原型。
这些理论都是基于自省、思维实验构建的。跟工科认知中的科学相差甚远。这种理论通常需要依赖反证法:当缺失这一概念时,理论会怎样的不完善。从而使新理论得到认可。
2.3 SOAR 认知架构(1987)
SOAR(State, Operator And Result )是Allen Newell、John Laird 等人提出的通用认知架构,目标是实现通用人工智能。
这是一个宏大的命题: 既然人类能在所有认知领域表现出智能,那么一定存在一套固定的、通用的底层机制——这个机制就是认知架构(cognitive architecture)。SOAR 是这一机制的一种实现。
SOAR 不是"一个 AI 程序",而是一套关于智能是什么的理论——它说:任何表现出通用智能的系统,都得有某种固定的结构,这个结构包含什么记忆系统、什么决策流程、什么学习机制。
核心机制:
短期记忆(STM) ↔ 决策周期 ↔ 长期记忆(生产规则 + 语义 + 情节)
↕
意向栈(Goal Stack)
- 决策周期(Decision Cycle):感知 → 匹配规则 → 冲突消解 → 执行 → 学习(Chunking)
- 通用子目标(Universal Subgoaling):遇到困境自动创建子目标
- 学习机制 Chunking:将解决方案编译为新的规则
SOAR 在 AI Agent 架构史上有着里程碑地位——它首次完整定义了 感知 - 推理 - 执行 - 学习的闭环架构,影响了后续几乎所有 Agent 架构的设计。
要我说,ReAct循环完全跟这个一样,所以算不上什么新东西。只不过SOAR提出的时间太久远了,人们又只关注近期的知识。这恐怕是人类在知识继承里的常态。
| 任何需要“在环境中持续行动的智能系统”,都需要有类似这样的闭环,这不能说是发明,而是一种工程约束。
顺便一提,SOAR可以称得上是早期的“终身学习系统”了,跟现在agent常见的宣传一样,都号称越用越聪明。
- 外部输入
- 思考
- 根据外部输入匹配规则
- 消解冲突规则,选择其中的规则
- 执行
- 成功则输出
- 不成功则拆解任务为子目标
- 重复循环直到问题解决
- Chunking 将解决问题的方案编译为规则,下次遇到同样问题能够快速处理。
这其中的Chunking能力就跟Hermes Agent完成任务后编写SKILL的做法一样,并因此号称终身学习。
SOAR的认知架构(对应Agent记忆系统)同样是类似如今的多层架构,一共有9个记忆系统
- 工作记忆。这是SOAR管理全局的记忆,所有输入,中间推理,决策状态都在这里,并用栈结构分层表示目标与状态,子目标与子状态。相当于主Agent。
SOAR架构没有死,甚至还活跃着。
2.4 ACT-R 架构
Anderson 等人开发的认知架构,专注于模拟人类认知过程。相比 SOAR 的全符号主义,ACT-R 引入了亚符号层(subsymbolic),包括:
- 扩散激活(Spreading Activation):记忆检索的基础
- 效用学习(Utility Learning):规则选择的最优化
ACT-R 是将"计算精度"与"认知真实性"结合的典范,后来被部分 LLM Agent 的记忆设计参考。
三、第二阶段:强化学习 Agent 架构(1990s–2010s)
3.1 经典 RL Agent(Q-Learning, SARSA)
RL 将 Agent 定义为 MDP(马尔可夫决策过程) 中的决策者:
状态(State) → 动作(Action) → 奖励(Reward) → 新状态(State')
架构特征:
- Value-based:Q-Learning,维护 Q(s,a) 表
- Policy-based:REINFORCE,直接学习策略 π(a|s)
- 局限:状态空间受限,难以应对高维感知
3.2 深度 RL Agent(DQN, 2013)
DeepMind 的 DQN(Deep Q-Network) 引发 RL 革命,关键架构创新:
CNN(视觉编码器)→ Q(s,a) Value Network → ε-greedy 策略
↕
经验回放缓冲区(Experience Replay)
↕
Target Network(稳定目标分布)
- 经验回放(Experience Replay):打破时序相关性
- 两阶段目标网络(Double DQN):减少价值过估计
3.3 Actor-Critic 架构(PPO, SAC)
现代 RL Agent 的主流架构。分离 策略网络(Actor) 与 价值评估网络(Critic):
┌─────────────┐ ┌──────────────┐
│ Actor │ │ Critic │
│ π(a|s) │←───│ V(s) / Q(s,a)│
│ 生成动作 │ │ 评估动作质量 │
└──────┬───────┘ └──────┬────────┘
│ │
└─────────┬─────────┘
▼
环境交互 → 奖励信号
PPO(Proximal Policy Optimization, 2017) 使用 Clip 机制限制策略更新范围,成为 RL Agent 的事实标准。SAC(Soft Actor-Critic) 通过最大熵强化学习增强了探索能力。
RL Agent 的架构范式(感知 → 决策 → 执行 → 学习循环)为后来的 LLM Agent 提供了循环结构的设计母板。
3.4 多智能体 RL(MADDPG, 2017)
Lowe 等人提出 MADDPG(Multi-Agent DDPG),架构核心:每个 Agent 的 Critic 可以观察所有 Agent 的动作(CTDE: Centralized Training, Decentralized Execution)。
Agent 1: Actor(s₁) → a₁ │ Critic(s₁, s₂, a₁, a₂) → Q₁
Agent 2: Actor(s₂) → a₂ │ Critic(s₂, s₁, a₂, a₁) → Q₂
这在多 Agent 协作/竞争的架构设计上提供了基础范式,后来被 LLM Agent 框架(AutoGen、CrewAI)在概念层借鉴。
四、Pre-LLM 混合架构与过渡期
4.1 RLL(Reinforcement Learning with Language)
在 LLM 大爆发前,研究者试图将自然语言引入 Agent 架构。典型代表:
- Embodied Agents (ALFRED, 2020):通过指令->子任务分解->RL策略
- Interactive Fiction Agents (Jericho, 2019):自然语言文本界面 + RL
4.2 基于 LSTM/Transformer 的命令理解 Agent
- WebGPT(OpenAI, 2021):用 GPT-3 + 模仿学习操作浏览器,首次展示了"语言模型 + 工具 + 搜索"的 Agent 雏形
- 架构:Behavior Cloning on human demonstrations + RL fine-tuning
这些系统虽然性能有限,但建立了语言模型作为 Agent 控制器的架构原型,是通往 LLM Agent 的关键桥梁。
五、第三阶段:LLM Agent 革命(2023–至今)
5.1 分水岭事件:GPT-4 Function Calling(2023-06)
2023年6月,OpenAI 发布 GPT-4 的 function calling 能力。这是 Agent 架构史上的分水岭。
架构变革:
之前: User → LLM → Text Output → 手动解析 → 调用API
之后: User → LLM → JSON tool_call → 自动执行 → 结果反馈 → LLM
Function Calling 使得 LLM 可以:
- 结构化输出函数参数(不再是自由文本)
- 多轮工具调用(chain of tool calls)
- 自动反馈循环(工具结果作为上下文回注)
这标志着 LLM-based Agent 时代正式开启。
5.2 ReAct 范式的崛起(Yao et al., 2023)
ReAct(Reasoning + Acting)是 LLM Agent 最核心的架构范式,由 Yao 等人在 2023 年提出。
Thought: 我需要查找当前的天气数据
Action: search_weather(location="Beijing")
Observation: {"temp": 28, "humidity": 65%}
Thought: 气温 28°C,湿度 65%,建议穿短袖
Action: complete
架构循环:
┌─────────────────────────────────────┐
│ LLM (核心推理引擎) │
│ │
│ 思考(Thought) → 动作(Action) │
│ ↑ ↓ │
│ 观察(Observation) ← 工具执行结果 │
│ ↑ │
│ Scratchpad (上下文缓冲区) │
└─────────────────────────────────────┘
ReAct 的关键设计要素:
- Scratchpad:作为 Agent 的"工作记忆",存储推理链
- Thought-Action-Observation 三元组:可解释的决策轨迹
- 动态停止条件:Agent 自行判断任务是否完成
5.3 第一代自主 Agent 框架(2023 年中)
AutoGPT(2023-03) 和 BabyAGI(2023-04) 引爆了 Agent 概念。
AutoGPT 架构:
┌─────────────────────────────────────────┐
│ Goal → 任务队列(Task Queue) │
│ ↓ │
│ LLM 推理 → 执行动作 → 存储结果 │
│ ↓ │
│ 优先队列(优先级排序 → 再次执行) │
│ ↓ │
│ 向量数据库(长期记忆检索) │
└─────────────────────────────────────────┘
BabyAGI 架构创新:引入了任务分解(task decomposition) 与记忆优先级(memory prioritization),但其无限制的自我循环也引发了"Agent 失控"的讨论。
5.4 主流框架生态成型(2023 年底–2024 年)
| 框架 | 发布时间 | 架构特色 | 核心理念 |
|---|---|---|---|
| LangChain | 2023-01 | 链式组合(Chain)+ 工具抽象 | 可组合的 LLM 应用框架 |
| LangGraph | 2023-中 | 有向图状态机 + 循环节点 | 细粒度控制 Agent 流程 |
| AutoGen | 2023-10 | 多 Agent 对话 + 角色分离 | Agent 即消息参与者 |
| CrewAI | 2023-12 | 角色 + 任务 + 团队(Crew) | 模拟人类团队协作 |
| Semantic Kernel | 2023-05 | 编排层 + 插件 + 记忆 | 企业级 Agent 架构 |
| LlamaIndex | 2023-01 | 数据索引(Index)+ RAG | Agent 检索增强架构 |
LangChain → LangGraph 的架构进化
LangChain 最初使用 Sequential Chain(线性管道),架构为:
Input → PromptTemplate → LLM → OutputParser → NextChain → ...
问题:线性链条无法处理条件分支、循环、多工具调用。
LangGraph 的革命性升级:
StateGraph:
Node(agent) → Edge(router) → Node(tools)
↑ │
└─────────────────────────────┘
(循环,直到 agent 决定停止)
LangGraph 引入了:
- Stateful Graph:节点间通过共享状态通信
- Conditional Edges:根据条件动态路由
- Persistence:内置的持久化/中断/恢复机制
AutoGen 的对话式架构
Microsoft AutoGen 的架构核心是 Agent-Centric 的消息驱动模型:
┌─────────────────────────────────────────────┐
│ UserProxyAgent AssistantAgent │
│ (人类代理) (LLM代理) │
│ │ │ │
│ └─────── 对话循环 ──────┘ │
│ │ │
│ Tool/Function │
│ (代码/API执行) │
└─────────────────────────────────────────────┘
关键创新:多 Agent 通过自然语言对话完成协作,而非硬编码的流程控制。
CrewAI 的角色化架构
CrewAI 引入了组织隐喻(Organizational Metaphor):
Crew (团队)
├── Agent: 研究员(角色: 研究者, 目标: 收集信息, 工具: web_search)
├── Agent: 分析师(角色: 分析师, 目标: 分析数据, 工具: code_exec)
├── Task: 收集数据(分配给 研究员 Agent)
└── Task: 生成报告(分配给 分析师 Agent, 依赖 Task1)
设计理念:将 Agent 组织视为虚拟公司,通过角色、职责、任务的显式分配来解耦复杂系统。
5.5 Prompt Agent → 工具 Agent 的架构转变
2024 年的关键趋势是从提示代理(Prompt Agent) 向工具代理(Tool Agent) 的演变:
Prompt Agent:
单一 LLM 调用 → 文本输出
无外部反馈循环
依赖模型能力
Tool Agent:
LLM(工具描述 + 上下文) → tool_call → 执行结果 → LLM(结果)
结构化工具接口
持续交互闭环
Function Calling / Tool Use 成为 Agent 架构的标准层:
Agent
├── Orchestrator(编排器:决定调用哪个工具、何时停止)
├── Tool Registry(工具注册表:名称+描述+参数Schema)
│ ├── search | code | calculator | file_ops | ...
│ └── MCP Tool(通过 Model Context Protocol 发现)
├── Memory(记忆系统)
│ ├── Working Memory(Scratchpad)
│ ├── Short-term(对话历史)
│ └── Long-term(向量检索 + 持久化)
└── Safety Layer(安全层:输入过滤 + 输出审核)
六、多 Agent 系统架构成熟期(2024–2025)
6.1 主流多 Agent 架构模式
模式 1:中心化编排器(Orchestrator)
┌──────────────┐
│ Orchestrator │ ← 单一决策点
├──────┬───────┤
│ │ │
↓ ↓ ↓
Agent1 Agent2 Agent3
- 代表:LangGraph(Supervisor Pattern)
- 优点:全局可控、确定性高
- 局限:单点瓶颈、编排器可能成为性能瓶颈
模式 2:对话式协作(Conversational)
Agent1 ←→ Agent2 ←→ Agent3
↕ ↕ ↕
Tool Tool Tool
- 代表:AutoGen
- 优点:自然协作、灵活性高
- 局限:对话开销、可能陷入循环
模式 3:分层管理(Hierarchical)
Manager Agent
├── Researcher Agent
│ ├── Web Searcher
│ └── Paper Analyzer
├── Writer Agent
└── Reviewer Agent
- 代表:Anthropic Multi-Agent Research System
- 优点:任务分解自然、各层职责清晰
- 局限:层级间通信延迟
模式 4:群体智能(Swarm)
Agent1 → Agent2 → Agent3
↑ Agent4 → Agent5 ↕
Agent6 ← Agent7 ← Agent8
- 代表:OpenAI Swarm、MADDPG 精神延续
- 优点:容错、可扩展
- 局限:协调复杂、调试困难
6.2 关键研究成果
| 研究 | 年份 | 架构贡献 |
|---|---|---|
| ReAct (Yao et al.) | 2023 | Thought-Action-Observation 循环 |
| Reflexion (Shinn et al.) | 2023 | 语言反馈 + 自我反思 + 经验回放 |
| Tree-of-Thoughts (Yao et al.) | 2023 | 多路径探索 + BFS/DFS |
| Self-Refine (Madaan et al.) | 2023 | Agent 自我生成 → 自我反馈 → 自我改进 |
| ReWOO (Xu et al.) | 2023 | 规划与执行分离(Plan-then-Execute) |
| AgentTuning (Zeng et al.) | 2023 | 从 Agent 轨迹中微调 LLM |
| GPT-4 Function Calling | 2023-06 | 原生工具调用接口 |
| MCP (Model Context Protocol) | 2024-11 | 标准化工具/数据协议 |
| A2A (Agent-to-Agent) | 2025-04 | Agent 间通信协议 |
| Deep Research (OpenAI) | 2025-02 | 多层搜索 + 规划 + 报告合成 |
| Anthropic MCP | 2024-11 | Function Calling 的协议级标准化 |
6.3 Reflexion 架构:Agent 的自我改进
Reflexion(Shinn et al., 2023)在 ReAct 基础上引入评估-反思闭环:
┌─────────────────────────────────────┐
│ Actor (ReAct Loop) │
│ Thought → Action → Observation │
└─────────────┬───────────────────────┘
│ 完成/失败
▼
┌─────────────────────────────────────┐
│ Evaluator │
│ 评估任务完成质量 → 生成反馈 │
└─────────────┬───────────────────────┘
│ 结构化反馈
▼
┌─────────────────────────────────────┐
│ Memory │
│ 经验回放缓冲区(失败的决策 + 原因) │
└─────────────┬───────────────────────┘
│ 提取经验
▼
回到 Actor 重新执行
核心创新:Agent 通过自然语言反思自己的失败并将经验存入记忆,而非通过权重更新。
七、协议标准化时代(2024 年底–2026)
7.1 MCP(Model Context Protocol)
Anthropic 于 2024 年 11 月推出的开放协议,定位在 Agent 与工具/数据源之间的标准化接口。2025 年 12 月,Anthropic 将其捐赠给 Linux 基金会下的 Agentic AI Foundation。
┌─────────┐ MCP 协议 ┌──────────┐
│ Agent │ ◄──────────► │ MCP Server │
│ (Host) │ │ │
│ │ │ ├── Database│
│ │ │ ├── Files │
│ │ │ ├── API │
│ │ │ └── Search │
└─────────┘ └──────────┘
架构意义:MCP 将工具接口从"厂商锁定"推向标准化,使任何 MCP-compatible 的 Agent 都能自动发现和调用工具。
7.2 A2A(Agent-to-Agent Protocol)
Google 于 2025 年 4 月发布,定位在 Agent 与 Agent 之间的通信协议。2025 年 6 月贡献给 Linux 基金会。
┌──────────────┐
│ Orchestrator │
│ Agent │
└──────┬───────┘
A2A ┌───────┴────────┐
┌──────▼────┐ ┌──────▼────┐
│ Agent A │ │ Agent B │
│ (MCP工具) │ │ (MCP工具) │
└───────────┘ └───────────┘
MCP vs A2A 的关系:
| 协议 | 解决的问题 | 方向 |
|---|---|---|
| MCP | Agent 如何访问工具和数据 | 上下层连接 |
| A2A | Agent 之间如何协作通信 | 平行连接 |
7.3 协议栈全景(2025–2026)
Agent-to-Agent (A2A) ← Agent 间协作层
↕
Agent 核心(推理+规划+执行)
↕
Model Context Protocol (MCP) ← 工具/数据接入层
↕
数据库 | 文件 | API | 搜索 | 代码
八、2025–2026 架构前沿
8.1 深度推理 Agent(Deep Research)
OpenAI 的 Deep Research 和类似的深度研究 Agent 架构:
User Query → [Search Loop]
├── 规划搜索策略
├── 并行多源搜索(Web + Academic + Code)
├── 阅读 + 提取关键信息
├── 交叉验证冲突信息
└── 是否足够?→ 是 → 合成报告
↓
报告生成(带引用)
核心架构特征:
- 多层搜索规划:BFS 式探索
- 信息到报告的直接转换:减少中间损耗
- 引用锚定(Citation Anchoring):免幻觉的可溯源设计
8.2 Agentic RAG(检索增强生成 + Agent 决策)
Agentic RAG 将传统 RAG 的"一阶段检索+生成"升级为多策略决策:
Query
↓
Router(路由决策)
├──→ Vector Search(语义检索)
├──→ Web Search(实时网络搜索)
├──→ SQL Query(结构化数据)
└──→ Agent Loop(复杂查询:分解→检索→合成)
8.3 Hermes Agent 自身的架构(Mirror of the Trend)
你正在对话的 Hermes Agent 本身也体现了当前架构设计的最新趋势:
- 工具中心:所有工具(web_search, browser, terminal, execute_code 等)通过工具注册表暴露
- ReAct Loop:Thought(推理)→ Action(工具调用)→ Observation(结果回注)的自然循环
- Skills = 过程记忆:将可复用的工作流编码为 skill(类似 SOAR 的 Chunking)
- Memory 系统:持久记忆(跨 session)+ 会话搜索(短时上下文检索)
- MCP 原生支持:通过 Native MCP 技能连接标准协议工具
- Subagent 架构:delegate_task 实现多 Agent 并行协作(类似 AutoGen 模式)
- Cron Job:事件驱动的自主执行
九、架构演变总览图
1950s──┐
├── 专家系统(规则引擎)
1960s──┘
│
1980s ├── BDI(信念-愿望-意图)
├── SOAR(通用认知架构 / 决策周期 + Chunking)
└── ACT-R(认知建模 + 亚符号层)
│
1990s ├── MDP + Q-Learning(经典RL)
├── 多Agent系统理论
2000s──┘
│
2013 ├── DQN(深度RL / 经验回放)
2016 ├── PPO(Actor-Critic / 策略优化)
2017───┴── MADDPG(CTDE / 多Agent协作)
│
2021 ├── WebGPT(语言模型 + 浏览器)
2022───┴── ChatGPT + 第三方插件
│
2023-03├── AutoGPT / BabyAGI(任务分解 + 循环)
2023-06├── GPT-4 Function Calling(工具调用原生化)
2023-10├── ReAct(推理-行动闭环)
2023-12├── LangChain / LangGraph(链→图 / 状态机)
2024 ├── AutoGen / CrewAI(多Agent编排)
├── Reflexion(自我反思 + 经验回放)
2024-11 ├── MCP(工具/数据协议标准化)
2025-04 ├── A2A(Agent间通信协议)
2025-06 ├── Deep Research(深度推理检索)
2025-12 ├── MCP捐赠至Agentic AI Foundation
2026 └── 多范式融合:符号规则 + LLM 推理 + RL 反馈
十、核心洞察与结论
从封闭到开放:Agent 架构从封闭的符号规则系统,演化为通过协议(MCP/A2A)开放互联的生态系统。
从单一体到协作体:单一 LLM Agent → 多 Agent 编排(Orchestration)→ Agent 联邦(Federation)。
循环结构是永恒模式:从 SOAR 的决策周期到 ReAct 的 Thought-Action-Observation,循环感知-推理-执行架构是所有 Agent 系统的基础。
记忆系统分层化:Working Memory(Scratchpad)→ Short-term(对话历史)→ Long-term(向量数据库)的三层架构成为事实标准。
编排粒度的细化:从 Sequential Chain → State Graph → Multi-Agent Conversation → Role-based Team,编排抽象层次不断上升。
“大脑"与"四肢"分离:LLM 作为推理核心 → 工具作为执行层 → 协议作为连接层,三者走向解耦与标准化。
评估-反馈-学习闭环:Reflexion、RLHF、SFT from Agent Trajectory… Agent 正在从"一次执行"走向"自我进化”。
当前的瓶颈:Agent 可靠性(一致性幻觉)、成本控制(token 堆积)、安全边界(工具调用权限)、调试/可观测性——这些是 2025–2026 年的核心工程挑战。