一、简单理解

这篇文章核心是用通俗的方式讲“大模型智能体（LLM Agent）”——简单说就是给普通大模型装了“脑子+手脚+记忆”，让它从只会“聊天”变成能自主完成复杂任务的“小助手”。

1. 先说说普通大模型的短板

普通大模型就像“健忘的学霸”：只会顺着话茬往下说，记不住之前的对话（比如问完1+1再问刚才问了啥，它会忘），不会算复杂数学题、查实时信息，也做不了需要分步推进的事。

2. 大模型智能体的“三大外挂”（核心组件）

为了补短板，智能体加了三个关键“外挂”，让大模型变能干：

记忆
工具
规划

3. 让智能体“会思考、能纠错”的技巧

光有外挂还不够，还得教它“怎么用”：

用“思维链”让它慢慢想：比如问“10个苹果送2个、吃1个，剩几个”，它会一步步算，不是直接猜答案。
用ReAct框架让它“边想边做”：先分析情况→再选工具行动→最后看结果调整，形成循环。
加“反思”功能：做错题或没做好时，能自己复盘，下次改进（比如这次搜错资料，下次会换关键词）。

4. 多智能体协作：多个“小助手”一起干活

单个智能体处理复杂任务会吃力，于是就有了“多智能体”——比如一个负责查资料、一个负责写代码、一个负责总结，还有个“协调者”分配任务，各司其职效率更高。

总的来说，这份文档本质就是讲：大模型智能体不是天生厉害，而是靠“记忆+工具+规划”这三大核心，再加上“思考、行动、反思”的流程，甚至多个智能体配合，才从“只会聊天”变成能自主完成工作、解决问题的实用工具，现在相关技术和框架也越来越成熟了。

二、原文部分

大模型智能体正日益普及，其风头似乎已盖过我们所熟悉的常规对话式大模型。然而，这些强大功能的实现并非易事，需要众多组件协同运作才能达成。

一、何为“大模型智能体”？

要理解什么是大模型智能体，我们首先需要了解大语言模型的基本能力。传统上，一个大语言模型仅仅执行“下一词预测”的任务。

通过连续采样生成多个词元，我们可以模拟对话，并利用大语言模型为我们的问题生成更详尽的答案。

然而，当我们持续进行“对话”时，任何大语言模型都会暴露出其主要缺陷之一：它无法记住对话内容！

大语言模型常常无法完成的任务还有很多，包括像乘除法这样的基础数学运算：

这是否意味着大语言模型一无是处呢？当然不是！我们并不需要大语言模型无所不能，因为可以通过外部工具、记忆和检索系统来弥补其缺陷。

借助外部系统，大语言模型的能力可以得到增强。Anthropic 公司将此称为 “增强型大语言模型”。

例如，当遇到一个数学问题时，大语言模型可以决定使用合适的工具（比如一个计算器）。

那么，这种“增强型大语言模型”就是智能体了吗？不完全是，但也可能沾点边……

让我们从智能体的定义开始：¹

智能体是指任何能够通过传感器感知其环境，并通过执行器对该环境施加作用的事物。— Russell & Norvig, 《人工智能：一种现代方法》（2016）

智能体通过与环境的交互来运作，通常包含以下几个关键组件：

环境 —— 智能体与之交互的世界
传感器 —— 用于观察环境
执行器 —— 用于与环境交互的工具
效应器 —— 决定如何从观察转为行动的“大脑”或规则

这一框架适用于所有与环境交互的各类智能体，例如与现实物理环境交互的机器人，或与软件环境交互的AI智能体。

我们可以对此框架稍作概括，使其更适合“增强型大语言模型”。

借助“增强型”大语言模型，智能体可以通过文本输入（因为大语言模型本质上是文本模型）来观察环境，并通过使用各种工具（例如网络搜索）来执行特定动作。

为了选择要采取的行动，大模型智能体拥有一个至关重要的组件：规划能力。为此，大语言模型需要能够通过思维链等方法进行“推理”和“思考”。

根据系统设计的不同，大模型智能体可以拥有不同程度的自主性。

根据不同的理解，一个系统的“智能体”程度越高，通常意味着大语言模型在决定系统行为方面拥有更大的自主权。

在接下来的章节中，我们将通过大模型智能体的三个核心组件：记忆、工具和规划，来深入探讨实现自主行为的各种方法。

记忆

大语言模型本身是健忘的系统，或者更准确地说，在与它们交互时，它们根本不执行任何记忆功能。

例如，当你向大语言模型提问，随后又提出另一个问题时，它并不会记住之前的内容。

我们通常将此称为短期记忆，也称为工作记忆，它充当（近）即时上下文的缓冲区。这包括大模型智能体近期采取的行动。

然而，大模型智能体还需要跟踪可能多达几十个步骤，而不仅仅是最近的动作。

这被称为长期记忆，因为从理论上讲，大模型智能体可能执行了数十甚至数百个需要被记住的步骤。

让我们来探讨几种赋予这些模型记忆能力的技巧。

短期记忆

实现短期记忆最直接的方法是使用模型的上下文窗口，这本质上是一个大语言模型能够处理的词元数量。

上下文窗口的大小通常至少为 8192 个词元，有时甚至可以扩展到数十万个词元！

一个大的上下文窗口可以用来存储完整的对话历史，并将其作为输入提示的一部分。

只要对话历史没有超出大语言模型的上下文窗口，这种方法就有效，并且是模拟记忆的一种好方法。然而，这并不是真正地"记住"对话，我们实质上是在"告诉"大语言模型之前的对话内容是什么。

对于上下文窗口较小的模型，或者当对话历史很长时，我们可以使用另一个大语言模型来总结迄今为止的对话。

通过持续总结对话，我们可以保持这部分对话内容的小体量。这将在减少词元数量的同时，只跟踪最关键的信息。

长期记忆

大模型智能体中的长期记忆，包括需要在较长时间内保留的智能体过去的行动空间。

实现长期记忆的一种常用技术是将之前所有的交互、行动和对话存储在一个外部的向量数据库中。

要构建这样的数据库，首先需要将对话嵌入到能够捕捉其含义的数值表示中。

构建数据库后，我们可以对任何给定的提示进行嵌入，并通过比较提示嵌入与数据库中的嵌入，在向量数据库中找到最相关的信息。

这种方法通常被称为检索增强生成（RAG）。

长期记忆还可能涉及保留不同会话中的信息。例如，您可能希望一个大模型智能体记住它在之前会话中做过的任何研究。

不同类型的信息也可能与要存储的不同类型的记忆相关联。在心理学中，需要区分多种记忆类型，《语言智能体的认知架构》论文将其中的四种与大模型智能体关联起来：²

工作记忆 -> 短期上下文
情景记忆 -> 长期、特定经历和事件
语义记忆 -> 世界知识/事实
程序性记忆 -> 技能和工具使用）

这种区分有助于构建智能体框架。例如，语义记忆（关于世界的事实）可能与工作记忆（当前和近期的情况）存储在不同的数据库中。

工具

工具使得大语言模型能够与外部环境（例如数据库）进行交互，或使用外部应用程序（例如运行自定义代码）。

工具通常有两种用途：获取数据以检索最新信息，以及执行操作，例如安排会议或订购食物。

要实际使用一个工具，大语言模型必须生成符合该工具 API 接口规范的文本。我们通常期望生成的字符串能够格式化为 JSON，以便轻松地馈送给代码解释器。

请注意，这并不局限于 JSON，我们也可以在代码本身中调用工具！您还可以生成大语言模型可以使用的自定义函数，例如一个基本的乘法函数。这通常被称为函数调用。

有些大语言模型如果得到正确且详尽的提示，可以使用任何工具。工具使用是当前大多数大语言模型都具备的能力。

一个更稳定的使用工具的方法是通过对大语言模型进行微调（后续详述！）。

工具的使用方式可以是：如果智能体框架是固定的，则按既定顺序使用……

……或者大语言模型可以自主选择使用哪个工具以及何时使用。如上图所示，大模型智能体本质上是一系列的大语言模型调用（但具有对动作/工具等的自主选择能力）。

换句话说，中间步骤的输出会被反馈给大语言模型以继续处理。

Toolformer

工具使用是增强大语言模型能力并弥补其缺陷的强大技术。因此，在过去几年中，关于工具使用和学习的研究努力迅猛增长。

这类研究大多不仅涉及通过提示来让大语言模型使用工具，还包括专门为工具使用而训练它们。

其中最早的技术之一叫做 Toolformer，这是一个经过训练、能够决定调用哪个 API 以及如何调用的模型。³

它通过使用 [ 和 ] 这两个词元来指示调用工具的开始和结束。当收到一个提示，例如“5 乘以 3 是多少？”时，它开始生成词元，直到遇到 [ 词元。

之后，它继续生成词元，直到遇到→词元，这表示大语言模型停止生成。

接着，工具将被调用，其输出将被添加到迄今为止生成的词元中。

Toolformer 通过精心生成一个包含许多工具使用示例的数据集供模型训练，从而创建了这种行为。对于每个工具，手动创建少量示例提示，并用于采样那些使用这些工具的输出。

这些输出会根据工具使用的正确性、输出结果以及损失函数的降低情况进行过滤。最终得到的数据集用于训练一个大语言模型，使其遵循这种工具使用的格式。

自 Toolformer 发布以来，出现了许多令人兴奋的技术，例如能够使用数千种工具的 LLMs（ToolLLM⁴），或者能够轻松检索最相关工具的 LLMs（Gorilla⁵）。

无论如何，当前（2025 年初）大多数的大语言模型都已经通过生成 JSON 的方式（如我们之前所见）被训练得能够轻松调用工具。

模型上下文协议 (MCP)

工具是智能体框架的重要组成部分，使大语言模型能够与世界互动并扩展其能力。然而，当存在许多不同的 API 时，启用工具使用变得很麻烦，因为任何工具都需要：

手动跟踪并提供给大语言模型
手动描述（包括其预期的 JSON 模式）
在其 API 变更时手动更新

为了使工具在任何给定的智能体框架中更容易实现，Anthropic 开发了模型上下文协议 (MCP)。⁶ MCP 为天气应用、GitHub 等服务标准化了 API 访问。

它包含三个组件：

MCP 主控端
MCP 客户端
MCP 服务器

例如，假设您希望某个 LLM 应用程序总结您代码库中最近的 5 次提交。

1、MCP 主控端（与客户端一起）会首先调用 MCP 服务器询问有哪些工具可用。

2、LLM 接收到信息，并可能选择使用一个工具。它通过主控端向 MCP 服务器发送请求，然后接收结果，包括所使用的工具信息。

3、最后，LLM 接收到结果，并可以解析出答案给用户。

这个框架通过连接到任何 LLM 应用程序都可以使用的 MCP 服务器，使得创建工具变得更加容易。因此，当您创建一个与 Github 交互的 MCP 服务器后，任何支持 MCP 的 LLM 应用程序都可以使用它。

规划（Planning）

工具使用能让大语言模型（LLM）拓展自身能力边界，调用工具通常采用类 JSON 格式的请求。

但在智能体系统中，大语言模型如何判断该使用哪种工具、何时使用呢？

这正是 “规划” 的核心作用。大模型智能体（LLM Agent）中的规划，是指将给定任务拆解为可执行的具体步骤。

通过这份规划，模型能够迭代反思过往行为，并在必要时更新当前规划。

当计划顺利推进时，效果真的很棒！要在大模型智能体中实现规划功能，我们首先需要了解这一技术的基础 —— 即推理（Reasoning）。

推理（Reasoning）

制定可执行步骤需要复杂的推理能力。因此，大模型在推进任务规划前，必须具备这种推理能力。

“具备推理能力的大语言模型”，指的是那些在回答问题前会先 “思考” 的模型。

这里我对 “推理” 和 “思考” 的使用较为宽泛 —— 毕竟我们可以争论这是否属于类人思考，还是仅仅将答案拆解为结构化步骤。

这种推理能力大致可通过两种方式实现：对大语言模型进行微调，或采用特定的提示工程。

借助提示工程，我们可以提供推理过程的示例，引导大模型遵循。提供示例（也称为 “少样本提示” 7）是调控大模型行为的有效方法。

这种提供思考过程示例的方法被称为 “思维链（Chain-of-Thought）”，能让模型展现更复杂的推理能力 8。

思维链也可在不提供任何示例的情况下启用（即 “零样本提示”），只需简单告知模型 “让我们一步步思考” 9。

训练大语言模型时，我们既可以为其提供足量包含类思考过程的数据集，也可以让模型自行探索思考流程。

深度求索（DeepSeek-R1）就是一个典型案例，该模型通过奖励机制引导思考过程的运用。

推理与行动（Reasoning and Acting）

让大语言模型（LLM）具备推理能力固然很好，但这并不意味着它能规划出可执行的具体步骤。

我们目前聚焦的技术，要么仅展现推理行为，要么仅通过工具与环境交互。

例如，思维链（Chain-of-Thought）就纯粹聚焦于推理过程。

首个将这两个过程结合的技术之一是 ReAct（全称 Reason and Act，译为 “反应式框架”）¹⁰。

ReAct 通过精细化的提示工程实现这一融合，其提示词包含三个核心步骤：

思考（Thought）—— 对当前情况的推理分析步骤
行动（Action）—— 待执行的一系列操作（如调用工具）
观察（Observation）—— 对行动结果的推理分析步骤

该提示词本身设计得十分简洁明了。

大语言模型会借助这份提示词（可作为系统提示词使用），将自身行为引导至 “思考 - 行动 - 观察” 的循环模式中。

这种循环会持续进行，直到某一行动明确指令返回结果为止。通过反复迭代思考与观察，大语言模型能够规划行动、观察输出结果，并据此做出相应调整。

因此，与那些步骤固定的智能体相比，该框架能让大语言模型展现出更强的自主智能体行为。

反思（Reflecting）

没有任何智能体 —— 即便是搭载 ReAct 框架的大语言模型 —— 能完美完成所有任务。只要能从过程中反思，失败本身就是流程的一部分。

ReAct 框架恰好缺少这种反思机制，而 “反思机制（Reflexion）” 正是为弥补这一缺口而生。这是一种通过语言强化信号，帮助智能体从过往失败中学习的技术 ¹¹。

该方法为大语言模型设定了三个角色：

执行者（Actor）—— 基于状态观察选择并执行行动，可采用思维链或 ReAct 等方法。
评估者（Evaluator）—— 对执行者产生的输出结果进行评分。
自我反思模块（Self-reflection）—— 反思执行者的行动及评估者给出的评分。

系统会添加记忆模块，用于追踪行动（短期记忆）和自我反思内容（长期记忆），帮助智能体从错误中学习，找到更优的行动方案。

另一种类似且简洁的技术是 “自我优化框架（SELF-REFINE）”，其核心是重复执行输出优化与反馈生成的动作 ¹²。

同一大语言模型需同时负责生成初始输出、优化后输出以及反馈内容。

有趣的是，无论是反思机制（Reflexion）还是自我优化框架（SELF-REFINE），这种自我反思行为都与强化学习高度相似 —— 后者会根据输出质量给予奖励信号。

多智能体协作（Multi-Agent Collaboration）

我们之前探讨的单一智能体存在一些问题：工具过多可能增加选择难度，上下文会变得过于复杂，且部分任务需要专业领域的专精能力。

因此，我们可以转向多智能体框架（Multi-Agents）—— 由多个智能体组成，每个智能体都具备工具调用、记忆存储和规划能力，它们之间以及与环境之间可进行交互：

这类多智能体系统通常包含多个专精型智能体，每个都配有专属工具集，并由一个 “协调者（supervisor）” 进行管理。协调者负责统筹智能体之间的通信，还能将特定任务分配给对应的专精型智能体。

每个智能体可调用的工具类型可能不同，所搭载的记忆系统也可能存在差异。

在实际应用中，多智能体架构已有数十种，但核心均包含两个组件：

智能体初始化（Agent Initialization）—— 如何创建单个（专精型）智能体？
智能体协调调度（Agent Orchestration）—— 如何统筹协调所有智能体？

下面我们将介绍几种有趣的多智能体框架，并重点说明这两个核心组件的实现方式。

人类行为的交互式模拟体（Interactive Simulacra of Human Behavior）

有一篇多智能体领域极具影响力、且设计十分精妙的论文 ——《生成式智能体：人类行为的交互式模拟体》（Generative Agents: Interactive Simulacra of Human Behavior）¹³。

该论文中提出了一种计算软件智能体，能够模拟逼真的人类行为，研究者将其命名为 “生成式智能体（Generative Agents）”。

每个生成式智能体都被赋予专属档案，这让它们的行为具有独特性，进而产生更有趣、更具动态性的交互表现。

每个智能体初始化时都会搭载三个模块（记忆模块、规划模块和反思模块），与我们之前介绍的 ReAct 和 Reflexion 框架的核心组件高度相似。

记忆模块是该框架中最关键的组件之一，它不仅存储规划和反思行为，还会记录迄今为止发生的所有事件。

当智能体面临下一步行动或接收问题时，系统会检索相关记忆，并根据时效性、重要性和相关性进行评分，得分最高的记忆会提供给智能体参考。

这些模块共同作用，让智能体能够自主开展行为并相互交互。因此，该框架中几乎不需要复杂的智能体协调调度 —— 因为智能体没有预设的明确目标。

这篇论文中有很多精彩的内容，这里重点介绍其评估指标 ¹⁴。

该研究以智能体行为的 “逼真度” 作为核心评估指标，并由人类评估者进行打分。

这一评估结果表明，观察、规划和反思三者结合，对生成式智能体的性能至关重要。正如之前所探讨的，缺乏反思行为的规划是不完整的。

模块化框架（Modular Frameworks）

无论选择哪种多智能体系统构建框架，其核心构成要素通常包括：智能体档案、环境感知能力、记忆存储、规划能力和可用行动集 ¹⁵¹⁶。

实现这些组件的主流框架有 AutoGen¹⁷、MetaGPT¹⁸和 CAMEL¹⁹，但每种框架在智能体通信机制的设计上略有不同。

以 CAMEL 为例，用户首先提出问题，并定义 “AI 用户（AI User）” 和 “AI 助手（AI Assistant）” 两个角色。其中，AI 用户角色模拟人类用户的需求，主导整个协作流程。

之后，AI 用户和 AI 助手通过相互交互，共同协作解决用户提出的问题。

这种角色扮演模式，实现了智能体之间的协作式通信。

AutoGen 和 MetaGPT 采用了不同的通信方式，但核心都在于这种协作式交互 —— 智能体有机会通过沟通更新自身状态、目标和下一步行动规划。

在过去一年，尤其是最近几周，这些框架的发展势头极为迅猛。

随着框架的不断成熟与完善，2025 年必将成为令人振奋的一年！

总结（Conclusion）

以上就是我们关于大模型智能体（LLM Agents）的全部探讨！希望本文能帮助你更好地理解大模型智能体的构建逻辑。

什么是大模型智能体？