AI agent

你：「帮我规划一次周末去京都的旅行，预算5000元」

Agent：（自动搜索机票价格）→（比较酒店并筛选）→（规划每日行程）→（计算预算）

Agent：「已为您完成规划！往返机票1800元，住宿2晚1200元，包含清水寺、金阁寺等5个景点的详细行程，总预算4800元。[查看完整计划.pdf]」

这就是最本质的区别：ChatGPT给建议，Agent帮你干活

Agent 基础

1. 什么是 Agent？

Agent 可以理解为：

在大语言模型（LLM）基础上，具备自主决策与行动能力的系统。

Agent = LLM（大脑） + 工具（手脚） + 记忆（经验） + 规划（智慧）

与传统对话模型不同：

普通 LLM：输入 → 输出（一次性响应）

Agent：目标 → 推理 → 规划 → 执行 → 反馈

Agent 不只是“回答问题”，而是完成任务。

2. Agent 与 ChatGPT 的本质区别

ChatGPT 类系统主要是：

被动响应

单轮或短链路生成

不直接执行动作

Agent 系统则强调：

多步决策（multi-step reasoning）

可调用工具（tool usage）

可持续状态（memory/state）

面向任务而非单次回答

一句话概括：

Agent = LLM + 决策机制 + 执行能力

3. Agent 的核心能力

层级	作用
感知层（Perception）	接收输入
认知层（Cognition）	推理与决策
执行层（Execution）	调用工具与动作
记忆层（Memory）	存储状态

一个完整 Agent 通常具备四种能力：

第一层：感知层（Perception Layer）

核心作用：

接收外部信息，并转换为模型可处理的输入。

主要任务：

接收用户指令（Prompt）

接收环境信号（数据 / API / 文档）

解析输入格式

典型组件：

用户输入

输入解析器

LLM 的语言理解能力

本质理解：

感知层解决的是“Agent 看到了什么？”

类比：

像人的耳朵和眼睛，负责获取信息，而不负责思考。

第二层：认知层（Cognition Layer）

核心作用：

对输入进行理解、分析、推理与决策。

主要任务：

理解任务目标

推理当前状态

制定计划（Planning）

决定是否调用工具

典型组件：

LLM（推理核心）

Planning 模块

Reasoning Engine

本质理解：

认知层解决的是“Agent 如何思考？”

类比：

像人的大脑，负责决策与判断。

第三层：执行层（Execution Layer）

核心作用：

将认知层的决策转化为具体行动。

主要任务：

调用外部工具（Tools）

执行代码

查询数据库

调用 API

与系统交互

典型组件：

Tool 调用接口

API Connector

Code Executor

本质理解：

执行层解决的是“Agent 如何行动？”

类比：

像人的手和脚，把想法变成动作。

第四层：记忆层（Memory Layer）

核心作用：

保存与管理状态，使 Agent 具备连续性。

主要任务：

存储对话历史

记录任务进展

保存长期知识

支持上下文检索

典型组件：

Short-term Memory（上下文）

Long-term Memory（向量库 / DB）

状态管理模块

本质理解：

记忆层解决的是“Agent 记得什么？”

类比：

像人的记忆系统，保证不会“每轮失忆”。

4. Agent 的关键组成模块

1. LLM（大语言模型 / Brain）

作用：

理解用户意图

推理与决策

选择下一步动作

生成输出

本质：

负责“思考”。

关键点：

temperature↓ → 输出更稳定

LLM 能推理，但不能直接执行现实动作

2. Planning（规划模块）

作用：

拆解复杂任务

决定执行顺序

控制推理路径

为什么需要：

减少重复推理

避免步骤遗漏

降低 Token 浪费

典型模式：

ReAct：边想边做（灵活，成本高）

Plan-and-Execute：先计划后执行（高效，灵活性低）

3. Memory（记忆模块）

作用：

保存上下文

维持状态连续性

类型：

短期记忆：当前对话 / 任务

长期记忆：用户信息 / 经验 / 知识

关键问题：

Token 限制

成本累积

解决：

摘要记忆

向量数据库检索

4. Tools（工具模块）

作用：

执行具体动作

扩展 Agent 能力边界

常见能力：

搜索

Python 计算

数据库查询

API 调用

关键设计原则：

Name 清晰

Description 精确

必须有错误处理

5. Agent 的数据流逻辑

典型流程：

接收输入（目标/问题）

LLM 理解与推理

Planning 拆解任务

Execution 调用工具

Memory 更新状态

输出结果

6. 为什么 Agent 被认为是重要方向？

因为它将 AI 从：

“文本生成系统” → “任务执行系统”

扩展为：

可行动

可决策

可集成外部世界

可模拟人类工作流

Agent 的工作原理与模式

1. ReAct 框架是什么？

ReAct = Reasoning + Acting

核心思想：

Agent 在解决任务时交替进行：

Reasoning（推理）

分析当前情况，决定下一步做什么

Acting（行动）

调用工具 / 执行操作

Observation（观察）

接收工具返回结果

然后继续循环，直到任务完成。

ReAct 的本质

不是“一次性规划”，而是：

边思考，边行动，边修正

适合：

信息不完整任务

需要多步工具调用

动态决策场景

2. 其他常见 Agent 工作模式

(1) Chain of Thought（CoT）

特点：

纯推理

不调用工具

展示中间思考步骤

适合：

数学 / 逻辑问题

单轮复杂推理

(2) Plan-and-Execute

流程：

先完整生成计划

再逐步执行

特点：

结构清晰

可控性强

适合长任务

缺点：

计划可能不准确

执行中不灵活

(3) Self-Ask

特点：

模型主动拆解问题

自问自答

强化分解能力

适合：

多跳推理（multi-hop reasoning）

3. 理解 Agent 的三种视角

视角一：Agent 是“员工”


你（老板）：「帮我准备明天的演讲PPT」

Agent（员工）：
理解需求（演讲主题、目标听众）
搜索资料（行业数据、案例）
设计大纲（结构规划）
制作PPT（使用工具）
审核优化（自我检查）
交付成果（PPT文件）

接收任务

拆解工作

使用工具

交付结果

强调任务执行角色。

视角二：Agent 是“循环系统”


输入 → [感知 → 思考 → 决策 → 行动 → 观察] → 输出
         ↑_______________________________|
              反馈循环

强调动态决策过程。

视角三：Agent 是“大脑 + 工具”


大脑（LLM）：
    理解语言
    推理规划
    生成文本

↕ 通信

工具箱：
    搜索引擎
    计算器
    API接口
    数据库。

LLM = 大脑

Tools = 能力扩展

强调能力组合结构。

Agent 构建中的典型难点

1. 无限循环 / 任务卡死

问题：

Agent 不断重复步骤

无法终止

原因：

停止条件不清晰

推理失控

解决：

最大步数限制

明确终止规则

状态检测机制

2. 工具选择错误

问题：

调错工具

调用顺序不合理

原因：

工具描述不清

决策逻辑弱

解决：

清晰工具 schema

Tool routing 策略

强化提示设计

3. 上下文窗口溢出

问题：

Token 超限

历史信息丢失

解决：

Memory 压缩

摘要机制

向量数据库

4. 错误处理与鲁棒性

问题：

API 失败

工具报错

返回异常数据

解决：

Retry 机制

Fallback 策略

异常检测

5. 成本控制

问题：

多轮推理耗费 tokens

工具调用频繁

解决：

限制推理深度

模型分级使用

Cache 机制

多 Agent 协同系统

为什么需要多 Agent？

当任务：

复杂

多角色

多技能分工

例如：

研究员 + 分析员 + 执行员

常见协作结构

1. Hierarchical（层级式）

管理 Agent

执行 Agent

类似组织结构。

2. Collaborative（平行协作）

多个 Agent 同级协作。

3. Pipeline（流水线）

任务顺序传递：

Agent A → Agent B → Agent C

多 Agent 关键挑战

通信开销

消息多

延迟高

死锁 / 循环依赖

相互等待

系统停滞

结果冲突

决策不一致

解决：

仲裁 Agent

优先级规则

主流 Agent 开发框架（概念理解）

LangChain

模块化

适合快速搭建 Agent / RAG

AutoGen

多 Agent 协同

强调对话驱动任务

CrewAI

角色扮演式 Agent

强调团队协作逻辑

Dify

可视化平台

低代码构建 Agent / Workflow