AI agent
AI agent

AI agent

  • 你:「帮我规划一次周末去京都的旅行,预算5000元」
  • Agent:(自动搜索机票价格)→(比较酒店并筛选)→(规划每日行程)→(计算预算)
  • Agent:「已为您完成规划!往返机票1800元,住宿2晚1200元,包含清水寺、金阁寺等5个景点的详细行程,总预算4800元。[查看完整计划.pdf]」
这就是最本质的区别:ChatGPT给建议,Agent帮你干活
notion image

Agent 基础

1. 什么是 Agent?

Agent 可以理解为:
在大语言模型(LLM)基础上,具备自主决策与行动能力的系统。
Agent = LLM(大脑) + 工具(手脚) + 记忆(经验) + 规划(智慧)
与传统对话模型不同:
  • 普通 LLM:输入 → 输出(一次性响应)
  • Agent:目标 → 推理 → 规划 → 执行 → 反馈
Agent 不只是“回答问题”,而是完成任务
 

2. Agent 与 ChatGPT 的本质区别

ChatGPT 类系统主要是:
  • 被动响应
  • 单轮或短链路生成
  • 不直接执行动作
Agent 系统则强调:
  • 多步决策(multi-step reasoning)
  • 可调用工具(tool usage)
  • 可持续状态(memory/state)
  • 面向任务而非单次回答
一句话概括:
Agent = LLM + 决策机制 + 执行能力

3. Agent 的核心能力

层级
作用
感知层(Perception)
接收输入
认知层(Cognition)
推理与决策
执行层(Execution)
调用工具与动作
记忆层(Memory)
存储状态
一个完整 Agent 通常具备四种能力:

第一层:感知层(Perception Layer)

核心作用:
接收外部信息,并转换为模型可处理的输入。
主要任务:
  • 接收用户指令(Prompt)
  • 接收环境信号(数据 / API / 文档)
  • 解析输入格式
典型组件:
  • 用户输入
  • 输入解析器
  • LLM 的语言理解能力
本质理解:
感知层解决的是“Agent 看到了什么?”
类比:
像人的耳朵和眼睛,负责获取信息,而不负责思考。

第二层:认知层(Cognition Layer)

核心作用:
对输入进行理解、分析、推理与决策。
主要任务:
  • 理解任务目标
  • 推理当前状态
  • 制定计划(Planning)
  • 决定是否调用工具
典型组件:
  • LLM(推理核心)
  • Planning 模块
  • Reasoning Engine
本质理解:
认知层解决的是“Agent 如何思考?”
类比:
像人的大脑,负责决策与判断。

第三层:执行层(Execution Layer)

核心作用:
将认知层的决策转化为具体行动。
主要任务:
  • 调用外部工具(Tools)
  • 执行代码
  • 查询数据库
  • 调用 API
  • 与系统交互
典型组件:
  • Tool 调用接口
  • API Connector
  • Code Executor
本质理解:
执行层解决的是“Agent 如何行动?”
类比:
像人的手和脚,把想法变成动作。

第四层:记忆层(Memory Layer)

核心作用:
保存与管理状态,使 Agent 具备连续性。
主要任务:
  • 存储对话历史
  • 记录任务进展
  • 保存长期知识
  • 支持上下文检索
典型组件:
  • Short-term Memory(上下文)
  • Long-term Memory(向量库 / DB)
  • 状态管理模块
本质理解:
记忆层解决的是“Agent 记得什么?”
类比:
像人的记忆系统,保证不会“每轮失忆”。

4. Agent 的关键组成模块

notion image

1. LLM(大语言模型 / Brain)

作用:
  • 理解用户意图
  • 推理与决策
  • 选择下一步动作
  • 生成输出
本质:
负责“思考”。
关键点:
  • temperature↓ → 输出更稳定
  • LLM 能推理,但不能直接执行现实动作

2. Planning(规划模块)

作用:
  • 拆解复杂任务
  • 决定执行顺序
  • 控制推理路径
为什么需要:
  • 减少重复推理
  • 避免步骤遗漏
  • 降低 Token 浪费
典型模式:
  • ReAct:边想边做(灵活,成本高)
    • notion image
  • Plan-and-Execute:先计划后执行(高效,灵活性低)
    • notion image
 

3. Memory(记忆模块)

notion image
作用:
  • 保存上下文
  • 维持状态连续性
类型:
  • 短期记忆:当前对话 / 任务
  • 长期记忆:用户信息 / 经验 / 知识
关键问题:
  • Token 限制
  • 成本累积
解决:
  • 摘要记忆
  • 向量数据库检索

4. Tools(工具模块)

作用:
  • 执行具体动作
  • 扩展 Agent 能力边界
常见能力:
  • 搜索
  • Python 计算
  • 数据库查询
  • API 调用
关键设计原则:
  • Name 清晰
  • Description 精确
  • 必须有错误处理

5. Agent 的数据流逻辑

典型流程:
  1. 接收输入(目标/问题)
  1. LLM 理解与推理
  1. Planning 拆解任务
  1. Execution 调用工具
  1. Memory 更新状态
  1. 输出结果

6. 为什么 Agent 被认为是重要方向?

因为它将 AI 从:
“文本生成系统” → “任务执行系统”
扩展为:
  • 可行动
  • 可决策
  • 可集成外部世界
  • 可模拟人类工作流

Agent 的工作原理与模式

1. ReAct 框架是什么?

notion image
ReAct = Reasoning + Acting
核心思想:
Agent 在解决任务时交替进行:
  1. Reasoning(推理)
    1. 分析当前情况,决定下一步做什么
  1. Acting(行动)
    1. 调用工具 / 执行操作
  1. Observation(观察)
    1. 接收工具返回结果
然后继续循环,直到任务完成。

ReAct 的本质

不是“一次性规划”,而是:
边思考,边行动,边修正
适合:
  • 信息不完整任务
  • 需要多步工具调用
  • 动态决策场景

2. 其他常见 Agent 工作模式

(1) Chain of Thought(CoT)

notion image
特点:
  • 纯推理
  • 不调用工具
  • 展示中间思考步骤
适合:
  • 数学 / 逻辑问题
  • 单轮复杂推理

(2) Plan-and-Execute

notion image
流程:
  1. 先完整生成计划
  1. 再逐步执行
特点:
  • 结构清晰
  • 可控性强
  • 适合长任务
缺点:
  • 计划可能不准确
  • 执行中不灵活

(3) Self-Ask

notion image
特点:
  • 模型主动拆解问题
  • 自问自答
  • 强化分解能力
适合:
  • 多跳推理(multi-hop reasoning)

3. 理解 Agent 的三种视角

视角一:Agent 是“员工”

你(老板):「帮我准备明天的演讲PPT」 Agent(员工): 理解需求(演讲主题、目标听众) 搜索资料(行业数据、案例) 设计大纲(结构规划) 制作PPT(使用工具) 审核优化(自我检查) 交付成果(PPT文件)
  • 接收任务
  • 拆解工作
  • 使用工具
  • 交付结果
强调任务执行角色。

视角二:Agent 是“循环系统”

输入 → [感知 → 思考 → 决策 → 行动 → 观察] → 输出 ↑_______________________________| 反馈循环
强调动态决策过程。

视角三:Agent 是“大脑 + 工具”

大脑(LLM): 理解语言 推理规划 生成文本 ↕ 通信 工具箱: 搜索引擎 计算器 API接口 数据库。
  • LLM = 大脑
  • Tools = 能力扩展
强调能力组合结构。

Agent 构建中的典型难点

1. 无限循环 / 任务卡死

问题:
  • Agent 不断重复步骤
  • 无法终止
原因:
  • 停止条件不清晰
  • 推理失控
解决:
  • 最大步数限制
  • 明确终止规则
  • 状态检测机制

2. 工具选择错误

问题:
  • 调错工具
  • 调用顺序不合理
原因:
  • 工具描述不清
  • 决策逻辑弱
解决:
  • 清晰工具 schema
  • Tool routing 策略
  • 强化提示设计

3. 上下文窗口溢出

问题:
  • Token 超限
  • 历史信息丢失
解决:
  • Memory 压缩
  • 摘要机制
  • 向量数据库

4. 错误处理与鲁棒性

问题:
  • API 失败
  • 工具报错
  • 返回异常数据
解决:
  • Retry 机制
  • Fallback 策略
  • 异常检测

5. 成本控制

问题:
  • 多轮推理耗费 tokens
  • 工具调用频繁
解决:
  • 限制推理深度
  • 模型分级使用
  • Cache 机制

多 Agent 协同系统

为什么需要多 Agent?

当任务:
  • 复杂
  • 多角色
  • 多技能分工
例如:
研究员 + 分析员 + 执行员

常见协作结构

1. Hierarchical(层级式)

  • 管理 Agent
  • 执行 Agent
类似组织结构。

2. Collaborative(平行协作)

多个 Agent 同级协作。

3. Pipeline(流水线)

任务顺序传递:
Agent A → Agent B → Agent C

多 Agent 关键挑战

通信开销

  • 消息多
  • 延迟高

死锁 / 循环依赖

  • 相互等待
  • 系统停滞

结果冲突

  • 决策不一致
解决:
  • 仲裁 Agent
  • 优先级规则

主流 Agent 开发框架(概念理解)

LangChain

  • 模块化
  • 适合快速搭建 Agent / RAG

AutoGen

  • 多 Agent 协同
  • 强调对话驱动任务

CrewAI

  • 角色扮演式 Agent
  • 强调团队协作逻辑

Dify

  • 可视化平台
  • 低代码构建 Agent / Workflow