AI Agent 智能体入门介绍
什么是 AI Agent
AI Agent(智能体)是一种能够自主感知环境、做出决策并执行动作以实现目标的系统。在 LLM 时代,AI Agent 通常指由大语言模型 驱动、能够使用外部工具、完成多步骤任务的智能应用程序。
与传统的「单次问答」不同,Agent 具备:
- 自主性:根据目标自主规划步骤
- 工具使用:调用 API、查询数据库、执行代码等
- 多步推理:通过 ReAct(推理+行动)等范式迭代完成任务
- 协作能力:多 Agent 之间可通过 A2A、MCP 等协议协作
为什么需要 Agent
LLM 本身擅长文本生成,但存在局限:
- 知识时效性:无法访问最新数据
- 计算能力:不能直接执行数学运算、代码
- 外部系统:无法直接操作数据库、API
- 复杂任务:多步骤任务需要规划与执行循环
Agent 通过 Function Calling / Tool Use 让 LLM 获得「手和脚」,能够:
- 查询实时信息(天气、股票、搜索)
- 操作外部系统(发邮件、更新数据库)
- 执行多步任务(研究报告、代码调试)
- 与其他 Agent 协作完成复杂目标
Agent 核心范式
1. ReAct(推理 + 行动)
ReAct 是最流行的 Agent 范式之一:模型交替进行「思考」和「行动」。
- Thought:分析当前状态,决定下一步
- Action:调用工具执行操作
- Observation:观察工具返回结果
- 循环直至得出最终答案
2. Tool Use / Function Calling
LLM 通过结构化输出声明要调用的函数及参数,由应用程序执行后把结果返回给模型,模型再决定后续动作。
3. 多 Agent 协作
多个专职 Agent 分工合作,通过 A2A 协议、MCP 等实现任务拆分与结果汇总。
Agent 与协议的关系
| 协议/标准 | 作用说明 |
|---|---|
| MCP | 标准化工具定义与调用,扩展模型上下文 |
| A2A | Agent 之间的通信与协作协议 |
| Agent Skills | 技能定义、注册与共享 |
| AG-UI | Agent 与用户界面的交互标准 |
Agent 是「范式」,这些协议是「实现方式」——学习 Agent 有助于理解为何需要 MCP、A2A 等协议。
主流框架与平台
| 框架/平台 | 特点 |
|---|---|
| LangChain | 链、Agent、工具集成完善 |
| LlamaIndex | 数据连接、RAG、Agent 工作流 |
| CrewAI | 多 Agent 协作、角色设定 |
| AutoGen | 微软多 Agent 对话框架 |
| Dify | 低代码 Agent 编排平台 |
典型应用场景
- 智能客服:查订单、退换货、知识库问答
- 研究助手:文献检索、数据汇总、报告生成
- 代码助手:读代码、跑测试、改 Bug
- 自动化工作流:日程安排、邮件处理、报表生成
深入学习
想全面了解 AI Agent 的架构、ReAct 与 Tool Use 实现、多 Agent 协作及与 MCP/A2A 的集成?请查看 AI Agent 智能体深度解析。
该文档涵盖:
- 核心范式详解(ReAct、Tool Use、CoT)
- 主流框架对比(CrewAI、AutoGen、LangChain)
- 与 MCP、A2A 的集成实践
- 最佳实践与常见问题