我给你极简、好懂、抓本质,专门把最容易混淆的点全部掰开讲清,学完 Agent 就彻底结业,明天直接开 LLMOps 新课。
一、先总览:你已经学完的 Agent 五大模块
- Agent 基础概念
- ReAct 思考行动框架
- Agent 工具调用
- 短时记忆 & 长时记忆
- 多 Agent 分工协作
全部通关,接下来只做易混辨析 + 总结收口。
二、最容易混淆的核心概念 逐个掰明白
1. 普通大模型 VS Agent
- 普通大模型:只会聊天、只会用训练好的旧知识,不会主动思考、不会调用工具、没记忆、不会做任务规划。
- Agent:在大模型基础上,加了ReAct 思考、工具调用、记忆、任务拆解,能主动干活、联网、查库、记你喜好、做复杂任务。
一句话:大模型是大脑,Agent 是会干活、会思考、会用工具的完整智能体。
2. ReAct 到底是干嘛的?
不是随便的聊天逻辑,是 Agent 的思考标准流程:先思考 → 再决策 → 再行动 → 再整理答案没有 ReAct,Agent 就不会自主判断、容易瞎编幻觉。
3. 工具调用 到底和 RAG 有啥区别?
- RAG:只查私有知识库、内部文档
- 工具调用:范围更大,包含三类联网搜索 + 查库 / RAG + 代码执行👉RAG 只是工具调用的其中一种子集
4. 短时记忆 VS 长时记忆(再巩固一遍)
- 短时:当前会话上下文,关窗口就忘 = sessionStorage
- 长时:跨会话、隔天还能记,存向量库 = localStorage多轮聊天不关窗口,依然是短时记忆,不是长时
5. 单 Agent VS 多 Agent
- 单 Agent:一人全包,全栈单打,复杂任务容易乱、不专业
- 多 Agent:分工流水线,专人专岗,像前后端分离、微服务复杂任务一定用多 Agent 更稳。
三、Agent 完整工作全流程(面试必背)
用户提问 → ReAct 思考推理 → 判断是否需要工具 →调用对应工具(联网 / 查库 / 代码)→ 获取结果 →依托短时记忆保持上下文 → 长时记忆沉淀用户偏好 →整理输出最终答案
整条链路闭环,就是标准 Agent 运行逻辑。
四、Agent 能干什么(面试常问)
- 突破大模型知识时效限制,查实时信息
- 能算题、跑代码、做数据分析
- 能记住对话上下文和长期用户偏好
- 能拆解复杂任务、多 Agent 分工协作
- 大幅减少大模型幻觉