概要
2025年10月,Google 高级工程总监Antonio Gullí出版了新书《Agentic Design Patterns: A Hands-On Guide to Building Intelligent Systems》(《智能体设计模式:构建智能系统的实践指南》),首次将智能体的核心设计经验抽象为21 种可复用的模式(Design Patterns),并以4 个层级(Parts)展示了一个从控制、认知、安全到治理的完整体系。
21种设计模式
1构建与控制层(Construction & Control)
1.1提示链模式(Prompt Chaining Pattern)
把任务人工拆分成多个提示词,逐步提交给LLM。把前面LLM输出的结果和提示词,输入到后面的LLM中,循环提交,直到全部处理完毕。
1.2路由模式(Routing Pattern)
路由模式的核心在于评估与决策机制,即判断请求类型并确定执行路径。常见的实现方式包括:
大模型路由(LLM-based Routing):通过提示词引导语言模型分析输入并输出特定的分类标识或指令,以指示下一步的执行目标。
向量路由(Embedding-based Routing):将输入查询转换为向量嵌入,然后与代表不同路由或能力的嵌入向量进行比较,将查询路由到嵌入相似度最高的路径。此方法适用于语义路由场景,其决策基于输入的语义含义而非仅仅关键词匹配。
规则路由(Rule-based Routing):基于关键词、模式或从输入中提取的结构化数据,使用预定义规则或逻辑(如 if-else 语句、switch 语句)进行决策。此方法比大模型路由更快速且具有确定性,但在处理复杂语境或新颖输入时灵活性较低。
机器学习路由(Machine Learning Model-Based Routing):采用判别式模型(如分类器),该模型在少量标注数据上经过专门训练以执行路由任务。虽然在概念上与向量路由方法有相似之处,但其关键特征在于监督微调过程,通过调整模型参数来创建专门的路由功能。此技术与大模型路由的区别在于,其决策组件并非在推理时执行提示词的生成式模型,而是将路由逻辑编码在微调后模型的学习权重中。虽然在预处理阶段可能使用大语言模型生成合成数据以扩充训练集,但实时路由决策本身并不涉及大模型。
1.3并行模式(Parallelization Pattern)
并行化模式指的是在任务可分解的情况下,同时并发执行多个子任务,以缩短整体响应时间或提高鲁棒性。典型应用如多候选回答生成、检索多来源信息、并行评估多种方案。此模式需保证子任务的幂等性和结果可聚合性。常见风险是资源争用、竞争状态和异步回调管理困难,因此通常与任务队列或分布式框架配合使用,以平衡性能与稳定性。
1.4反思模式(ReflectionPattern)
反思模式是指智能体评估自己的工作、输出和内部状态,并利用评估结果改进性能和优化响应。这是一种自我纠正或自我改进的形式。通过这种形式,智能体可以根据反馈、内部剖析及与期望标准的比较,来不断地优化输出、调整方法。反思有时也可由独立的智能体来承担,其职责是专门分析初始智能体的输出。
反思模式与简单顺序链或路由模式有着本质区别。前者只是将输出直接传给下一步,或是在不同路径中做出选择;而反思模式则引入了反馈循环。在这种模式下,智能体并非简单地产出结果就结束了。它会回过头来审视自己的输出(或其生成过程),找出潜在的问题和改进空间,并依据这些洞察生成更优的版本,或是修正其后续的行动策略。
1.5工具使用模式(Tool UsePattern)
工具使用模式指的是让智能体通过调用外部函数、API、数据库或执行脚本来扩展自身能力。它体现了“模型调用外部世界”的核心思想,是现代Agent框架(如LangChain、ADK、CrewAI)的基础。该模式强调函数接口的清晰定义、安全沙箱与权限隔离。实践中常见风险是模型误用工具或执行越权操作,因此应配合权限控制与调用日志,实现工具级别的安全审计。
工具调用的过程通常包括以下几个步骤:
工具定义:向大语言模型定义并描述外部函数或功能,包括函数的用途、名称、可接受的参数及其类型和说明。
大语言模型决策:大语言模型接收用户的请求和可用的工具定义,并根据对两者的理解判断是否需要调用一个或多个工具来完成请求。
生成函数调用:如果大语言模型决定使用工具,它会生成结构化输出(通常是 JSON 对象),指明要调用的工具名称以及从用户请求中提取的参数。
工具执行:智能体框架或编排层捕获这个结构化输出,识别要调用的工具,并根据给定参数执行相应的外部函数。
观察/结果:工具执行的输出或结果返回给智能体。
大语言模型处理(可选,但很常见):大语言模型接收工具的输出作为上下文,并用它来生成对用户的最终回复,或决定工作流的下一步(可能涉及调用另一个工具、进行反思或提供最终答案)。
1.6规划模式(Planning Pattern)
规划模式指的是智能体在执行任务前先生成详细计划,包括目标分解、执行顺序与资源分配,再逐步执行。这与“即兴生成”不同,强调“先思考,后行动”。它适用于多步骤任务(如项目管理、游戏AI、长文写作)。通常规划输出包括目标树和行动清单。难点在于计划的可执行性与动态更新,实践中常结合反馈回路与计划修正机制(Replan)以确保执行闭环。
1.7多智能体协作模式(Multi-Agent Collaboration Pattern)
多智能体协作模式指的是多个具有不同角色或能力的智能体协作完成复杂任务。它通过分工、对话和仲裁形成“群体智能”。常见架构包括协调者—执行者模式(Coordinator-Worker)和评审式结构(Debate Agent)。优势是可以集成不同能力模型,但挑战在于通信协议设计、冲突解决与性能控制。实践中需定义清晰的任务边界和停机条件,防止循环协作和语义漂移。
2认知与自适应层(Cognition & Adaptation)
2.1记忆管理模式(Memory ManagementPattern)
记忆管理模式指的是在智能体中建立对历史对话、事实知识和情景信息的存储、检索与更新机制,使其具备“长期记忆”与“情境理解”。典型实现包括短期缓存、向量数据库、语义检索与记忆衰减策略。它可提升个性化和连续性体验,但若管理不当会引发记忆污染或隐私泄露。工程上通常使用多层记忆架构(短期、长期、情境)来平衡容量与时效性。
2.2学习与适应模式(Learning & Adaptation Pattern)
学习与适应模式指的是让智能体根据用户反馈或环境变化动态调整参数、策略或行为。实现方式包括强化学习、偏好微调(RLHF / DPO)或规则层面的自适应调优。它能显著提升智能体的个性化和长期性能,但也带来概念漂移和安全风险。实际工程中,常通过在线学习与离线验证结合,确保模型在可控范围内演化。
2.3模型上下文协议模式(Model Context Protocol, MCP Pattern)
MCP模式指的是用统一协议标准化智能体可访问的外部资源、工具与上下文接口,从而在多模型、多工具环境中实现互操作性。它定义了工具注册、发现与调用的通用方式,使智能体能自动理解“我能用什么”。该模式由OpenAI、Google、Anthropic等共同推动,旨在解决“Agent生态割裂”问题。对于企业应用,它也是合规治理与权限隔离的重要基础。
2.4目标设定与监控模式(Goal Setting & MonitoringPattern)
目标设定与监控模式指的是将智能体任务抽象为一系列可测量目标(如OKR),并持续跟踪执行进度。它帮助模型理解“任务何时完成”与“达标标准”。该模式常与规划和反思结合使用,通过日志与指标闭环形成自监督体系。工程实践中,关键在于定义可度量目标(SMART原则)与异常报警机制,防止任务“无目标漂移”。
3健壮性与对齐层(Reliability & Alignment)
3.1异常处理与自愈模式(Exception Handling & RecoveryPattern)
异常处理与自愈模式指的是当智能体在执行过程中遇到错误、超时或模型故障时,能够识别异常类型并采取补救策略,如重试、降级或任务切换。它是智能体系统可靠性的核心。常见实现包括状态机控制、幂等重放与断点恢复。需要特别注意避免“重试风暴”,因此应设计退避算法与最大重试次数,并记录异常元数据用于后续分析。
3.2人类在环模式(Human-in-the-LoopPattern)
人类在环模式指的是在智能体执行关键步骤时引入人工干预、审核或仲裁,以确保结果符合伦理、安全与业务规范。它常用于高风险决策、内容生成、敏感信息处理等领域。实现上通常包含三类:前置审批、实时仲裁与抽样复审。此模式的关键在于设计高效的人工交互界面与最小必要干预原则,以在安全与效率之间取得平衡。
3.3检索增强生成模式(Retrieval-Augmented Generation Pattern)
RAG模式指的是在生成过程中将外部知识检索结果动态注入模型上下文,从而增强事实准确性与时效性。它结合了信息检索与自然语言生成的优点,广泛用于企业知识问答与文档总结。核心流程包括检索、重排序、过滤与融合。需注意语义漂移与引用错误问题,因此应通过文档溯源与引用验证机制确保输出可靠。
4扩展与治理层(Scaling & Governance)
4.1智能体间通信模式(Inter-Agent CommunicationPattern,A2A)
智能体间通信模式指的是为多个智能体之间建立消息传递、会话管理与协同决策机制,使其能共享信息、协调行动。通信可以是显式(自然语言)或结构化(JSON、Graph协议)。典型架构如议会制Agent或协作型规划Agent。难点在于防止信息回路和冗余沟通,需通过唯一ID、对话线程与议程机制维持一致性与效率。
A2A 是一种补充 Anthropic 提出的模型上下文协议(MCP,Model Context Protocol)的协议。MCP 的重点在于为智能体及其与外部数据和工具的交互提供结构化的上下文,而 A2A 则用于促进智能体之间的协调与通信,从而实现任务委派与协作。
4.2资源感知优化模式(Resource-Aware Optimization Pattern)
资源感知优化模式指的是让智能体根据当前的计算、时间或成本约束,动态选择合适的模型、并发度和推理策略。例如低成本任务走小模型,高价值任务走大模型复核。该模式体现了“AI成本治理”理念,广泛应用于企业级服务。要点是建立SLA驱动的决策表和预算控制逻辑,防止因优化过度而牺牲输出质量。
4.3推理技巧模式(Reasoning Techniques Pattern)
推理技巧模式指的是利用思维链(CoT)、树状思维(Tree of Thought)、自一致性(Self-Consistency)等显式推理策略来提升模型在复杂任务中的逻辑可靠性。该模式强调将“隐式推理”显性化,以增强模型可解释性与鲁棒性。工程实践中常结合奖励模型或多样化采样来筛选最优答案,但需权衡计算成本与推理深度。
4.4护栏与安全模式(Guardrails / Safety Pattern)
护栏与安全模式指的是在智能体输入、输出及工具调用阶段设置风险检测与内容过滤机制,以防止违规、泄露或攻击行为。护栏可分为前置过滤(输入风险检测)与后置检测(输出安全审查),也包括敏感问题安全代答机制。该模式是合规与可控的关键支撑。要点是多层检测、解释性记录与策略可配置化,防止过度限制影响可用性。
4.5评测与监控模式(Evaluation & Monitoring Pattern)
评测与监控模式指的是对智能体的行为、性能和安全性进行持续监测与量化评估,确保系统在演化过程中保持可控与可解释。常见指标包括任务成功率、响应延迟、成本、人工介入率、越权率等。此模式既可离线(benchmark)也可在线(实时监控)运行,是MLOps与AIOps结合的重要环节。需避免单指标优化而忽略整体表现。
4.6优先级与调度模式(Prioritization Pattern)
优先级与调度模式指的是当系统同时接收多个任务时,基于任务的重要性、时效性或价值分配资源与执行顺序。它确保关键任务优先、普通任务延迟或批处理。工程上常用动态队列、权重分配或背压控制来实现。此模式在多用户多请求场景下至关重要,可防止资源饥饿与不公平,但也需平衡公平性与响应延迟。
4.7探索与发现模式(Exploration & Discovery Pattern)
探索与发现模式指的是允许智能体在安全边界内尝试新的策略、提示或工具调用路径,以优化性能或发现潜在能力。其思想类似强化学习中的“探索-利用平衡”,通过受控试验推动系统自我进化。常见实现包括多臂老虎机算法或贝叶斯优化。需注意探索行为的可控性与数据安全,防止越界试验或错误学习积累。