1.4 Agent的眼睛耳朵 语言与多模态怎么喂信息
2026/7/2 4:19:09 网站建设 项目流程

1.4 Agent 的「眼睛耳朵」:语言 + 多模态怎么喂信息

本节学习目标

  • 理解 Agent 如何通过「感知」获取环境信息,并区分不同感知渠道。
  • 掌握文本、语音、图像等多模态输入在 Agent 中的角色与常见用法。
  • 能设计「把环境信息整理成模型可用的输入」的简单方案。

一、感知在 Agent 中的位置

Agent 的闭环是「目标 → 感知 → 决策 → 行动 → 环境变化 → 再感知」。感知负责把「当前环境」变成大脑(LLM)能用的输入,包括:用户说了什么、历史对话、工具返回结果、当前时间、位置、以及图片/语音等。感知质量直接决定决策质量:信息不全或噪声大,模型容易误判或重复无效动作。

大脑 LLM

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询