【Agent 应用时代已至】
自本轮大模型技术爆发,Agent 获广泛关注。2026 年后,伴随 OpenClaw 爆火,Agent 破圈进入大众视野。以往 Agent 多用于 Demo 或定制场景,如今 Agent Skills 等技术成熟,Agent 可处理更多实际场景,其应用形态时代可能即将到来。
【Agent 应用的断代性差异——非确定性】
在 Agent 应用出现前,单机应用和云原生微服务应用,其面向应用的计算机程序由人开发,逻辑有很强确定性。但 Agent 时代,其运行逻辑由大模型生成,输出无法准确预测,完全是非确定性的。然而现有的大量基础设施是面向确定性应用打造的,不能很好满足 Agent 应用运行要求,这可能是制约 Agent 走向企业级大规模应用的障碍,也是基础设施领域研发人员的技术创新机会。
【Agent 的非确定性带来的独特运行特征和挑战】
【高动态——Agent 逻辑完全动态不确定无法事先预知】
传统应用是人面向特定业务场景开发,绝大多数情况下是静态不变的,开发运维人员可准确预判执行情况。以云原生微服务为例,微服务实例处理逻辑相同,可通过 K8s 部署多个容器实例支持企业级应用。但 Agent 时代,其执行逻辑由大模型驱动,面对用户自然语言提问,大模型输出不同,驱动 Agent 调用不同外部工具、执行动态生成代码,对每个请求处理过程可能完全不同。比如简单请求执行快、资源需求少,复杂请求需多轮交互等,还可能拉起新子 Agent,运维人员无法预计请求执行过程。以往应用是简单静态的,Agent 应用是复杂动态的,这带来如何分配 Agent 应用资源的问题,以往容器微服务时代可凭经验配置资源,而 Agent 应用时代难以估计资源需求,分配少可能出错,分配大则浪费资源。
【不安全——工具和 AI 生成代码不可信】
Agent 执行逻辑可能不安全,运行中执行大模型生成代码或调用外部工具可能带来安全风险,传统容器隔离性低,运行恶意代码可能出现容器逃逸等问题。一种办法是用更安全的容器或虚拟机代替传统容器,但仍可能存在隐私信息被窃取的风险。更合理的做法是将有风险的代码或工具调用按需动态调度到另一个干净的安全容器或虚拟机运行,与 Agent 本体隔离,但这要求基础设施具备任务级的动态调度执行能力,传统 K8s 容器微服务技术体系不具备。
【长会话——长时运行如何保证会话状态一致】
云原生微服务提倡无状态微服务,很多应用业务逻辑简单,请求处理无状态。但 Agent 天然要求有状态,多轮对话场景需同一 Agent 实例处理保证上下文一致。同时,Agent 处理复杂任务,执行过程长且有大量外部工具调用,生产环境中实例故障时,简单重新拉起实例重新执行请求,可能因 Agent 执行逻辑不确定性导致错误执行结果。例如订票 Agent 故障后重新处理请求可能造成业务损失,而企业生产环境中机器故障不可避免。
【Agent 时代需要怎样的分布式基础设施】
K8s 等传统分布式基础设施擅长将集群资源以容器方式管理并分配给应用,但不关心容器内应用逻辑和资源利用情况,资源分配由用户负责。这在云原生微服务时代没问题,但在 Agent 时代遇到挑战。Agent 时代需要更灵活强大的分布式系统,能让 Agent 在长时运行中维持会话状态,动态拉起子任务,支持上下文数据共享传递,按实际需求高效利用集群资源。这类似单机 OS 上程序的运行方式,只是 Agent 需运行在集群上,所以需要具备类似单机 OS 能力的集群分布式系统,且要支持故障自动恢复和状态一致。那么,当前业界有满足 Agent 运行需求的分布式系统吗?
【业界相关工作】
【openYuanrong】
最匹配的开源系统是 openYuanrong。其核心设计理念是构建类单机 OS 的分布式内核,支持各类分布式应用负载,适合解决 Agent 场景问题。它支持 Agent 高动态,可天然支持 Agent 实例自动弹性,采用 Serverless 自动弹性技术,能根据请求数量动态调整实例数目,还有垂直弹性能力,可按实际需求调整容器规格,消除资源配置困扰,并有动态调度能力支持拉起子任务。它解决 Agent 不安全问题,支持多租户和安全隔离,可将有风险代码调度到独立安全容器运行,与 Agent 本体隔离。它支持 Agent 长会话,支持有状态实例调度和长时运行,满足 Agent 状态访问需求,支持会话上下文亲和的请求路由,确保上下文一致,还可通过数据系统支持状态备份,实现断点续执行。此外,它还提供异构算力支持等能力。
【Ray】
Ray 具备成熟的任务级动态分布式调度能力,可匹配 Agent 动态拉起子任务需求,其 Actor 有状态,可满足 Agent 长时有状态运行要求。但 Ray 此前多用于离线分布式计算场景,支持在线服务类应用需在请求接入等方面做工作,且在安全隔离、多租、弹性等方面有欠缺,难以解决 Agent 安全性和资源高效利用问题,不适合直接支持企业级大规模 Agent 在线应用。
【Anthropic Managed Agents】
Anthropic 关于 Managed Agents 的文章提出 Session、Sandbox 等新概念,并将其解耦以满足容错、安全等考虑。其将 Sandbox 剥离出 Harness 等想法与本文观点契合,但文章未详述实现情况和方法。
【总结与展望】
Agent 颠覆传统应用形态,带来非确定性,其高动态、不安全、长会话特征挑战传统 K8s 容器微服务技术体系,要求更灵活强大的分布式系统。幸运的是,业界有 openYuanrong 等开源系统可匹配 Agent 应用诉求。大部分企业还停留在云原生微服务应用时代,缺乏 Agent 大规模应用实践,但 Agent 应用可能短时间内爆发,企业需尽早储备相关技术,构建适合自身的 Agent 分布式基础设施。
【作者介绍】
梁义 ,华为通用 Serverless 首席专家,华为元戎首席架构师,openYuanrong Maintainer,博士毕业于浙江大学计算机学院,曾任职于 Ask.com、同花顺、阿里巴巴、蚂蚁集团等公司,长期从事分布式系统方向工作,涵盖搜索推荐、大数据、实时计算、在线机器学习、分布式计算、 Serverless、AI Infra 等领域,目前专注于构建统一支持包括 AI 在内各类分布式场景的通用 Serverless 分布式计算引擎 openYuanrong。