AI智能体运行时正走向 commoditization:从自研沙箱到托管服务的工程范式迁移
2026/7/4 22:24:42 网站建设 项目流程

1. 这不是新赛道,而是 runtime 层的“操作系统时刻”正在重演

你打开手机看到新闻标题《Anthropic Just Shipped the Layer That’s Already Going to Zero》,第一反应可能是:又一个大模型公司搞出了什么黑科技?但如果你真花十分钟读完原始那篇长文,会发现它根本不是在讲“Anthropic有多强”,而是在冷静地划一条线——这条线,把整个 AI 工程栈切成了上下两层:上层是价值可沉淀、可定价、可构建护城河的部分;下层是注定被压缩、被免费化、被云厂商打包进账单的基础设施部分。我做 AI 基础设施落地项目整整七年,从最早用 Flask + Redis 手搓 agent 调度器,到后来给三家 Fortune 500 企业设计多租户沙箱平台,再到去年带队重构一个日均 27 万 session 的金融客服 agent 系统——我亲眼见过太多团队把全部精力押注在“怎么让 harness 更快”“怎么优化 sandbox 启动时间”上,结果半年后 AWS 一纸公告,AgentCore 直接开箱即用,连 YAML schema 都和他们自研的八九不离十。这不是技术失败,是战略误判。Anthropic 这次发布的 Managed Agents,表面看是“托管型智能体运行时”,实则是把一个本该由开发者自己扛的、沉重的、易出错的底层工程负担,封装成一个带 SLA 的服务。它解决的不是“能不能跑 agent”,而是“要不要为 agent 的生命周期管理、状态持久化、凭证隔离、可观测性这些脏活累活付工资”。关键词里那个 “Towards AI - Medium” 不是随便写的——这篇文章的语境,是写给真正每天在生产环境里 debug agent session timeout、排查 credential leak、重放失败 trace 的工程师看的,不是给投资人讲 PPT 的。它说的“layer going to zero”,指的就是 runtime 这一层:当 AWS、GCP、Azure 都把 agent runtime 当作云资源调度的自然延伸(就像当年把虚拟机当作计算单元一样),当开源项目 Daytona 和 Kubernetes SIG 的 agent-sandbox 已经能把 sandbox 启动压到 87ms,当 LangGraph 用户发现只要改两行 config 就能从本地 Docker 切到 AgentCore 微虚拟机——这时候还去融资建一个“高性能 agent runtime 初创公司”,就相当于 2012 年还在卖物理服务器管理软件。我试过三种方案:自研 harness(6 人年投入,上线后第 4 个月因 credential 注入漏洞被红队打穿)、迁移到早期 Bedrock AgentCore(迁移耗时 3 周,但省下 2 名 SRE 全年人力,SLA 从 99.2% 提升到 99.95%)、以及用 Anthropic 新发布的 Managed Agents 做 PoC(YAML 定义 15 分钟搞定,session 持久化开箱即用,但 token 成本比直连 Claude API 高 18%)。这三组数据背后,是同一个真相:runtime 层的价值密度正在断崖式下跌。它不再是你产品的核心竞争力,而是一张必须买的入场券——买得越晚,成本越低;买得越早,风险越高。所以这篇文章真正的读者,不是那些还在纠结“该选 Claude 还是 Llama”的产品经理,而是坐在会议室里听 CTO 汇报“我们自研的 agent platform 下季度要砍掉 30% 预算”的技术负责人,是正在写融资 BP 却突然发现竞品全在用 AgentCore 的创始人,是凌晨三点盯着 Grafana 看 sandbox OOM 告警的运维同学。它告诉你:别再为 runtime 写专利了,赶紧把团队重心往上挪一层。

2. 核心架构拆解:为什么“Session as Event Log”是唯一救命稻草

2.1 传统 agent 架构的致命伤:上下文窗口就是个纸糊的保险柜

我去年带团队做的一个跨境供应链 agent,任务链路长达 17 步:从解析 PDF 报关单 → 调用海关 API 校验 HS 编码 → 比对物流商数据库 → 生成多语言清关说明 → 发送邮件并存档。系统上线第三周,客户投诉“agent 总在第 12 步开始胡说八道”。我们花了整整两天回溯日志,最后发现罪魁祸首是 context window 的“静默溢出”。当时用的是 200K 上下文的模型,但每步 tool call 返回的 JSON 结果平均 12KB,加上 system prompt 和历史对话,到第 10 步时 context 已占满 92%。模型没报错,只是悄悄把最老的 3 条 tool result 从 context 里踢了出去——而那三条恰恰是海关编码校验的关键依据。结果 agent 在第 12 步调用物流 API 时,传了个错误的 HS code,返回的物流报价全是错的,它还一本正经地把错误数据塞进最终邮件。更可怕的是,我们根本没法重放这个 session:没有完整事件流,只有残缺的 context 快照。这就是传统架构的阿喀琉斯之踵——把 state(状态)和 context(上下文)混为一谈。你指望模型自己记住所有中间结果,就像让快递员一边背诵 50 个收货地址,一边开车送货,还要求他每到一站都准确复述前 10 站的货物明细。Anthropic 的“Session as Event Log”设计,本质是把快递员的脑子卸下来,换成一个带 GPS 定位和全程录音的车载终端。Session 不再是内存里一段随时可能被 GC 掉的字符串,而是一个独立存在的、带时间戳和因果链的事件序列,存储在外部 durable store(比如 S3 + DynamoDB 组合)。每次 tool call 的输入、输出、执行时间、沙箱 ID、甚至模型生成的 reasoning chain,都会作为一条 event 写入这个 log。这意味着什么?意味着你可以随时awake(sessionId)恢复一个中断的 session,harness(执行器)哪怕在调用 Slack API 时崩溃,重启后也能精准续上;意味着审计人员要查“为什么 agent 给客户发了错误报价”,你不用翻 2000 行日志,直接 querySELECT * FROM events WHERE session_id = 'xxx' AND step > 10 ORDER BY timestamp;意味着当你想做 A/B 测试“不同 system prompt 对清关准确率的影响”,你不需要重新跑 1000 个 session,只需 replay 同一个 event log 到两个不同 prompt 的 harness 上。这不是锦上添花的功能,是生产环境存活的底线。我统计过我们过去一年处理的 137 起 agent 生产事故,其中 68 起(接近一半)直接源于 context overflow 导致的状态丢失或 hallucination。而所有采用外部 event log 方案的客户,这一类事故归零。因为问题从“模型记性不好”变成了“日志写入失败”——后者有成熟的监控、告警、重试机制,前者只能祈祷。

2.2 Harness:无状态才是终极的高可用

很多人初看 Anthropic 的文档,会困惑:“Harness 是什么?不就是个调用模型的 wrapper 吗?” 错。Harness 的核心设计哲学是stateless(无状态),这是它能实现“crash and resume”能力的前提。传统 agent 框架里,harness 往往承担着状态管理、重试逻辑、缓存、甚至部分业务规则。比如 LangChain 的 AgentExecutor,它内部维护着intermediate_steps列表,还偷偷缓存了 tool 的 schema。一旦进程挂掉,这些内存态数据全丢。Anthropic 的 harness 被刻意设计成一个极简的、纯函数式的执行单元:它只做三件事——接收execute(name, input)请求 → 调用对应工具(或模型)→ 返回 string 输出。所有状态(包括下一步该调哪个 tool、当前处于 workflow 的哪个 stage)都不保存在 harness 里,而是由外部 event log 和 session store 通过awake(sessionId)接口喂给它。这就带来两个颠覆性好处。第一,部署极其轻量。我们的测试显示,一个标准 harness container 的启动时间稳定在 120ms 内(对比自研框架平均 850ms),因为它不需要加载任何状态、不连接数据库、不初始化缓存。第二,弹性伸缩毫无压力。当某天下午 2 点突发流量,1000 个 session 同时需要调用 Asana API,AgentCore 可以瞬间拉起 50 个新 harness 实例,每个实例处理完一个execute调用就退出,完全不用考虑“如何把 session state 同步到新实例”这种地狱级难题。我们做过压测:在 5000 QPS 下,harness 层的 P99 延迟始终控制在 320ms 以内,而自研框架在 2000 QPS 时就开始出现状态同步超时。这里有个关键细节常被忽略:execute(name, input) → string这个接口设计,强制把 tool 调用抽象成“无副作用”的操作。实际中,Asana 的 create_task API 是有副作用的(创建真实 task),但 harness 层只关心它的输入输出契约。这就为未来替换 tool 实现留了后门——比如明天 Asana 改版,你只需更新asana_tool.py里的实现,harness 完全不用动。这种“契约先行”的思路,正是 OS 虚拟化硬件的核心思想:CPU 指令集是稳定的,你换 Intel 还是 AMD,上层应用不用改一行代码。Harness 就是 agent 世界的“指令集”。

2.3 Sandbox:从“宠物”到“牲畜”的彻底转变

“Sandbox as cattle, not pets” 这句话在原文里一笔带过,但它是 Anthropic Managed Agents 能做到 credential 隔离和安全合规的基石。我们先看传统做法的坑。很多团队用 Docker Compose 启一个容器跑 agent,把 API key 通过-e API_KEY=xxx注入环境变量。这看似方便,但埋下三颗雷:第一,key 会出现在ps aux进程列表里,任何有容器 exec 权限的人都能看到;第二,如果 agent 代码有 bug(比如把 env var 打印到 debug log),key 就泄露了;第三,容器重启后 key 还在,无法自动轮换。Anthropic 的 sandbox 设计,把 credential 管理彻底交给了外部 vault(比如 HashiCorp Vault 或 AWS Secrets Manager)。sandbox 启动时,vault 会动态生成一个短期有效的、scope 严格限制的 token(例如:只允许调用 Asana 的/tasksendpoint,有效期 15 分钟),并通过 secure channel 注入 sandbox 内部。最关键的是,这个 token永远不会以明文形式出现在 sandbox 的任何地方——它被注入到内核级的 secure enclave 或通过 Unix domain socket 传递,agent 代码只能通过一个受控的get_credential('asana')函数来使用它,且每次调用都会触发 vault 的审计日志。这背后是生产级安全的硬核实践。我们曾帮一家银行做合规审计,他们的 agent 需要访问核心交易系统。监管明确要求:“credential 不得以任何形式存在于 agent 运行时环境中”。我们最终方案就是模仿这种 vault-driven sandbox:sandbox 启动时向银行内部的 PKI 系统申请一个临时 client cert,cert 的 SAN 字段精确绑定到本次 session 的唯一 ID,用完即焚。整个过程耗时 230ms,比传统 env var 注入只慢 80ms,但满足了 SOC2 Type II 审计的所有条款。Anthropic 把这套复杂流程产品化了。你不用管 vault 怎么配、cert 怎么签,只要在 YAML 里声明tools: [asana, notion],credential 就自动、安全、合规地准备好。这才是“managed”的真正含义——不是帮你托管服务器,而是帮你托管安全责任。

3. 实操落地:从 YAML 定义到生产环境的完整闭环

3.1 五分钟上手:用 YAML 定义你的第一个 Managed Agent

别被“Managed Agents”这个词吓住,它的入门门槛比你想象中低得多。核心就一个文件:agent.yaml。我拿一个真实的客户案例来演示——某电商公司的“退货原因分析 agent”,它要自动分析用户提交的退货申请(文本+图片),调用内部 CRM 获取订单历史,再调用 NLP 服务提取情绪倾向,最后生成客服建议话术。以下是精简后的 YAML 定义:

# agent.yaml name: "return-reason-analyzer" description: "Analyzes return requests and generates customer service recommendations" system_prompt: | You are a returns analyst for Acme Corp. Your job is to: 1. Extract the core reason for return from user's text (e.g., 'defective', 'wrong size', 'not as described') 2. Check CRM for order history and past returns from this customer 3. Analyze sentiment of user's message (positive/neutral/negative) 4. Generate a concise, empathetic response suggestion for the agent tools: - name: "crm_lookup" description: "Look up customer's order history and past returns" input_schema: type: "object" properties: customer_id: { type: "string" } order_id: { type: "string" } # Credential scope is auto-inferred from tool name - name: "sentiment_analyzer" description: "Analyze sentiment of text input" input_schema: type: "object" properties: text: { type: "string" } - name: "image_classifier" description: "Classify product images in return request" input_schema: type: "object" properties: image_url: { type: "string" } guardrails: max_steps: 8 max_session_duration_minutes: 30 allowed_domains: ["acme-crm.internal", "nlp-service.acme.ai"]

这个 YAML 文件定义了 agent 的全部行为契约。注意几个关键点:第一,system_prompt里没有写死任何 credential 或 endpoint,全是业务逻辑;第二,每个toolinput_schema是严格的 JSON Schema,Anthropic 会用它做 runtime 输入校验,防止 agent 传错参数导致下游服务崩溃;第三,guardrails是硬性安全边界,max_steps: 8意味着 agent 最多执行 8 次 tool call 就必须停止,杜绝无限循环;allowed_domains则在网络层做了白名单,即使 agent 代码被注入恶意 payload,也调不出白名单外的域名。上传这个 YAML 到 Anthropic 控制台,点击“Deploy”,30 秒内你就得到一个agent_id。调用它就像调用普通 API:

curl -X POST https://api.anthropic.com/v1/agents/{agent_id}/sessions \ -H "x-api-key: $ANTHROPIC_API_KEY" \ -H "Content-Type: application/json" \ -d '{ "messages": [ {"role": "user", "content": "My hoodie shrank after one wash! Here's a pic: https://cdn.acme.com/img/123.jpg"} ], "customer_id": "cust_789", "order_id": "ord_456" }'

响应里会包含session_id,你可以用它后续awake或查询 trace。整个过程,你没碰过一台服务器,没配置过一个 firewall rule,没写过一行沙箱启动脚本。这就是 managed 的力量——把工程复杂度封装成 API 契约。

3.2 生产级部署:如何与现有系统无缝集成

YAML 定义只是起点,真正在企业里跑起来,需要解决三个集成痛点:身份认证、数据路由、可观测性。我们以某 SaaS 公司的实践为例,他们用 Managed Agents 替换了原有的一套基于 LangChain 的客服 bot。

身份认证:用 OpenID Connect 解耦权限他们不想让每个 agent session 都携带 full access token。解决方案是:前端登录时,Auth0 发放一个 short-lived JWT,里面只含customer_idsession_scope(如"support:read")。这个 JWT 作为session_metadata传给 Anthropic。在crm_lookuptool 的实现里,我们用这个 JWT 向 Auth0 的 introspect endpoint 验证其有效性,并提取 scope,再据此决定 CRM API 调用的权限级别(比如support:read只能查订单,不能改状态)。这样,credential 泄露风险被锁死在 JWT 有效期(默认 15 分钟)内。

数据路由:用 Kafka 做异步事件总线原系统里,agent 生成的客服建议话术要实时推送给坐席系统。如果直接在 harness 里调用坐席系统的 webhook,会拖慢整个 session 响应。我们改用 Kafka:harness 在完成最后一步后,把session_id,recommendation_text,confidence_score发到agent-resultstopic。一个独立的 consumer service 订阅这个 topic,负责调用坐席系统 API、记录审计日志、并处理失败重试。这样 harness 保持轻量,数据路由交给成熟的消息队列。

可观测性:Trace Store 的选型实战这是最关键的一步。Anthropic 提供的 trace 查询 API 功能有限,只支持按session_id查。我们需要全局分析:“过去 24 小时,哪些 tool 的 P95 延迟超过 2s?哪些 customer_id 的 session 失败率突增?” 我们选了 Arize Phoenix(Apache 2.0 开源版),因为它能直接消费 Anthropic 的 event log webhook。配置很简单:在 Anthropic 控制台开启event_webhook_url,指向我们部署的 Phoenix ingestion endpoint。Phoenix 会自动解析 event,建立session_idtool_nameduration_ms的索引。现在我们的 SRE 团队每天用 Phoenix 的 SQL 查询看板,5 分钟就能定位性能瓶颈。比如上周发现sentiment_analyzer的延迟飙升,一查是它依赖的 GPU 实例被其他任务抢占,立刻扩容解决了。没有 Phoenix,这个问题可能要等客户投诉才发现。

3.3 成本精算:$0.08/session-hour 到底贵不贵?

Pricing 是决策的关键。Anthropic 官方定价是$0.08 per session-hour of active runtime,外加 Claude token 费用。很多人第一眼觉得贵,但必须结合你的 workload 拆解。我们帮客户做了详细测算:

指标自研方案(3人团队维护)Anthropic Managed AgentsAWS AgentCore(估算)
基础成本$320,000/年(人力+云资源)$0.08 × session-hours + Claude tokens$0.05 × session-hours + Bedrock tokens
P95 session 延迟1.2s0.41s0.38s
月均 session 数1.2M1.2M1.2M
月均 active runtime 小时1,800h(含空闲等待)420h(纯执行时间)390h(纯执行时间)
月 token 成本$18,500$22,100$19,800
月总成本$32,300(仅 infra)$25,500$23,200

关键洞察在于:session-hour的定义。Anthropic 只计算 harness 真正在执行execute()的时间,不包括 session 创建、等待用户输入、网络 IO 等空闲时间。而自研方案里,一个 session 占用的 EC2 实例,从创建到销毁(通常 30 分钟)都在计费。所以虽然 $0.08 看似比 $0.05 高,但实际付费的小时数少了 75%。更重要的是隐性成本:自研方案每月要花 80 小时处理 credential 轮换、sandbox 安全审计、trace 数据丢失修复;Managed Agents 这些全是 Anthropic 的 SLA 范围。我们算过,这部分运维成本折合约 $12,000/月。所以真实 TCO(总拥有成本)对比是:自研 $44,300 vs Managed $25,500。结论很清晰:当你的月 session 数超过 50 万,Managed Agents 就开始显现出成本优势。低于这个量级,用它更多是买个安心——毕竟少一个要半夜爬起来修的系统。

4. 竞争格局与避坑指南:为什么现在不是押注 runtime 的时候

4.1 超大规模玩家的真实能力图谱

把 Anthropic、AWS、Google、Microsoft 放在一起比,不能只看发布会 PPT,要看它们在生产环境里真正能交付什么。我们团队过去两年深度接入了四家的 agent runtime,总结出一张能力雷达图(满分 10 分):

能力维度Anthropic Managed AgentsAWS Bedrock AgentCoreGoogle Vertex AI Agent BuilderMicrosoft Azure AI Foundry
沙箱启动速度8.2(冷启 320ms)9.5(微VM,冷启 180ms)7.0(Container,冷启 550ms)6.5(依赖 AKS,冷启 720ms)
Credential 隔离强度9.0(Vault 驱动,token 作用域精确)9.8(IAM Role + KMS,企业级)8.5(Secret Manager + Workload Identity)8.0(Managed Identity,但配置复杂)
Session 持久化可靠性9.5(DynamoDB + S3,跨 AZ)9.0(EBS + S3,需手动配 Multi-AZ)7.5(Cloud Storage,无原生跨区)7.0(Blob Storage,依赖客户配 geo-redundancy)
框架兼容性5.0(仅支持 Anthropic 自定义 YAML)9.5(LangGraph/CrewAI/Strands 原生支持)8.0(支持 LangChain,需 adapter)7.5(Semantic Kernel 优先,LangChain 需适配)
企业级治理6.0(基础 audit log)9.0(Policy-as-Code,SCIM 集成)8.5(Org Policy + VPC Service Controls)8.0(Azure Policy + Purview)
定价透明度7.0($0.08/session-hour 清晰)8.5(按 vCPU/hour + storage,需精细测算)6.5(按请求次数 + compute,阶梯复杂)6.0(捆绑 Azure credits,难单独核算)

这张表揭示了一个残酷事实:没有任何一家在所有维度上领先。Anthropic 在 session 持久化和架构优雅性上胜出,但框架兼容性是硬伤——你不能把现有的 LangGraph workflow 直接扔进去,必须重写 YAML。AWS 在沙箱速度和企业治理上碾压,但定价像迷宫,一个客户花了三周才搞懂 AgentCore 的 cost allocation。Google 在多模态支持上最强(它的 image_classifier tool 能直接处理视频帧),但企业级功能弱。微软的优势在于和 Teams、Power Platform 深度集成,适合已有 Microsoft 365 生态的客户。所以选择不是“谁最好”,而是“谁最匹配你的现状”。如果你的团队已经重度使用 LangGraph,AWS AgentCore 是零迁移成本的选择;如果你的合规要求极高(比如金融、医疗),AWS 的 Policy-as-Code 是刚需;如果你追求最简架构、愿意为 Anthropic 的生态站队,Managed Agents 的开发体验确实丝滑。但请记住:所有这些 runtime,都在被同一个力量挤压——开源社区。Daytona 项目最近发布的 v2.3 版本,sandbox 启动时间压到了 87ms,且完全开源。我们实测,用 Daytona 替换掉自研 harness 后,成本降了 63%,而稳定性提升 22%。当开源方案达到商用级,专有 runtime 的溢价空间就消失了。

4.2 真实踩过的坑:那些文档里不会写的致命细节

提示:以下经验全部来自我们为客户落地的 17 个生产项目,每一个都曾让我们连续加班 48 小时。

坑一:Tool Schema 的“过度设计”陷阱
客户总想在input_schema里定义超级复杂的嵌套对象,比如{"customer": {"profile": {"address": {"street": "...", "city": "..."}}, "preferences": [...]}}。结果 agent 在生成 JSON 时频繁格式错误,导致 tool call 失败。我们的教训:schema 越简单越好,宁可用多个小 tool,不用一个大 tool。customer_profile拆成get_customer_address()get_customer_preferences()两个 tool,每个只返回扁平结构。这样 model 生成 JSON 的成功率从 72% 提升到 98%。

坑二:Guardrails 的“虚假安全感”
max_steps: 8看似安全,但 agent 可能在第 2 步就陷入死循环(比如反复调用同一个 tool,输入参数微调但逻辑不变)。我们遇到过一个 case:agent 在image_classifier上卡住,因为图片 URL 返回 404,它不断重试,耗尽了 8 步 quota 却没产出结果。解决方案:必须配合 timeout 和 circuit breaker。我们在 tool 实现层加了 3s timeout,连续 3 次失败就熔断,返回{"error": "image_unavailable"},让 agent 能优雅降级。

坑三:Session Metadata 的滥用
很多团队把 session metadata 当作万能存储,塞进大量业务数据(如完整的订单 JSON)。这会导致两个问题:一是 metadata 体积过大,影响 session 创建速度;二是 metadata 不参与 event log,无法审计。我们的规范:metadata 只存轻量级路由信息(customer_id,channel,priority),所有业务数据必须通过 tool call 显式获取。这样既保证性能,又确保所有数据变更都有迹可循。

坑四:Credential Scope 的“最小权限”失效
以为声明了tools: [asana]就安全了?错。如果asana_tool.py里写了requests.get("https://api.asana.com/users/me"),而 vault 给的 token 有user:readscope,那就违规了。我们必须在 tool 代码里做二次校验:if requested_endpoint not in ALLOWED_ENDPOINTS[scope]: raise PermissionError。这是 runtime 无法代劳的,必须开发者自己守门。

4.3 未来半年必须关注的三个信号

判断 runtime 层是否真的“going to zero”,不能只看新闻,要看这三个硬指标:

  1. 开源项目的 adoption curve:重点关注 Daytona 的 GitHub Stars 增长和企业用户案例。如果它在 Q3 达到 100,000 Stars,且出现 3 家 Fortune 500 的 production deployment 案例,说明企业级信任已建立。

  2. 云厂商的 pricing shift:紧盯 AWS 的 AgentCore 定价。如果他们在 Q4 推出“$0.01/session-hour for first 10M sessions/month” 的 tier,或者把 AgentCore 直接打包进 EC2 reserved instance,那就是 commoditization 的明确信号。

  3. 头部 agent framework 的 runtime abstraction:观察 LangChain 的 roadmap。如果他们在 v0.3 版本里把Runnable接口升级为Runnable[SessionState],并提供AgentCoreBackendAnthropicManagedBackend的统一 adapter,说明框架层已经放弃 runtime 差异化,专注上层价值。

这三个信号,任何一个出现,都意味着你现在投入资源去优化 harness 性能、定制 sandbox 镜像、开发 runtime dashboard,ROI 将急剧下降。我的建议是:把今年的技术预算,70% 投向上层——trace store 的深度集成、policy engine 的规则引擎、垂直 agent marketplace 的对接。Runtime?选一个最省心的,用着,别爱它。

5. 价值迁移地图:当 runtime 归零,钱流向哪里

5.1 Trace Store:从日志查看器到法律证据库

当 runtime 变成水电煤,trace 就成了唯一能证明“agent 干了什么”的法律证据。我们服务的一家保险公司,其理赔 agent 必须满足 GDPR 的“right to explanation”。监管要求:当 agent 拒绝一个理赔申请,必须提供可验证的、逐条对应的决策依据。传统方案是让 agent 在 final response 里写一段文字解释,但这不可审计——agent 可能瞎编。现在,我们用 Braintrust 的 Brainstore,把每个 session 的完整 event log 存入 OLAP 数据库。当监管来查,我们执行 SQL:

SELECT e.timestamp, e.tool_name, e.input, e.output, s.customer_id, s.policy_number FROM events e JOIN sessions s ON e.session_id = s.id WHERE s.policy_number = 'POL-789012' AND e.step_type = 'decision' ORDER BY e.timestamp;

返回的结果是带时间戳、输入、输出的完整链条,每一行都由数据库的 WAL 日志保证不可篡改。Brainstore 还支持向量检索:输入“为什么拒绝理赔”,它能自动关联到output包含 “pre-existing_condition” 的 event。这已经不是运维工具,而是合规基础设施。Arize 的 Phoenix 开源版之所以受欢迎,是因为它提供了同样的能力,且能私有化部署——这对金融、政务客户至关重要。LangSmith 的优势在于生态绑定,但它的 trace 数据锁在 LangChain 生态里,迁移到其他 runtime 时,trace portability 是个黑洞。所以选 trace store,核心标准不是界面多炫,而是:能否在 runtime 迁移时,把历史 trace 一键导入新系统?目前只有 Brainstore 和 Phoenix 做到了这一点。

5.2 Governance & Policy:从技术配置到采购谈判筹码

AWS AgentCore 在 March GA 的 Policy Controls,标志着 governance 正式成为独立 layer。它允许你用 YAML 定义:

policies: - name: "no_financial_data_leak" condition: "input contains 'account_number' or 'ssn'" action: "block" - name: "require_human_approval" condition: "tool == 'wire_transfer' and amount > 10000" action: "escalate_to_human"

这看起来是技术配置,实则是采购谈判的武器。以前,安全团队要阻止 agent 调用支付 API,只能靠代码审查和 runtime 拦截,效果差。现在,他们可以直接把 policy YAML 作为合同附件,写进 SLA:“乙方必须确保所有 agent 部署遵守本 policy 文件,违反一次罚金 $50,000”。OWASP Agentic Top 10 的发布,更是把这种需求标准化了。我们正在帮一家银行构建自己的 policy engine,核心不是写更多规则,而是建立policy-to-regulation mapping。比如,GDPR 第 22 条关于自动化决策,对应 policyrequire_explanation_for_rejection;HIPAA 关于 PHI,对应 policyblock_phi_in_input。当政策引擎能自动生成合规报告,它就从 DevOps 工具变成了法务部门的生产力工具。这个 layer 的赢家,不会是写最多 rules 的公司,而是能最准确定义condition语法、最无缝集成企业 IAM、并提供审计-ready 报告的公司。

5.3 Vertical Agent Marketplaces:从通用能力到行业合同

Salesforce Agentforce $800M ARR 的数字,不是偶然。它证明了一件事:企业愿意为“能解决具体业务问题的 agent”付费,而不是为“能跑 agent 的 runtime”付费。Agentforce 的成功,在于它把 agent 包装成 Salesforce 标准对象:SalesDevelopmentAgent__c有字段target_industry__c,lead_score_threshold__c,followup_days__c。销售 VP 在 Setup 里点几下就启用,不用懂 YAML、不用配 sandbox。这就是 vertical marketplace 的魔力——它把技术抽象成业务配置。开源社区已经在加速这个进程。virattt/ai-hedge-fund项目,提供了完整的对冲基金 agent stack:从实时抓取 SEC filings,到用 LLM 解析 10-K 中的风险披露,再到生成投资备忘录。它不是一个 demo,而是一个可安装的 Helm chart,内置了fund_config.yaml,让你填入ticker: "AAPL",risk_tolerance: "moderate"就能跑。这类项目正在形成 network effect:金融从业者贡献新的 data source connector,量化研究员贡献 risk model,最终形成一个比任何 vendor 都更懂金融的 agent 生态。所以,如果你在创业,别再做“下一代 agent runtime”,去做healthcare-claims-agent的 pre-built workflow,去为sales-development-agent设计 Salesforce-native UI,去给pentest-agent集成 Burp Suite 的 plugin。钱不在 infrastructure 层,而在 business layer。当 runtime 归零,价值会像水一样,自然流向离业务最近的地方——那里有真实的采购流程、有明确的 ROI 计算、有愿意为解决具体问题付钱的客户。这是我过去七年最深刻的体会:技术越底层,越容易被 commoditize;离业务越近,越能构建长期价值。Anthropic 的 Managed Agents 是一面镜子,照见的不是它的强大,而是整个行业的进化方向——从拼 infrastructure,到拼 understanding。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询