前言
近年来,AI的讨论焦点已从“模型有多大”转向“系统有多强”。Agentic AI(智能体式AI)的兴起,正在重新定义推理、计算分工乃至软件商业模式。本文基于一系列技术讨论,系统梳理了从Agent工作流到芯片架构、从商业模式到产业认知的关键逻辑。
一、Agentic AI的本质:从模型到分布式系统
1.1 传统推理 vs. Agentic工作流
传统大语言模型(LLM)的推理模式是“输入-输出”:用户提出问题,模型直接给出答案,整个过程为一次性生成。
Agentic AI则完全不同。它具备自主规划能力,能将复杂任务拆解为多个步骤,动态调用不同工具(搜索引擎、命令行、API等),并根据中间结果调整后续行动。因此,Agentic AI本质上是一个多步骤工作流,是一个包含规划、执行、记忆等模块的分布式软件系统,而非单一模型。
1.2 GPU与CPU的新分工
在这一架构下,计算负载被明确分开:
- GPU加速“推理负载”:工作流中的每一步——模型分析、文本生成、图像理解——仍是神经网络计算,高度并行,适合GPU处理。
- CPU负责“控制平面”:规划(决定先做什么后做什么)、编排(协调模型与工具的调用)、存储(维护对话历史与中间结果)、工具执行(运行外部代码、数据库查询)等任务,本质上是逻辑判断、分支跳转、I/O等待和状态管理,高度串行且延迟敏感,属于CPU-bound(性能瓶颈在CPU)。
一个形象的类比:CPU是项目管理者,定计划、调资源、保存进度;GPU是专家计算员,专注处理数学计算。在Agentic AI中,管理者频繁调度专家工作,但管理者自身的规划与协调可能成为系统瓶颈。
二、Agent的工作机制:自动化“人机对话循环”
2.1 核心闭环
Agent的工作流程可以概括为“感知-规划-行动-观察”的闭环:
- 感知:接收用户指令和当前环境状态
- 规划:LLM将大任务拆解为多个子步骤
- 行动:调用工具(如命令行、API)执行一个子步骤
- 观察:获取行动结果(如命令输出、错误码)
- 循环:将观察结果加入对话历史,返回规划步骤,决定下一步
这一循环正是“多步骤工作流”的体现——每走一步都依赖上一步的结果。
2.2 一个自然的问题:Agent怎么知道命令运行结束了?
关键在于编排层的同步与超时机制:
- 同步执行:Agent通过代码执行器运行命令,系统会阻塞等待——命令进程结束后,捕获其stdout、stderr和返回码,然后将结果文本送回LLM。LLM不是“感知”到结束,而是代码层等命令跑完后拿到结果。
- 超时机制:每个工具调用预设超时(如60秒),超时后强制终止并返回超时信息。
- 异步回调:对复杂操作可异步执行,Agent启动任务后得到任务ID,再通过轮询或回调等待完成信号。
LLM收到的观察结果类似:[命令执行完成 (退出码: 0)] 文件列表: file1.txt file2.txt。它据此决定下一步。
2.3 与传统LLM的根本区别
| 维度 | 传统LLM | Agent |
|---|---|---|
| 输出模式 | 一次性输出 | 多轮循环 |
| 过程 | “世界知识” → 答案 | 拆解 → 调用工具 → 看结果 → 再调用 → 最终输出 |
| 状态传递 | 无 | 通过对话历史传递(包含tool调用和输出) |
Agent不是“想完再做”,而是“边想边做,做完看看,接着想”。
2.4 框架:实现Agent的“胶水代码”
框架本质上是一个事件循环+消息代理,负责协调LLM、工具和环境。其核心工作流程:
- 接管对话历史:保存整段对话,包含普通消息、工具调用请求、工具返回结果
- 解析LLM输出:检查响应类型——普通文本则发送给用户;工具调用请求则解析出函数名和参数,暂停LLM,进入执行阶段
- 执行工具:在受控环境中运行命令、读写文件或发送网络请求
- 打包结果并写回历史:构造特殊格式的消息,追加到对话历史中
- 再次调用LLM:带着更新后的历史重新调用LLM接口,闭环继续
框架就是一个路由器,在LLM和外部世界之间建立双向管道。这也是为什么Agentic AI对CPU要求高——框架在不停地做条件判断、消息序列化、进程管理和I/O等待。
2.5 CPU为什么成为瓶颈?
在Agent工作流中,CPU需要处理:
- 高频决策:
while True循环中的大量分支判断 - 序列化/反序列化:将对话历史打包成JSON,消耗大量CPU时间
- 上下文切换:系统调用(fork进程、exec命令、wait结果)
- I/O等待与事件循环:管理网络响应、命令执行、文件读写
一个典型场景:用户要求“写代码-运行-报错-修改”,框架正好循环4圈。对于复杂任务(如自动网购),可能循环50-100次。虽然GPU单次推理(约2秒)占主导,但CPU总处理时间(0.3秒×50=15秒)已不可忽略。更关键的是,50次GPU推理串行依赖,每次必须等上一步CPU处理完,导致GPU大量空闲。
优化Agent系统,不能只看模型推理速度,更要关注编排层(CPU)的效率——如流式解析、减少序列化开销、使用更高效的语言。
三、芯片架构:CPU被拉入HBM Domain
3.1 Agent对带宽的新要求
Agent场景下,控制平面变得极其繁重:
- KV Cache巨大:对话历史(多轮工具调用结果)可达几十万token,CPU需要快速读取、打包、通过PCIe送给GPU
- 上下文切换频繁:每执行一次工具,都要读取一次完整对话状态
- Scale-up需求:单张GPU装不下整个Agent状态,需要多GPU+多核CPU紧耦合
如果CPU到GPU的带宽不够,GPU就会频繁处于“等待数据喂过来”的空闲状态。
3.2 NVIDIA Vera的方案 vs. 其他CPU
| 方案 | 数据路径 | 瓶颈 |
|---|---|---|
| NVIDIA Vera | HBM → NVLink-C2C → CPU(LPDDR) | 无——NVLink-C2C带宽可达900+ GB/s |
| 其他CPU(x86) | HBM → PCIe Switch → 内存控制器 → CPU | PCIe 5.0 x16仅约64 GB/s,且多GPU共享时收敛严重 |
NVIDIA通过私有协议和物理封装,把CPU拉入HBM Domain(高带宽内存域),使CPU几乎像GPU的一个“特殊核心”,访问GPU的HBM显存延迟极低。其他厂商则困在PCIe窄带上。
3.3 “大家的课越补越多”
NVIDIA从一开始就设计“CPU紧贴GPU”的架构,不需要补课。其他厂商则面临:
- 发现PCIe不够用,开始搞私有互联(AMD的Infinity Fabric、Intel的UPI)
- 发现通用CPU内存带宽不足,开始搞内存池化(CXL协议)
- 发现Agent需要异构计算+统一内存地址,重新设计内存控制器
这就像:NVIDIA一开始修了8车道高速直连;其他厂商先用2车道省道凑合,现在发现车流暴增,只好回头拆房子扩路基——工程量巨大且短期内难以追上。
NVIDIA的优势不在于“带宽高”这个事实,而在于从系统架构层面预判了Agent带来的数据移动压力,并提前用私有技术锁定了物理极限。
四、商业模式:从卖Token到收Transaction Fee
4.1 卖Token的逻辑与局限
卖Token把三样东西打包成单价极低的商品:
- 软件价值:模型训练成本、算法IP
- 硬件价值:GPU算力、HBM带宽、电力
- 用户友好:用多少付多少
但问题在于“从软件到钱的路径太长”:AI应用公司的收入来自用户订阅,成本却是按Token付给云大厂。用户只看到App的价值,钱却大部分流向了底层卖Token的云厂商。最终,只有少数拥有GPU集群的大厂能规模盈利,中小应用层被挤压——这就是“被大厂全吃掉”。
4.2 Transaction Fee:按结果付费
Transaction Fee不是按生成的字符数收费,而是按完成的任务/达成的结果收费:
| 模式 | 计费单位 | 示例 |
|---|---|---|
| Token | 生成的字符数 | 用户问“写投诉信”,模型输出500 token → 收500 token的钱 |
| Transaction Fee | 完成的任务/结果 | 用户说“拿到航班延误赔偿”,Agent自动处理,最终用户收到200元 → 收5元(或抽成2.5%) |
Transaction Fee兑现的是Agent的能力(规划多步骤、调用工具、处理异常、达成目标),而不仅仅是基模和硬件的能力。这种能力很难被大厂的通用Token定价捕获,因为它依赖业务逻辑、领域知识和环境交互。
4.3 为什么Transaction Fee可能避免大厂通吃
- 大厂擅长卖Token:囤积GPU、优化模型、降低硅成本,适合标准化、大规模的商品
- 大厂不擅长收Transaction Fee:需要深度绑定业务结果,理解具体领域规则、对接垂直系统,需要大量工程、运营、合规投入——极度垂直、长尾、非标准化
专注特定领域的Agent开发商可以保留Transaction Fee的大部分收益,只支付底层的Token成本给大厂。
4.4 客户到底在买什么?
在开源遍地、AI能写代码的今天,客户购买的优先级已经非常明确:
买“结果” >> 买“时间” > 买“代码/软件”
- 买代码/软件(最底层):传统许可证模式。客户会问:“为什么不用免费的?”
- 买时间(中间层):SaaS或托管服务,省去部署、维护的麻烦。当前主流,但竞争激烈。
- 买结果(最顶层,护城河最深):客户不为软件、API调用付费,只为“问题被解决”付费。例如“帮我打赢官司,我分你20%”;“让我的网站转化率提升15%,我付你提升额的30%”。
开源项目提供原料(代码、模型),但没有提供成品(解决方案、结果)。客户买的是:确定性(点一下问题就解决)、责任与兜底(跑崩了有人赔)、端到端的体验(无需命令行)。
变现路径建议:
- 如果你的软件直接解决高价值的“结果” → 走Transaction Fee,护城河极深
- 如果你的软件主要提供便利和节省时间 → 走SaaS订阅(买时间),需要极致易用性和垂直深度集成
- 永远不要卖Idea——把Idea快速变成最小闭环服务,直接去服务一个客户,拿到第一笔按结果付的钱
五、CUDA的护城河:正在被Agent击穿,但也在上移
5.1 正在发生的事实
“AI Agent for CUDA”已经存在。
- 清华大学与字节跳动联合发布的CUDA Agent,在KernelBench的Level-3最难任务上,比
torch.compile快92%,性能超越Claude Opus 4.5约40%。其工作方式正是:自主思考 → 编写CUDA内核 → 编译运行 → 分析性能瓶颈 → 迭代优化。 - 有开发者用Claude Code在30分钟内将一个CUDA后端完整移植到AMD的ROCm平台,无需手写一行代码。
5.2 CUDA的两道护城河
| 壁垒 | 传统情况 | Agent时代的冲击 |
|---|---|---|
| 专业知识垄断 | GPU微架构优化需多年经验 | Agent通过强化学习学会专业知识,甚至发现人类忽略的优化组合 |
| 迁移成本 | 从CUDA迁移到ROCm需重写数千个算子 | Agent可自动完成跨平台移植,实现“单样本跨平台知识迁移” |
5.3 护城河正在“上移”
英伟达没有坐以待毙。如果纯CUDA编程层面的壁垒在消失,它就把战场往上推了一层:
- Vera CPU + NVLink-C2C:把CPU拉入HBM domain,让“控制平面”(Agent的编排、规划、状态管理)也能享受超高带宽
- Agent Toolkit:包含Nemotron模型、OpenShell运行时、AI-Q蓝图、NemoClaw部署单元——卖的不是CUDA,而是“Agent运行的基础设施”
- 编排税:复杂Agent工作流中,每步95%准确率的模型只有46%成功率,而99%准确率能达到86%。目前只有Claude和GPT能达到这个质量标准——这个“编排层”的定价权可能比GPU本身更值钱
结论:
- CUDA作为纯编程模型:护城河正在被AI Agent快速击穿。10年后可能没人手写CUDA。
- CUDA作为系统生态:护城河反而在加固。AI Agent时代对“算力+带宽+编排”的紧耦合要求更高,而英伟达是唯一拥有全栈集成能力的玩家。
对手在补CUDA编程的课(Agent能解决),而英伟达在补系统架构的课(Agent解决不了物理定律)。
六、推荐任务 vs. GenAI推理:MTIA芯片的分工逻辑
6.1 两类任务的根本区别
| 维度 | 推荐/排序任务 | GenAI推理 |
|---|---|---|
| 典型场景 | 信息流排序、广告点击率预估 | Llama类文本生成、代码补全 |
| 计算模式 | 大规模稀疏矩阵运算 + 小批量稠密 | 稠密矩阵运算(注意力+FFN) |
| 内存访问 | 极度稀疏、随机、依赖Embedding表 | 连续、可预测 |
| Batch Size | 极大(数千到数万) | 较小(1到几十) |
| 延迟要求 | 极低(50ms内) | 相对宽松(首次token ~200ms) |
| 硬件瓶颈 | 内存带宽(Embedding表常驻HBM) | 计算能力 |
| 工作流特征 | 规则明确、确定性强 | 自回归、分支多、依赖上下文长度 |
6.2 Meta MTIA路线图
| 芯片 | 状态 | 目标任务 | 设计哲学 |
|---|---|---|---|
| MTIA 300 | 已量产 | 推荐/排名 | 稀疏+小矩阵优化,极致性价比 |
| MTIA 400 | 实验室测试 | GenAI推理入门 | 提升稠密计算能力 |
| MTIA 450/500 | 规划中 | GenAI大规模推理 | 对标H100/B200,全栈优化 |
核心逻辑:
- 推荐是基本盘:MTIA 300确保Meta核心业务(广告、内容分发)的算力自主和成本可控
- GenAI是未来:Llama系列是战略资产,不能永远依赖英伟达
- 分步走:先解决推荐(相对简单),再攻克GenAI(需要多代迭代)
这也与Agentic AI相关:推荐任务是确定性的批处理,控制平面简单;而GenAI推理(尤其Agent场景)是动态、交互式的,控制平面成为瓶颈。因此MTIA 400+不仅要算得快,还要与推理框架深度协同,优化调度、KV Cache管理和批处理策略。
七、一个“算对了数量,没算对价格”的产业认知案例
7.1 原始计算
2018年,Google一位专家说“AI要占据数据中心90%的计算”。当时有人算了一笔账:假设AI占据90%计算量,当时NVIDIA GPGPU性能是CPU的10倍,那么GPGPU与Server CPU的出货量比例最多维持在1:1。
Jeff Dean(杰夫·迪恩),Google 首席科学家、Google Brain 负责人 。
2018 年前后,他多次公开/内部表示:未来 AI 会占据数据中心 90% 以上的计算资源。
-他是 Google TPU、TensorFlow、Google Brain 的核心缔造者,也是当时最有话语权的 AI 与基础设施大牛。
-类似表述也常被 Cliff Young(Google 芯片/TPU 团队)在 2018 年 Linley 会议上引用/呼应 ,但源头与最广为人知的是 Jeff Dean。
这个物理计算在今天是正确的——数据中心GPU/NPU的出货量确实约等于(或略低于)Server CPU出货量。
7.2 “但是”来了
没想到的是:GPGPU/AI NPU的价格是CPU的10倍。
- 一枚顶级Server CPU:约2000-5000美元
- 一枚AI GPU(如H100/B200):约20000-40000美元
虽然出货量接近1:1,但销售额是10:1(GPU远大于CPU)。当出货量接近1:1.5时,GPU销售额就是CPU的10-15倍。目前GPU/NPU(年市场规模约2000-2500亿美元)已贡献整个半导体行业(约8000亿美元)的25%收入。
7.3 为什么价格能差10倍?
- CPU卖的是“通用算力”:商品化,竞争激烈(AMD、Intel、AWS Graviton),单核性能提升缓慢,云厂商有议价权
- GPU卖的是“稀缺加速”:对AI任务比CPU快10-100倍;CUDA生态锁定无法替换;云厂商可转租给AI客户能赚回来;产能受限供不应求
7.4 可提炼的公理
在科技行业,稀缺性决定价格,而性能只决定数量。
当一项技术成为瓶颈时,它的价格会脱离物理成本,直奔“替代方案的机会成本”。AI训练目前几乎没有替代方案。
八、如何建立产业认知:可训练的四步法
8.1 建立「坐标系」——判断信息价值
固定三个核心维度,所有信息往三个格子里放:
| 维度 | 核心问题 | 关键指标 |
|---|---|---|
| 技术 | 能不能做? | 性能提升倍数、功耗、良率、架构代际 |
| 产品 | 做出来谁用? | 客户是谁、解决什么场景、替代成本 |
| 商业 | 怎么赚钱? | 定价模式、毛利率、市场份额 |
看任何文章,强制问:它主要讲技术、产品还是商业?如果三个都不是,跳过。
8.2 建立「时间轴」——看见变化而非状态
选定关注的领域,画出关键节点时间轴。例如AI芯片:
| 时间 | 事件 | 意义 |
|---|---|---|
| 2018 | 专家说AI占90%计算 | 预言 |
| 2018-2022 | GPU性能持续超越CPU | 技术验证 |
| 2023 | H100发布,单价3-4万美元 | 价格变量出现 |
| 2024-2025 | 出货量接近CPU,收入占比25% | 验证期 |
关键心态:不是背历史,而是找“哪一年发生什么改变了后续逻辑”。
8.3 建立「转换公式」——从物理量到经济量
商业价值 = (性能优势 × 稀缺程度) / (替代方案的可用性)
- 性能优势:比现有方案快/省多少
- 稀缺程度:有多少人能造
- 替代方案:客户有没有其他选择
看到新产品,强制做这个分析。
8.4 建立「复盘的循环」——迭代自己的认知
- 每月写一次:针对关注领域,写下对未来6-12个月的3-5个具体判断
- 设定验证点
- 到期复盘:对了为什么?错了忽略了什么?
产业认知不是背新闻,而是一种思考框架的肌肉,需要刻意训练。
结语
从Agentic AI的系统架构到芯片分工,从Token商业模式到Transaction Fee的可能性,从CUDA护城河的变迁到产业认知的训练方法,一条清晰的线索贯穿始终:AI正在从“模型中心”走向“系统中心”。
理解这一转变,需要的不仅是技术深度,更是将技术指标转化为商业判断的能力——而这恰恰是可以通过刻意训练获得的。
本文内容整理自相关技术讨论与问答记录,仅作为个人学习笔记存档。