一周AI新鲜事｜2026.06.22—2026.06.28-酒店常州论坛

模型退到幕后，AI系统开始走向前台

2026年6月22日至6月28日，全球人工智能行业迎来了一周密集更新。

OpenAI预览GPT-5.6系列，并首次引入可以调度多个子智能体的Ultra模式；与Broadcom合作推出首款自研推理芯片Jalapeño；NVIDIA则将自动驾驶领域积累的安全体系迁移到人形机器人，推出面向Physical AI的全栈安全架构。

在中国市场，火山引擎发布豆包大模型2.1，并紧接着推出每月68元至500元不等的豆包专业版，把电脑操作、浏览器执行、Office办公、Skills技能和定时任务整合到同一个AI生产力产品中。

与此同时，OpenAI和Anthropic分别公布了关于AI智能体使用情况的研究。两份报告不约而同地指出：用户已经开始把原本需要几个小时甚至一整天完成的工作，整体委托给AI。

如果把这些事件放在一起看，会发现本周真正重要的并不是某个模型又提高了多少跑分，而是：

AI正在从“生成内容的模型”，变成“能够使用工具、调用算力、执行任务，并接受安全监管的复杂工程系统”。

一、GPT-5.6登场：未来的模型可能不再是一个模型

6月26日，OpenAI开始有限预览GPT-5.6系列，包括三个不同定位的模型：

Sol：旗舰级模型，面向复杂推理和高难度任务；
Terra：能力与成本相对平衡；
Luna：强调速度和低成本，适合高并发任务。

OpenAI表示，Terra在接近GPT-5.5能力的同时，价格降低约一半；Luna则用于对成本和响应速度更敏感的场景。[1]

这套命名方式透露出了一个重要变化。

过去的模型版本通常沿着一条直线升级：

GPT-4 ↓ GPT-4.5 ↓ GPT-5 ↓ GPT-5.5

而GPT-5.6开始形成能力分层：

GPT-5.6 Sol 复杂推理、科研、安全、长周期任务 GPT-5.6 Terra 企业办公、开发、数据分析 GPT-5.6 Luna 客服、分类、批处理、高并发任务

这意味着未来企业选择AI时，不会简单地问“最强模型是哪一个”，而会根据任务分配不同模型。

例如一个企业AI系统可以这样运行：

Luna负责识别客户意图；
Terra负责查询业务数据和生成报告；
Sol负责分析复杂合同、处理疑难问题；
规则引擎负责检查最终结果；
人工审批高风险操作。

这就是所谓的模型路由，Model Routing。

模型路由的核心思想是：

不让最贵、最强的模型处理所有任务，而是根据任务难度、响应时间、成本和风险自动选择模型。

这和企业数据库架构非常相似。

不是所有查询都要进入主库，也不是所有任务都要使用最高配置服务器。真正成熟的AI系统，需要在“效果、速度、成本”之间动态平衡。

Max Reasoning：模型回答之前，可以消耗更多计算

GPT-5.6 Sol引入了新的Max推理强度。

这背后的技术概念叫做：

Inference-time Scaling，推理时扩展。

传统模型能力主要依靠训练阶段获得。

模型训练完成之后，用户提出问题，模型进行一次相对固定的计算，然后给出答案。

推理时扩展则允许模型在回答困难问题时：

尝试更多方案；
检查中间结果；
调用更多工具；
对失败路线进行回退；
使用更多Token和计算资源。

可以把它理解为考试中的答题时间。

普通模式像是要求学生一分钟内回答；Max模式则允许学生多花时间列草稿、检查公式和验证答案。

它不一定改变模型掌握的知识，但可能提高模型使用知识的质量。

不过，推理时间越长，也意味着：

成本更高；
响应更慢；
计算资源消耗更多；
智能体可能进入无效循环。

因此，未来企业调用模型时，除了设置温度、Token上限，还可能需要配置：

任务风险等级 任务预算 允许执行时间 最大工具调用次数 最大推理深度 失败后的降级模型

Ultra模式：一个问题交给多个AI并行处理

GPT-5.6还引入Ultra模式，通过多个子智能体协同完成复杂任务。

这并不只是让模型“思考得更久”，而是把任务拆给多个Agent。

例如用户提出：

分析一个大型C# WinForms项目的性能问题，并给出可执行的改造方案。

Ultra模式可以建立多个子任务：

代码结构Agent 检查模块依赖和重复代码 数据库Agent 分析SQL查询、索引和事务 线程Agent 检查Invoke、异步线程和资源释放 性能Agent 分析缓存、内存和CPU热点 测试Agent 设计回归测试和边界测试 主Agent 汇总结果并解决不同Agent之间的冲突

这叫做Subagent Orchestration，子智能体编排。

模型能力正在从“一个大脑回答问题”，转变为“一个负责人组织多个虚拟专家”。

但多个Agent并不一定比一个Agent更好。

它可能带来：

重复劳动；
上下文不一致；
修改冲突；
Token成本暴涨；
错误在多个Agent之间传播；
没有Agent对最终结果负责。

所以，多智能体的核心竞争力不是“能开多少个Agent”，而是：

能否正确拆分任务、控制依赖、检查结果并处理冲突。

二、GPT-5.6为什么没有直接全面开放？

这次GPT-5.6还有一个非常特殊的地方。

OpenAI表示，应美国政府要求，GPT-5.6首先只向少量经过筛选的合作伙伴开放，相关参与方信息也向政府进行了说明，之后才计划逐步扩大到ChatGPT、Codex和API用户。[1]

这意味着前沿模型发布正在发生制度变化。

过去的软件发布通常是：

开发 → 测试 → 灰度 → 正式上线

未来的前沿AI模型可能变成：

能力评估 → 网络安全评估 → 生物安全评估 → 红队测试 → 政府沟通 → 可信用户预览 → 分阶段开放

这可以称为：

Frontier Model Governance，前沿模型治理。

为什么GPT-5.6需要更加谨慎？

因为OpenAI称该系列在网络安全、漏洞分析和长周期攻击任务上取得了明显提升。Sol能够发现浏览器漏洞相关的错误和构造利用程序所需的基础组件，虽然在官方测试条件下尚未独立完成完整攻击链，但能力边界已经更加接近高风险区域。[1]

什么是完整攻击链？

发现软件存在Bug，并不等于能够完成网络攻击。

一条完整攻击链可能包括：

找到漏洞；
理解漏洞触发条件；
绕过系统防护；
构造可运行的利用代码；
获得执行权限；
维持访问；
横向移动；
窃取数据或破坏系统。

AI如果只能发现Bug，它更像安全审计工具。

如果能够自动完成从漏洞发现到权限获取，就会进入更高风险的网络能力等级。

这也是为什么AI安全不能只依靠一句系统提示：

请不要帮助用户攻击系统。

GPT-5.6采用的是分层安全体系，包括：

模型自身的安全训练；
生成过程中的实时风险分类；
对高风险请求进行二次模型审核；
账号级行为分析；
差异化访问权限；
持续红队测试和漏洞修复。

这叫做：

Defense in Depth，纵深防御。

它的基本思想是：任何一层防护都可能失败，因此需要多层系统共同降低风险。

三、OpenAI发布Jalapeño：模型公司为什么开始自己造芯片？

6月24日，OpenAI与Broadcom公布Jalapeño，这是OpenAI首款面向大语言模型推理的自研加速芯片。[2]

OpenAI称，这款芯片围绕自身模型、算子、内存访问、网络通信和在线服务模式进行设计，工程样片已经能够在实验室中运行包括Codex模型在内的机器学习负载。

OpenAI还表示，Jalapeño从设计到生产准备大约用了九个月，部分芯片设计流程本身得到了OpenAI模型的辅助。

不过需要注意：

OpenAI目前只公布了“每瓦性能显著提升”等早期描述，尚未公开完整性能、功耗、成本和第三方测试数据。

因此，现在不能简单得出“Jalapeño已经超过NVIDIA某款芯片”的结论。

训练芯片和推理芯片有什么区别？

模型训练和模型推理，是两种不同类型的工作。

训练

训练是让模型学习。

它需要：

大规模矩阵计算；
参数更新；
多GPU通信；
极高带宽；
长时间连续运行。

训练一次大型模型，可能持续数周甚至数月。

推理

推理是模型训练完成后，为用户生成回答。

例如：

ChatGPT回答一句话；
Codex生成代码；
Agent调用工具；
AI客服处理问题。

随着AI用户数量增加，推理可能成为更加持续、更加昂贵的成本来源。

训练像是建造一座工厂；推理则像是工厂每天生产商品。

工厂只建一次，但每天的生产成本会长期存在。

为什么通用GPU不一定是推理的最优解？

GPU具有很强的通用性，可以适应不同模型和计算任务。

但通用性也意味着，它不一定针对某一种模型工作负载做到极致优化。

专用推理芯片可以根据大模型特点重点优化：

KV Cache访问；
注意力计算；
低精度矩阵运算；
内存带宽；
多芯片互联；
Token连续生成；
多用户并发调度。

尤其是数据搬运。

在很多AI工作负载中，真正的瓶颈不一定是“计算不够快”，而是：

数据需要不断在显存、缓存、计算单元和不同芯片之间移动。

搬运数据既消耗时间，也消耗电力。

因此Jalapeño强调减少数据移动，并让计算、内存和网络资源更加平衡。

AI行业正在形成新的垂直整合

过去AI公司的主要资产是模型。

现在领先企业正在逐渐控制完整技术栈：

应用 ChatGPT、Codex、Agent 模型 GPT系列 推理框架 模型调度、缓存、并行计算 芯片 Jalapeño 服务器 主板、机架、互联网络 数据中心 电力、散热、集群管理

这就是Vertical Integration，垂直整合。

Google有TPU，Amazon有Trainium和Inferentia，Meta开发自有AI芯片，OpenAI现在也正式进入这一方向。

原因很现实：

当每年需要消耗巨额推理算力时，哪怕每次调用只节省一点成本，乘以数万亿Token，也会变成巨大的商业差异。

四、NVIDIA把自动驾驶安全体系搬给机器人

6月22日，NVIDIA发布Halos for Robotics，将其在自动驾驶领域积累的安全体系扩展到机器人和Physical AI领域。[3]

Halos覆盖多个层面：

IGX Thor计算硬件；
传感器接入；
Halos操作系统；
安全功能和应用；
外部摄像头监控；
AI安全检查实验室；
第三方认证流程。

Agility Robotics成为首批采用者之一，计划将相关能力用于Digit人形机器人。

Physical AI是什么？

传统AI主要运行在数字环境中。

例如：

生成文章；
分析表格；
编写代码；
查询数据库。

Physical AI则需要感知并影响物理世界。

它包括：

人形机器人；
自动驾驶汽车；
无人机；
仓储机器人；
工业机械臂；
智能配送设备。

Physical AI的基本链路是：

感知 摄像头、雷达、力传感器 理解 识别人、货物、障碍物和环境 决策 判断下一步动作 行动 移动、抓取、转向、停止 反馈 检查动作是否成功

语言模型答错一句话，可能只是影响用户判断。

机器人判断错误，则可能撞到工人、损坏设备或者造成生产事故。

所以，机器人安全和聊天机器人安全不是同一个层次的问题。

Functional Safety：不是“尽量别出错”，而是“出错后仍然安全”

Halos强调的一个关键概念是：

Functional Safety，功能安全。

功能安全并不要求系统永远不出故障。

现实中的传感器、芯片、网络和软件都可能出现问题。

功能安全关注的是：

当系统发生故障时，是否能够进入可控状态，而不是产生危险后果。

例如一个仓库机器人正在搬运货物时，前方摄像头突然失效。

普通软件可能继续使用上一次识别结果向前走。

具有功能安全设计的系统则可能：

检测到摄像头数据异常；
切换到备用传感器；
降低移动速度；
如果无法确认安全，则立即停车；
向控制中心报告故障；
等待人工处理。

这就是Fail-safe，也就是故障安全。

什么是Outside-In Safety？

NVIDIA还提出利用外部摄像头和AI Agent监控机器人行为。

机器人本身看到的是第一视角。

但工厂顶部摄像头可以看到整个区域，包括：

机器人盲区；
其他设备；
行人移动；
多个机器人的相互影响。

这相当于给机器人增加了一个“场外安全员”。

当机器人内部判断和外部系统判断不一致时，可以：

限制动作；
降低速度；
中断任务；
触发人工检查。

未来机器人安全可能不只存在于单台设备中，而是形成：

机器人本体安全 + 环境安全 + 调度系统安全 + 人工监管。

五、豆包2.1与专业版：国产AI正式进入“生产力收费战”

6月23日，火山引擎发布豆包大模型2.1系列，并升级了视频、图像、音频和Agent相关产品体系。

豆包2.1 Pro重点强化了三个方向：

Coding，编程能力；
Agent，智能体任务能力；
VLM，视觉语言理解能力。

火山引擎公布的厂商评测显示，豆包2.1 Pro在Terminal-Bench、SWE-Pro、OSWorld和MMMU-Pro等测试中进入了国际第一梯队，部分指标超过Claude Opus 4.6。[4]

但大模型厂商给出的Benchmark应该谨慎看待。

因为结果可能受到以下因素影响：

测试版本不同；
推理预算不同；
提示词不同；
是否允许使用工具；
是否多次运行取最好成绩；
测试集是否存在数据污染；
实验环境是否一致。

因此，模型是否真正适合生产，不能只看一张排行榜，而要看：

自己业务数据上的准确率；
工具调用成功率；
长任务完成率；
失败后的恢复能力；
单次任务真实成本；
响应时间；
权限和审计能力。

VLM是什么？

VLM是Vision-Language Model，视觉语言模型。

普通语言模型主要理解文本。

VLM可以同时理解：

图片；
截图；
表格；
图表；
PDF页面；
软件界面；
视频画面。

例如用户上传一张企业管理系统截图，并说：

把客户名称填到左上角输入框，然后选择本月日期，点击查询并导出报表。

VLM需要先识别：

哪一个是客户名称输入框；
日期控件在哪里；
查询按钮在哪里；
导出按钮是什么。

如果再结合鼠标、键盘和浏览器控制，它就会变成GUI Agent，也就是图形界面智能体。

豆包专业版真正卖的不是聊天次数

6月24日，豆包推出专业版，连续包月价格分别为：

标准套餐：68元；
加强套餐：200元；
高级套餐：500元。

专业版不仅提供更高模型额度，还加入了办公任务模式，可以操作本地电脑、浏览器、文档、表格，调用Skills和定时任务，并支持图片、视频和网站生成。[5]

这代表国内AI产品开始发生商业模式变化。

过去AI会员主要销售的是：

更多聊天次数；
更强模型；
更快响应速度。

现在销售的逐渐变成：

可以完成多少任务；
可以节省多少人工时间；
可以操作多少工具；
能否持续执行；
能否处理专业工作。

也就是说，AI定价单位正在从Token逐渐转向：

Delegated Work，被委托的工作量。

用户不太关心一个任务用了两万Token还是十万Token。

用户真正关心的是：

我花200元，AI能否帮我完成原本需要员工花几个小时处理的工作？

这也是为什么Agent产品会比普通聊天产品更贵。

一个Agent任务可能包含：

数十轮推理；
多次网页搜索；
多次文件读取；
多个子智能体；
图片或视频生成；
失败重试；
结果验证。

它消耗的计算资源，远高于普通问答。

六、两份报告揭示：AI正在从“辅助工具”变成“委托对象”

本周，OpenAI和Anthropic分别发布了关于AI使用模式的研究。

这两份报告来自不同公司的产品数据，研究方法也存在局限，不能直接代表所有劳动者。

但它们共同显示出一个趋势：

用户正在减少逐句指导，增加整体任务委托。

OpenAI：有人一天调度超过60小时的Agent工作

OpenAI对Codex使用情况的研究显示，截至2026年5月：

80.6%的抽样个人用户至少提交过一次相当于人类30分钟以上工作的任务；
70.2%的用户提交过相当于一小时以上工作的任务；
25.6%的用户至少提交过一次相当于八小时以上工作的任务。[6]

到2026年6月，使用量最高的1%内部用户，每天可以产生超过60小时的Codex Agent执行时间。

这里的60小时并不是一天变成了60小时。

而是一个人同时启动多个Agent：

Agent A：分析代码 Agent B：补充单元测试 Agent C：研究竞品 Agent D：整理文档 Agent E：处理数据

五个Agent各运行12小时，总计就是60小时Agent时间。

这意味着未来生产力的计算方式可能发生变化。

过去一个员工一天拥有8小时。

未来可能变成：

8小时人类决策时间 + 40小时AI执行时间 + 20小时后台验证时间

人类的角色不再只是亲自执行，而是调度一组数字工作者。

Anthropic：产品形态可能比底层模型更加重要

Anthropic的Economic Index报告发现，在相同类型任务中，Claude Code用户给予AI的自主权，普遍高于普通聊天或Cowork用户。

即使控制使用的模型版本，差距依然存在。[7]

这说明AI自主程度并不完全由模型决定。

同一个模型放在聊天框里，用户可能不断确认：

先看看这个文件。
再分析一下。
不要修改。
现在修改第二段。
再检查一次。

但放在Claude Code这类Agent环境中，模型拥有：

文件读取能力；
命令行；
项目结构；
修改工具；
测试命令；
执行反馈。

用户可能只需要说：

修复这个问题并运行测试。

因此，真正的AI能力可以写成：

实际能力 = 基础模型能力 × 上下文质量 × 工具权限 × 执行环境 × 验证机制

不能只看模型。

一个顶级模型如果没有项目文件、数据库结构和执行工具，也只能泛泛而谈。

一个稍弱的模型如果拥有完善上下文、稳定工具和自动测试，反而可能完成更多实际工作。

Autonomy不是放任不管

AI自主性通常可以分成五个层级。

第一级：回答

AI只提供建议，人类自己执行。

第二级：辅助

AI生成代码、文档或计划，由人类检查后使用。

第三级：执行

AI可以调用工具完成任务，但关键步骤需要确认。

第四级：委托

AI独立完成较长任务，人类主要检查最终结果。

第五级：自治

AI持续运行，根据环境变化主动采取行动。

企业真正需要的往往不是第五级，而是：

第三级和第四级之间的可控委托。

因为完全自治的风险和治理成本都非常高。

七、Agent评测开始从“考试题”转向“数字世界”

6月25日，AI评测公司Patronus AI公布Digital World Models，也就是数字世界模型，用于训练和测试AI Agent在复杂数字工作流中的行为。[8]

同一周，General Intuition宣布获得新一轮融资，继续探索利用大规模游戏视频和操作数据训练可以迁移到现实世界的AI系统。[9]

这两件事情共同指向一个问题：

传统Benchmark已经不足以评估Agent。

为什么传统测试不适合Agent？

传统模型测试通常是一道题对应一个答案。

例如：

输入：一道数学题 输出：最终答案 评价：正确或错误

但Agent任务可能是：

登录CRM系统，查找近三个月没有跟进的客户，按照商机等级分类，生成Excel，并通知对应销售人员。

这个任务包括：

登录系统；
查找菜单；
设置筛选条件；
读取客户数据；
判断客户类别；
生成文件；
检查格式；
发送通知；
记录执行结果。

最终文件正确，不代表执行过程安全。

例如Agent可能：

错误修改了客户数据；
把文件发送给了错误的人；
泄露了其他客户信息；
重复发送通知；
进入死循环；
使用了过高权限。

因此Agent评测必须关注：

任务成功率；
中间步骤；
工具调用轨迹；
权限使用；
错误恢复；
执行成本；
安全违规；
长时间稳定性。

Digital World Model是什么？

这里的数字世界，并不是生成一段视频。

它是一个可以与Agent互动的虚拟软件环境。

例如模拟一家公司的：

邮箱；
CRM；
工单系统；
数据库；
内部文档；
审批流程；
员工角色。

测试人员可以在其中人为制造问题：

某封邮件包含提示词注入；
某个客户数据缺失；
某个接口突然失败；
某个用户没有审批权限；
两份文档内容冲突；
某个任务执行到一半网络中断。

然后观察Agent是否能够：

识别攻击；
避免越权；
请求人工确认；
正确重试；
回滚操作；
保留审计记录。

这相当于给AI建立一个“数字驾校”。

自动驾驶汽车上路前，需要经过模拟道路测试。

企业Agent进入生产系统前，也需要在模拟业务环境中经历压力测试。

游戏为什么能训练现实世界AI？

游戏数据包含一种普通视频数据缺少的信息：

状态、动作和结果之间的连续关系。

例如玩家看到敌人后：

移动鼠标；
按下键盘；
寻找掩体；
调整视角；
观察结果；
再决定下一步动作。

这形成了：

观察 → 决策 → 行动 → 环境反馈 → 新决策

这和机器人控制、电脑操作、自动驾驶的基本结构相似。

但游戏能力迁移到现实世界仍然存在巨大困难。

游戏规则明确，环境可以重置；现实世界充满噪声，不允许随意重来。

因此游戏更适合训练：

空间理解；
长期规划；
快速反应；
目标分解；
多智能体协作。

而不是证明AI已经可以直接控制真实机器人。

八、Patch the Planet：AI发现漏洞之后，谁来负责修补？

6月22日，OpenAI联合安全公司Trail of Bits推出Patch the Planet计划，利用AI模型帮助开源项目寻找漏洞，并由专业安全工程师进行人工验证、补丁开发、测试和协调披露。[10]

这个项目真正值得注意的地方，不是AI能够发现多少漏洞，而是它强调了完整修复闭环：

发现疑似漏洞 → 人工复核 → 确认影响范围 → 开发补丁 → 编写测试 → 与维护者沟通 → 协调披露 → 发布修复版本

AI安全研究中存在一个长期问题：

模型生成漏洞报告越来越容易，但开源维护者的时间没有增加。

如果AI每天产生一万份低质量报告，维护者就必须花大量时间判断：

漏洞是否真实；
是否能够复现；
是否已经修复；
是否只是误报；
是否存在实际危害。

这种现象叫做：

Alert Fatigue，告警疲劳。

当告警太多时，真正严重的问题反而可能被淹没。

因此AI安全工具不能只追求“发现数量”，而应该关注：

有效漏洞比例；
复现成功率；
补丁正确率；
是否引入新Bug；
从发现到修复需要多长时间。

安全的价值不在于找到问题，而在于问题最终被修掉。

九、Notion Mail关闭：未来的软件可能不需要传统界面

6月25日，Notion宣布其独立邮件客户端Notion Mail将在9月停止服务，用户原有邮件仍保留在Gmail中，部分邮件管理能力可以迁移到拥有Gmail访问权限的Custom Agent。[11]

这看起来只是一个产品关停消息，却具有很强的象征意义。

传统邮件软件的基本界面几十年来变化不大：

收件箱；
未读邮件；
文件夹；
标签；
搜索框；
回复按钮。

但如果AI Agent可以自动：

阅读邮件；
判断优先级；
提取待办事项；
自动分类；
草拟回复；
更新项目状态；
提醒负责人；

那么用户是否还需要每天打开收件箱？

这代表软件交互方式可能从：

Interface-driven，以界面为中心

转向：

Intent-driven，以意图为中心。

过去用户需要知道如何操作软件。

未来用户只需要表达目标：

找出今天必须回复的邮件，整理成三类，并为最紧急的邮件生成回复草稿。

AI负责决定使用哪些软件功能。

传统软件不会彻底消失

界面仍然非常重要，特别是在以下场景：

查看AI做了什么；
修改AI的结果；
撤销错误操作；
处理异常情况；
审核高风险任务；
设置权限和规则。

因此未来软件不会简单地从“有界面”变成“没有界面”，而可能形成双层结构：

上层：自然语言和Agent 负责理解目标、规划和执行 下层：传统界面 负责查看、确认、调整和接管

AI不是替代所有软件界面，而是成为软件之上的新操作层。

十、这一周真正形成的五个AI新概念

1. 推理时扩展

模型在回答问题时动态增加思考时间、Token和工具调用，以提高复杂任务质量。

它的代价是更高成本和更长延迟。

2. 子智能体编排

主智能体将复杂任务拆分给多个专业Agent并行执行，再统一汇总和验证。

真正难点是任务分解、状态共享、冲突解决和最终验收。

3. 功能安全

系统发生故障时，仍然能够进入安全状态。

它是机器人、自动驾驶和工业AI进入现实环境的基础。

4. 数字世界模型

模拟软件系统和业务流程，为Agent提供可重复、可控制的训练和测试环境。

它相当于企业Agent的仿真试验场。

5. 被委托的工作量

AI产品价值不再只由Token数量决定，而由它能够独立完成多少实际工作决定。

它可能成为下一阶段AI产品定价的重要依据。

十一、对软件开发者意味着什么？

这一周最值得程序员关注的，不是某个模型排行榜的第一名发生变化，而是软件架构正在改变。

传统企业软件通常是：

用户点击按钮 → 程序执行固定逻辑 → 数据库返回结果 → 界面展示

Agent时代的软件可能变成：

业务事件或用户目标 ↓ Agent Orchestrator ↓ 模型路由与任务拆解 ↓ 工具调用层 ├── 数据库查询 ├── 内部HTTP接口 ├── 文件和报表 ├── 浏览器操作 ├── 邮件和短信 └── 第三方系统 ↓ 权限与人工审批 ↓ 执行、验证和回滚 ↓ 审计日志

对于C#企业软件，尤其是老旧WinForms系统，不建议直接把大模型API写进窗体代码中。

更合理的架构是：

WinForms客户端 ↓ 企业AI服务层 ASP.NET Core Web API ↓ Agent编排服务 ↓ 模型、RAG、数据库和业务接口

这样可以集中解决：

API密钥安全；
模型切换；
调用日志；
成本统计；
权限控制；
Prompt版本管理；
敏感数据脱敏；
失败重试；
人工审批；
操作回滚。

未来真正有价值的AI开发者，不只是会调用一个模型接口，而是能够构建：

可执行、可观察、可审计、可控制、可恢复的AI系统。

AI行业开始进入“系统能力竞争”

2026年6月22日至6月28日这一周，AI行业出现了一条非常清晰的主线。

GPT-5.6表明，模型正在变成由多个能力层级和多个子智能体组成的系统。

Jalapeño说明，模型公司开始深入芯片、服务器和数据中心。

NVIDIA Halos表明，AI进入物理世界之后，安全系统必须与模型能力同步建设。

豆包2.1与专业版说明，中国AI市场开始从免费聊天竞争，进入真正的生产力收费阶段。

OpenAI和Anthropic的研究表明，人类正在将越来越长的工作整体委托给Agent。

Digital World Models则说明，AI智能体不能只参加考试，还必须进入模拟世界接受压力测试。

未来AI竞争的基本单位，已经不再是一个孤立的大语言模型，而是：

模型 + 芯片 + 上下文 + 工具 + Agent + 安全 + 评测 + 商业模式

模型决定AI的能力上限。

而工程系统决定这个能力能否真正落地。

下一阶段最大的机会，不一定属于拥有最多参数的人，而可能属于那些能够把AI能力稳定接入真实业务，并且对成本、权限、安全和最终结果负责的人。

正如软件工程从来不只是写出一段能够运行的代码，AI工程也不只是让模型回答出一个看似正确的答案。

真正的智能系统，必须经得起长期运行、真实数据、复杂权限、异常输入和现实责任的考验。

企业官网建设流程全解析