芯片行业有一个词叫"良率",指的是生产出来的芯片中符合规格的比例。
现在AI研发流程里,有一个类似的问题我觉得可以叫做AI流程良率:Agent自动化执行一个完整流程,最终得到符合预期结果的概率是多少?
一个Agent流程,通常需要调用大模型十次左右。
每次调用都有出错的概率,假设每次出错率是5%——这已经是比较乐观的估计了——那么十次调用全部正确的概率是 0.95^10,大约是60%。换句话说,一个流程走完,有大约40%的概率在某个环节出了问题。
这个概率,在大多数应用场景里是可以接受的,出问题了人工介入修正就好。
但对芯片研发来说,这个数字太高了。
原因在于,芯片研发流程里有大量串联的、强依赖的步骤。
设计规范 → RTL实现 → 功能仿真 → 综合 → 时序分析 → 物理设计 → 后仿 → 流片。每一步都依赖上一步的正确输出。
还有一个问题:Agent出错之后,错误的溯源非常困难。
用人来做的步骤,出了错可以问"你当时是怎么想的",大多数时候能找到原因。Agent的决策过程是透明的但不直觉的——你能看到它每一步的输入输出,但要理解它为什么在某个地方做出了一个错误的判断,需要相当的分析成本。
对一个需要高度可解释性、需要在流片前把问题都排查干净的行业来说,这种不透明性是一个真实的障碍。
这并不是说Agent在芯片行业没有用武之地。
局部、有限的自动化,是现在更合理的切入点。
比如让Agent做特定类型的代码审查、生成重复性高的testbench模板、在固定格式里做文档整理——这些任务错了可以快速发现、快速修正,错误的扩散范围有限。在这些场景里,Agent的效率提升是实实在在的,出错率也在可接受范围内。
不同的步骤,不同的容错要求,不同的可接受出错率——这些加在一起,才是AI在芯片流程里的真实应用边界。
短时间内,全流程托付给Agent的条件还不成熟。但每一个能稳定跑起来的局部自动化,都是在为更大范围的自动化打基础。