半导体百科_失效分析全流程
2026/7/4 17:38:47 网站建设 项目流程

<div class="htmledit_views htmledit_views-cn">

<h1>【半导体百科】失效分析全流程:从EFA到PFA,我是怎么把良率从72%拉回98%的</h1>

<h2>一、我为什么写这篇文章</h2>

<p>三年前我接手一个SoC项目,量产阶段良率突然从96%跌到72%。查了两个星期,生产线、封装厂、晶圆厂全查遍了,没人能告诉我根因在哪里。老板站在我工位边上说:"给你两周,搞不定这个项目就停了。"那天晚上我没有回家,在实验室里把失效样品一台台过EFA + PFA,最终定位到是金属层Via Void导致的失效——根本原因是CMP工艺腔室的研磨液更换周期被延长了。找到根因后,工艺参数一调整,良率第二天就回到了96%。</p>

<p>这就是失效分析的价值:它不是QE(质量工程师)的专属技能,而是每一个半导体工程师都必须掌握的核心能力。本文是我过去几年失效分析实战经验的总结,覆盖从EFA到PFA的完整流程,并提供可直接复用的Python代码和真实案例。</p>

<h2>二、失效分析到底在分析什么?</h2>

<p>失效分析(Failure Analysis,FA)是研究电子元器件或芯片失效机理的技术手段。失效的来源可能是设计缺陷、工艺波动、材料问题、ESD损伤、过电应力(EOS),甚至是封装引入的应力问题。</p>

<p>失效分析的终极目标只有一个:找到根因(Root Cause),然后推动闭环改善。很多工程师把失效分析做成了"写报告交差"——报告写了一堆,问题还是复现。这不是失效分析,这是失效报告。真正的失效分析必须做到三点:定位(Where)→ 确认(What)→ 溯因(Why)。</p>

<h2>三、失效分析标准流程(我每次都这么做)</h2>

<p>失效分析的完整流程分为三大阶段:</p>

<p>① 故障定位(Fault Isolation)</p>

<p>确认失效样品是否真的失效,用ATE(自动测试设备)做初筛,确定失效管脚和失效模式(开路/短路/漏电/功能异常)。这是后续所有分析的基础——如果连样品有没有失效都不确定,后面的工作都是徒劳。</p>

<p>② 非破坏性分析(Non-Destructive Testing,NDT)</p>

<p>在不动手术的情况下找到问题区域。常用手段包括:X-ray透视(检查封装内部结构)、SAT超声扫描(检测焊点/分层/空洞)、Thermal EMMI(热点定位)、OBIRCH(光束感生电阻变化)。这个阶段的目的是缩小范围,为破坏性分析提供目标区域。</p>

<p>③ 破坏性分析(Destructive Analysis,PFA)</p>

<p>最后一步,必须"眼见为实"。常用手段包括:FIB(聚焦离子束切割截面)、SEM(扫描电子显微镜观察形貌)、TEM(透射电镜看原子级缺陷)、EDX/EDS(成分分析)、SIMS(二次离子质谱测掺杂分布)。这一阶段会把样品彻底破坏,所以必须放在最后。</p>

<p>流程图如下:</p>

<p>图1 某IC产品线失效模式Pareto分析(基于500颗失效样品的统计数据)</p>

<p>图2 半导体失效分析完整流程图(EFA→PFA)</p>

<h2>四、EFA(电性故障分析)详解</h2>

<p>EFA是失效分析的第一道关卡。EFA的核心思想是:通过电学测量手段,在不破坏样品的前提下,把问题范围缩小到某个区域、某个器件、甚至某层金属。</p>

<p>IV曲线测试是最基础的EFA手段。我用半导体参数分析仪(Keithley 2400)对每个失效管脚做I-V扫描。典型案例:gate短路时IV曲线是垂直短路特性,漏电时曲线会整体上移,ESD损伤表现为在某个电压下曲线突然拐弯。</p>

<p>Thermal EMMI(发射显微镜)利用失效点发热发光原理。把芯片加电后放在EMMI机台下,热点区域会发出近红外光。我有一次遇到一个IO端口漏电的问题,Thermal EMMI一照,热点直接定位到了ESD保护电路附近——这给了我非常明确的信号:问题就出在ESD器件上。</p>

<p>OBIRCH(光束感生电阻变化)比EMMI更精确。用激光扫描芯片表面,局部电阻变化会反映在电流上。Via Void、金属开路、接触孔问题都能被OBIRCH精确捕捉。LVP(大功率OBIRCH)用于高功耗芯片或者需要更高灵敏度的场景。</p>

<p>各EFA工具的核心特点对比:</p>

<h2>五、PFA(物理故障分析)详解</h2>

<p>PFA阶段是"动真刀"的时候。当你用EFA把问题范围缩小到某个区域后,就需要PFA来确认真实缺陷是什么。</p>

<p>FIB(聚焦离子束)是我在PFA阶段第一个用的工具。它用Ga或Xe离子束对样品进行精确切割。我可以在任何位置切一个指定尺寸的截面(最小可达~50nm级别),然后立刻用SEM成像看截面形貌。FIB还有一个常用功能:做Circuit Edit,把某根金属线切断或者连起来,用于修复设计或者隔离电路。这个操作在失效分析中常用于确认某个器件是否是真正的失效根因。</p>

<p>SEM(扫描电子显微镜)提供比光学显微镜高得多的分辨率(可达~1nm)。通常和FIB配合使用——FIB切完截面,SEM立刻成像。SEM有两种模式:SE(次级电子)看表面形貌,BSE(背散射电子)看成分对比。</p>

<p>TEM(透射电镜)是PFA的"终极大招"。分辨率可达原子级(~0.1nm),可以看晶格缺陷、位错、界面问题。但TEM样品制备极其复杂,需要FIB切出~100nm厚的薄片,还要用离子束减薄到~50nm以下。所以TEM通常是最后的选择,只有在前面的手段都搞不定的情况下才会用。</p>

<p>EDX(能量色散X射线谱)和SIMS(二次离子质谱)用于成分分析。EDX可以快速判断某个异物是铝(Al)、铜(Cu)还是硅(Si);SIMS更灵敏,可以检测ppm甚至ppb级别的掺杂浓度变化,对于判断离子污染或掺杂异常非常有效。</p>

<h2>六、三个真实案例,彻底讲透失效分析思维</h2>

<h3>案例1:ESD损伤定位</h3>

<p>问题背景:某车规MCU产品,量产中出现~0.8%的功能失效,主要表现为IO口无法正常输出高电平。</p>

<p>分析过程:① 用ATE确认失效管脚,发现是特定GPIO组失效;② 用IV曲线测试,失效管脚在3.3V附近有明显漏电支路(正常管脚应该截止区漏电<1nA);③ Thermal EMMI直接定位到IO ESD保护电路位置;④ FIB截面+SEM确认ESD保护器件GGNMOS的Gate Oxide有击穿点(~200nm直径);⑤ EDX分析确认击穿点附近有Cl元素污染(来自封装等离子清洗残留)。</p>

<p>根因:封装厂等离子清洗工艺残留Cl离子,在后续回流焊高温过程中迁移到芯片表面并侵入ESD器件,导致ESD保护能力退化,在人体静电放电事件中Gate Oxide被击穿。改善措施:加强封装后等离子清洗的离子污染检测,增加HMDS防潮处理,ESD器件增加了HCI注入调整触发电压。</p>

<h3>案例2:Via Void导致互连失效</h3>

<p>这是开头提到的那个让我差点丢了项目的案例。Via Void(通孔空洞)是铜互连工艺中的常见缺陷。空洞会导致局部电流密度过高,长期通电后发生电迁移(Electromigration),最终导致开路失效。分析过程:① IV曲线确认是开路失效;② OBIRCH定位到某层M4→M5的Via区域电阻异常偏高;③ FIB截面+SEM确认Via内部存在~40%的空洞面积;④ EMMI进一步确认空洞区域局部发热。</p>

<p>这个案例教会我一件事:失效分析不要只盯着"失效"的那个器件,要看系统。Via Void本身不一定会立即失效,但加上电迁移加上热积累,就是一个慢性杀手。工艺参数改善后,后续生产的芯片再也没有出现类似问题。</p>

<h3>案例3:金属断裂(Metal Crack)</h3>

<p>某高频模拟芯片在使用6个月后开始出现增益漂移,失效比例约2%。分析过程:① 热测试发现芯片内部局部温度比正常品高15℃;② OBIRCH扫描发现局部金属走线电阻偏高;③ FIB截面+SEM确认某段金属走线存在细微裂纹(Metal Crack),裂纹宽度~100nm;④ EDX确认裂纹附近无异物污染,排除化学腐蚀可能。</p>

<p>根因:芯片封装后引线框架(Lead Frame)与模塑料之间的CTE(热膨胀系数)不匹配,在温度循环应力下,金属走线受到周期性拉伸,最终产生疲劳裂纹。这个案例的教训:热设计和机械可靠性必须从设计阶段就考虑进去,而不是等问题出来了再分析。</p>

<h2>七、失效数据Pareto分析(Python代码)</h2>

<p>下面这段代码是我日常用的Pareto分析脚本,可以直接复制使用。</p>

<p>import numpy as np

import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif'] = ['SimHei','Arial']

plt.rcParams['axes.unicode_minus'] = False

failures = ['Via Void','金属断裂','ESD损伤',

'栅氧击穿','焊点脱粘','其他']

counts = [142, 98, 76, 54, 38, 92]

sorted_idx = np.argsort(counts)[::-1]

f, c = [failures[i] for i in sorted_idx], [counts[i] for i in sorted_idx]

cum = np.cumsum(c)

pct = cum / cum[-1] * 100

fig, ax1 = plt.subplots(figsize=(9,5), dpi=150)

bars = ax1.bar(f, c, color='#E74C3C', edgecolor='white')

ax1.set_title('失效模式Pareto分析', fontsize=14, pad=12)

ax1.set_ylabel('失效数量', color='#E74C3C')

for bar, val in zip(bars, c):

ax1.text(bar.get_x()+bar.get_width()/2, val+2,

str(val), ha='center', fontsize=9)

ax2 = ax1.twinx()

ax2.plot(f, pct, 'ko-', linewidth=2.2, markersize=7)

ax2.axhline(80, color='green', linestyle='--',

linewidth=1.5, label='80%线')

ax2.set_ylabel('累计占比 (%)', color='black')

for i, p in enumerate(pct):

ax2.text(i, p+2, f'{p:.1f}%', ha='center', fontsize=8.5)

ax1.legend(loc='upper right')

ax2.legend(loc='right')

plt.tight_layout()

plt.savefig('failure_pareto.png', dpi=150)

plt.show()</p>

<p>[要点] 为什么这样写:① argsort[::-1] 实现降序排列,保证Pareto图从最大项到最小项排列;② np.cumsum计算累计和,这是Pareto分析的核心;③ twinx在同一张图上叠加柱状图(绝对数量)和折线图(累计占比),一目了然;④ axhline标注80%线,快速识别"关键的少数"(Vital Few)。</p>

<h2>八、效果对比:失效分析实施前后对比</h2>

<h2>九、实施建议:如何建立失效分析能力</h2>

<p>1. 先建立标准化流程(SOP)</p>

<p>不要让每个人按自己的习惯做失效分析。制定一套从接样→初筛→EFA→PFA→报告→改善跟踪的标准流程。流程定了之后,新人也能快速上手,失效分析效率会大幅提升。</p>

<p>2. 设备投入是基础</p>

<p>EFA设备(IV测试机台、EMMI、OBIRCH)是失效分析的第一道眼睛。没有这些设备,EFA阶段基本靠猜,后面的PFA也就无从下手。如果预算有限,IV测试 + OBIRCH是最基础的组合。</p>

<p>3. 数据积累是财富</p>

<p>每次失效分析完成后,把失效模式、失效机理、根因分类整理到一个数据库里。半年之后你就有了一份宝贵的"失效知识库",新问题来的时候可以快速匹配历史案例。</p>

<p>4. 跨部门协作是关键</p>

<p>失效分析不是一个人能完成的。分析过程中一定会涉及工艺厂、封装厂、设计团队、测试团队。建立有效的沟通机制,让每个环节都能及时响应,是缩短根因定位时间的关键。</p>

<h2>十、进阶方向:从失效分析到可靠性预测</h2>

<p>当前沿方向有两个值得关注:</p>

<p>第一是AI驱动的失效分析。传统的失效分析依赖工程师经验,效率低且主观性强。现在已经有团队在用机器学习对EMMI热图、OBIRCH图像进行自动判读,把失效特征和失效机理对应起来。这可以大幅减少工程师的学习曲线。</p>

<p>第二是预测性失效分析。通过在线监控芯片在工作状态下的电学参数漂移(IDDQ监测、时序漂移监测),结合可靠性物理模型(Physics-of-Failure),在芯片实际失效之前预测其剩余寿命。这是未来可靠性工程的核心方向。</p>

<p>[讨论] 【评论区提问】你的产品遇到过哪些失效问题?是通过什么手段定位到根因的?有没有"踩坑"的经历?欢迎在评论区分享,我们一起讨论!</p>

<p>⭐ 【VIP会员推广】想要更系统的半导体可靠性工程资料?欢迎加入VIP会员,获取《半导体失效分析实战手册》《JEDEC标准速查指南》《100+失效案例库》,持续更新中,限时优惠中!</p>

<p>━━━━━━━━━━━━━━━━━━━━━━━━━━

[提示] 觉得有用就点个关注!每天分享半导体FAB实战经验,从PE到PIE的完整成长路径都在这里。

━━━━━━━━━━━━━━━━━━━━━━━━━━</p>

<p>━━━━━━━━━━━━━━━━━━━━━━━━━━

[图标] 讨论时间:你在FAB遇到过类似问题吗?是怎么解决的?欢迎在评论区分享你的经验!

━━━━━━━━━━━━━━━━━━━━━━━━━━</p>

<p>[图标] 本文配套VIP资源:半导体AI工具包(SPC异常检测+FDC规则模板+AI良率预测模型),已在CSDN资源区上架。</p>

<p>博客主页:https://blog.csdn.net/yeflashzhihui</p>

<p>半导体智能制造 | MES工程师实战笔记 -- 关注我,查看更多FAB实战经验</p>

</div>

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询