【剖析】交换机CPU告急:ARP Miss风暴的成因、诊断与立体防御
2026/5/16 18:00:17 网站建设 项目流程

1. 当交换机突然"发烧":ARP Miss风暴现象全解析

那天凌晨3点,值班手机突然狂震。监控系统显示核心交换机的CPU使用率飙到98%,整个办公区的网络时断时续。我边穿衣服边远程登录设备,看到满屏的ARP Miss告警——又是这个熟悉的"老朋友"在搞事情。

ARP Miss风暴就像网络世界的"狼来了"故事。当交换机收到需要转发的数据包时,会先查ARP表找目标MAC地址。如果找不到对应条目(Miss),就会触发ARP请求广播。这本是正常流程,但当每秒出现成千上万次ARP Miss时,交换机CPU就会陷入处理这些请求的泥潭。

典型症状有三联征

  • CPU过载:通过display cpu-usage能看到某个核的利用率长期高于90%
  • 临时ARP表爆炸display arp输出里满是"Incomplete"状态的表项
  • 业务卡顿:ping测试时延波动大,视频会议卡成PPT

有次我给医院做巡检,发现一台接入交换机CPU持续100%。查ARP表竟有300多个临时条目,都是来自同一网段的IP。后来发现是某科室新装的体温监测终端在疯狂发送目标不可达的探测包。这种设备级联时如果配置不当,就会变成"网段扫描器"。

2. 抽丝剥茧:ARP Miss的三大罪魁祸首

2.1 网段扫描的"机关枪效应"

某次金融客户割接后,核心交换机突然CPU报警。用display arp anti-attack arpmiss-record-info一看,有个IP在1分钟内发送了2万多次ARP Miss。原来是新部署的资产扫描系统把扫描间隔设成了0秒,相当于用机关枪对着交换机扫射。

网段扫描的特征非常明显

  • 源IP固定但目标IP连续变化
  • 每个包都会触发ARP查询
  • 常见于新上线设备或安全扫描工具
<HUAWEI> display arp anti-attack arpmiss-record-info Interface IP address Attack time Block time GigabitEthernet1/0/0 192.168.1.100 2023-05-12 14:30:15 2023-05-12 14:35:15

2.2 TC报文引发的"记忆丧失"

更隐蔽的是TC(拓扑变更)报文攻击。某学校网络每到课间就卡顿,最后发现是某个接入交换机在发送伪造的TC报文。这会导致交换机清空MAC表,连锁反应使得ARP表项也失效,就像给交换机打了失忆针。

识别TC攻击的关键点

  • 检查日志中的%MAC_FLAPPING提示
  • 使用display mac-address flapping record
  • 突发大量ARP Miss前有MAC表项变更记录

2.3 配置不当的"自残行为"

有次帮客户排查问题,发现他们为了"安全"把ARP老化时间设成了10分钟。结果办公高峰期ARP表很快填满,新ARP学习就要先淘汰旧条目,反而制造了大量ARP Miss。这就像为了省电把电梯速度调慢,结果更多人被困在等电梯的队伍里。

3. 急诊室级别的诊断手法

3.1 快速体检:三步定位法

第一步:查CPU负荷分布

<HUAWEI> display cpu-usage CPU Usage Stat. Cycle: 60 (Second) CPU Usage : 98% Max: 99% TaskName CPU Runtime(CPU Tick High/Tick Low) CPU Usage% ARP 12345678/0 85%

看到ARP进程吃掉了85%的CPU?基本可以锁定问题。

第二步:看CPCAR丢包统计

<HUAWEI> display cpu-defend statistics packet-type arp-miss all Statistics on slot 1: PacketType Pass(Packet/Byte) Drop(Packet/Byte) arp-miss 1024/81920 20480/1638400

丢包数是通过数的20倍?典型的ARP Miss风暴特征。

第三步:验ARP表状态

<HUAWEI> display arp | include Incomplete 192.168.1.1 Incomplete - Vlanif10 192.168.1.2 Incomplete - Vlanif10 ...(超过20条类似记录)

3.2 深度CT扫描:抓包分析

当基础命令不能确定攻击源时,需要用镜像抓包:

<HUAWEI> system-view [HUAWEI] observe-port 1 interface GigabitEthernet 1/0/1 [HUAWEI] interface GigabitEthernet 1/0/2 [HUAWEI-GigabitEthernet1/0/2] port-mirroring to observe-port 1 inbound

用Wireshark分析抓包文件时,重点关注:

  • 高频出现的ARP Who-has包
  • 目标IP呈规律性变化的IP包
  • 同一源IP在短时间内重复请求不同目标

4. 立体防御战术手册

4.1 第一道防线:CPCAR限流

就像给洪水开闸泄洪,调整CPCAR可以控制ARP Miss上送CPU的速率:

[HUAWEI] cpu-defend policy anti-arpmiss [HUAWEI-cpu-defend-policy-anti-arpmiss] car packet-type arp-miss cir 256 [HUAWEI-cpu-defend-policy-anti-arpmiss] quit [HUAWEI] cpu-defend-policy anti-arpmiss global

参数调优经验

  • 办公网建议CIR设为512-1024
  • 生产网可放宽到2048
  • 配合display cpu-defend statistics观察丢包率调整

4.2 精准打击:源抑制技术

对于确定的攻击源,可以实施"外科手术式"打击:

[HUAWEI] arp-miss speed-limit source-ip maximum 10 [HUAWEI] arp-miss speed-limit source-ip 192.168.1.100 maximum 1

这条规则让192.168.1.100这个IP每秒只能触发1次ARP Miss,超出部分直接丢弃。有次我们用这个方法瞬间把CPU从95%降到30%。

4.3 防御工事:ARP表优化

合理配置ARP表能减少Miss概率:

[HUAWEI] interface Vlanif 10 [HUAWEI-Vlanif10] arp expire-time 1200 # 设置ARP老化时间为20分钟 [HUAWEI-Vlanif10] arp fake expire-time 5 # 临时ARP表项5秒超时

黄金配置法则

  • 终端密集区域适当增大arp expire-time
  • 临时表项超时应小于ARP探测间隔
  • 对重要服务器配置静态ARP

4.4 终极武器:硬件防护

高端交换机可以启用硬件防攻击功能:

[HUAWEI] cpu-defend policy anti-arpmiss [HUAWEI-cpu-defend-policy-anti-arpmiss] hardware-car packet-type arp-miss cir 2048

这相当于给ARP Miss处理装了涡轮增压,性能比软件处理提升10倍以上。某数据中心启用后,即使遭遇攻击CPU也能保持在50%以下。

5. 从救火到防火:运维最佳实践

经历过多次ARP Miss风暴后,我总结出这些经验:

  • 监控预警:设置CPU利用率超过70%持续5分钟告警
  • 基线建立:记录正常时段的ARP Miss速率作为基准
  • 变更管理:新设备上线前先做网络扫描测试
  • 定期审计:每月检查一次ARP表项数量和CPCAR配置

有家客户按照这个方案改造后,ARP Miss导致的故障从每月3-4次降为零。最让我欣慰的是,他们后来自己用display arp anti-attack arpmiss-record-info定位并解决了一次潜在攻击。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询