UNAD+: 一个用于未知网络攻击检测的可解释混合框架
2026/6/3 4:08:55 网站建设 项目流程

大家读完觉得有帮助记得关注和点赞!!!

摘要
检测先前未见的网络攻击仍然是入侵检测系统面临的主要挑战。尽管监督学习方法通常在已知攻击类别上表现良好,但当训练数据中未包含新的攻击类型时,它们的能力受到限制。无监督方法更适合检测零日攻击,因为它们不需要标记的攻击样本,但常常遭受高误报率的困扰,这限制了它们在现实世界中的实用性。本文提出了 UNAD+,一个用于未知网络攻击检测的增强框架,源于先前提出的未知网络攻击检测器。UNAD+ 结合了一个仅使用良性数据的无监督集成与加权多数投票、一个在伪标记检测上训练的监督细化阶段,以及一个提供局部和全局解释的事后可解释性层。该框架在 CICIDS2017 和 NSL-KDD 基准数据集上进行了评估。结果表明,UNAD+ 在原始 UNAD 框架的基础上有所改进,在基准数据集上实现了超过 98% 的 F1 分数,同时显著降低了误报率,并通过集成的可解释性增强了透明度和部署适用性。


1 引言

基于网络的攻击频率和复杂性不断增加,给现代网络安全基础设施带来了重大挑战。入侵检测系统通过监控和分析网络流量以识别潜在的恶意活动,继续作为核心防御机制发挥作用 [12]。随着网络环境规模和复杂性的增长,区分恶意流量与合法行为变得越来越困难,尤其是当攻击被设计成类似于正常活动时 [37]。尽管基于机器学习的入侵检测研究取得了实质性进展,但可靠检测未知或先前未见的攻击仍然是一个主要挑战 [28]。

许多现有的智能入侵检测系统基于监督学习 [32]。当部署期间遇到的攻击类别在标记的训练数据中得到充分体现时,这些方法通常表现强劲 [41]。然而,它们的有效性仅限于先前见过的攻击类型,因为它们必须在明确包含这些攻击的标记数据上进行训练。在实践中,新出现的攻击(通常称为零日攻击,即系统先前未见过的攻击)可能与模型训练期间使用的攻击类别不同。因此,尽管监督系统对已知威胁有效,但它们通常难以很好地泛化到不熟悉的攻击行为 [3, 42]。

相比之下,无监督学习方法试图在不依赖标记攻击数据的情况下检测异常活动 [40],这使它们非常适合识别先前未知的或零日攻击。这些方法不是从已知的攻击签名中学习,而是学习良性或正常流量的特征,并将与该特征的显著偏差视为可疑。这使得它们在尚未获得新威胁的标记示例的环境中特别有用。然而,无监督方法通常遭受高误报率 [15] 的困扰,这限制了它们的实际适用性,并可能增加安全分析师的负担。因此,尽管无监督方法对零日检测很重要,但在现实世界环境中可靠使用之前,它们的输出通常需要进一步细化。

这些局限性促使了混合入侵检测框架的发展,该框架结合了无监督学习和监督学习的优势。在这样的设计中,无监督阶段可以首先识别可疑或先前未知的流量,而无需求助于标记的攻击数据。相比之下,监督阶段可以随后从这些检测中学习并改进最终的分类结果。这减少了对大量标记攻击数据的依赖,同时使系统能够在发现新威胁后提高其检测能力。然而,此类系统的设计引入了进一步的挑战,包括如何组合多个异常检测器的输出,如何减少伪标记错误(即在确认真实类别之前临时分配良性或攻击标签时产生的错误)的影响,以及如何使最终决策对人类分析师易于理解。

除了检测性能之外,透明度也是智能入侵检测系统中的一个重要要求。尽管混合机器学习系统可以提高检测性能,但其内部推理通常在系统层面难以解释 [30]。即使某些单个分类器是可解释的,多个模型之间的交互仍然可能导致黑箱行为。这种缺乏透明度的现象可能会降低分析师的信任,并使根本原因分析、事件分类以及医疗和金融等受监管行业的合规性复杂化 [20]。出于这个原因,可解释人工智能应被视为可部署入侵检测系统设计中不可或缺的一部分。通过结合局部和全局解释方法,系统可以为其决策提供可解释的正当理由,并支持更透明的分析 [18]。

为了解决这些问题,本文提出了 UNAD+,一个用于未知网络攻击检测的增强框架,它扩展了先前提出的未知网络攻击检测器 [6]。该框架保留了原始模型仅使用良性数据的无监督检测能力,并引入了三个主要扩展。首先,加权多数投票机制取代了简单多数投票,以便更强的基础检测器对最终的集成决策有更大的影响。其次,引入了一个监督细化阶段,其中由无监督集成生成的伪标记良性和攻击流被用来训练一个二级分类器,以提高检测准确性并减少误报。第三,添加了一个事后的可解释性层,使用局部和全局解释方法来提高透明度并支持分析师解读。通过这种方式,UNAD+ 在一个单一的模块化框架内结合了未知攻击检测、监督细化和可解释的决策支持,用于检测零日或先前未见的攻击。

提出的框架在两个广泛使用的入侵检测基准数据集 CICIDS2017 [36] 和 NSL-KDD [39] 上进行了评估。实证结果表明,UNAD+ 在原始 UNAD 基线的基础上显著提高了检测性能,同时减少了误报并增强了透明度。因此,这项工作的贡献不仅限于提高预测性能;它还展示了如何将无监督检测、监督细化和可解释性集成到一个连贯的入侵检测系统框架中,以实现更可靠的零日攻击检测。


2 相关工作

机器学习已成为现代入侵检测系统的重要组成部分,许多现有方法基于监督模型 [31]。这些方法在经过良好标记的数据集上进行训练和测试时,通常能实现强劲的分类性能。然而,它们的成功在很大程度上取决于标记攻击数据的可用性 [23],而这些数据通常是不完整的,并且偏向于先前已知的威胁。这限制了它们在检测零日或先前未见攻击方面的实用性。相比之下,无监督异常检测方法旨在识别偏离正常行为的情况,而不依赖标记的攻击样本 [29],这使它们更适合检测未知威胁。即便如此,它们的实际使用仍然具有挑战性,因为它们常常产生高误报率 [33],特别是在良性流量模式多样或随时间变化的环境中 [16]。诸如聚类、自编码器和基于密度的方法(包括隔离森林 [26] 和局部离群因子 [11])等技术已用于此目的,但其有效性因数据集和操作条件而异。

基于集成的入侵检测已被研究以提高鲁棒性并减轻单个异常检测器的局限性。与单一模型相比,多个基础学习器的聚合通常能产生更稳定和准确的结果 [35]。最近的几项入侵检测研究使用多数投票来聚合集成输出 [24, 38, 14]。例如,这种方法已被用于结合异构分类器,如 LSTM、KNN 和逻辑回归 [24]、基于树的集成模型 [38] 以及聚焦物联网的入侵检测框架 [14]。尽管这种方法简单直接,但它假设所有基础学习器具有同等的可靠性,而这一假设在实践中可能不成立。一些研究探索了基于模型性能或置信度分数的加权策略 [9, 4],表明在模糊情况下,更强的分类器可以更有效地参与决策。然而,加权投票在入侵检测文献中仍然相对未被充分利用,特别是在专门为未知攻击检测设计的系统中。

另一系列研究聚焦于结合无监督检测和监督学习的混合框架。这些系统背后的主要动机是,无监督阶段可以首先检测可疑或先前未知的流量。相比之下,监督阶段随后可以从这些检测中学习并改进最终的分类结果。例如,Zoppi 和 Ceccarelli [43] 提出了一个基于堆叠的框架,其中异常输出由一个监督元分类器进行细化。类似地,Kale 等人 [25] 在混合入侵检测环境中结合了聚类、半监督学习和监督分类。这些研究展示了结合不同学习范式的价值。然而,许多混合入侵检测系统在如何管理伪标签、如何控制错误传播,或者如何以结构化和可重复的方式执行细化方面,仍然提供的细节有限。因此,尽管混合学习很有前景,但在许多现有系统中,其与零日入侵检测的集成仍然不完整。

随着入侵检测架构变得越来越复杂,可解释性也成为一个重要问题。诸如局部可解释模型无关解释 [34] 和 SHapley Additive exPlanations [27] 等可解释人工智能技术已被用于为机器学习预测提供局部解释。在网络安全中,这些方法很有价值,因为它们有助于分析师理解为什么一个流量被分类为恶意,以及哪些特征影响了该决策。然而,安全领域现有的许多可解释人工智能工作主要是在检测后提供解释,而不是将其作为入侵检测系统工作流中明确的架构组件嵌入 [17, 8]。例如,Gaspar 等人 [17] 应用 LIME 和 SHAP 来解释黑箱入侵检测模型的输出。相比之下,Arreche 等人 [8] 评估了用于网络入侵检测的黑箱可解释人工智能方法,而不是将解释作为检测工作流中支持更透明和可操作分析的明确组成部分。

评估入侵检测框架的另一个困难在于用于基准测试的数据集。CICIDS2017 [36] 和 NSL-KDD [39] 是入侵检测研究中使用最广泛的数据集之一,但它们在流量组成、攻击多样性和复杂性方面差异很大。因此,在一个数据集上的强劲性能并不一定意味着在另一个数据集上具有同等的鲁棒性。尽管许多研究在这些基准上报告了令人鼓舞的结果 [22, 15],但提供同时解决以下三个问题的综合解决方案的研究较少:检测未知攻击、通过监督学习细化检测,以及提供系统决策的透明解释。然而,很少有人关注将仅使用良性数据的无监督检测、结构化的监督细化和集成的解释结合在单一框架内的系统。这一差距促使了本文提出的 UNAD+ 框架。


3 UNAD+:框架设计与组件

在原始 UNAD 框架的基础上,UNAD+ 引入了三个主要扩展:用于改进集成决策的加权投票、用于更准确和鲁棒检测的监督细化,以及用于提高透明度和分析师支持的可解释性。

3.1 原始 UNAD 框架

原始 UNAD [6] 是一个无监督的、基于集成的入侵检测框架,旨在识别先前未见的攻击。与基于签名和监督的入侵检测系统不同,UNAD 仅在良性流量上训练。这使得系统能够在不需要事先了解攻击签名或标记恶意实例的情况下检测异常行为。

UNAD 使用一个由 100 个基础学习器组成的异构集成,包括 50 个局部离群因子模型 [11] 和 50 个隔离森林模型 [26]。每个学习器使用装袋法在良性数据的自助子集上训练,以促进基础检测器之间的多样性并减少过拟合。然后使用简单多数投票来组合集成产生的预测,其中每个模型对良性或攻击类投一票,多数票决定最终预测。

尽管原始 UNAD 证明了仅使用良性数据的异常检测可以识别未知攻击,但它也表现出几个局限性。首先,投票过程对所有基础学习器赋予同等重要性,尽管它们的性能可能有所不同。其次,在单个预测层面出现平局时需要人工干预,降低了检测过程的自动化程度。第三,该框架缺乏解释其决策的机制,限制了其在需要透明度和分析师信任的实际部署场景中的适用性。

3.2 UNAD+ 概述

为了解决原始 UNAD 的局限性,本文提出了 UNAD+,它保留了原始框架仅使用良性数据的无监督检测能力,同时引入了三个主要增强:(1) 加权多数投票,(2) 一个监督细化阶段,以及 (3) 一个事后的可解释性层。图 1 显示了 UNAD+ 的整体架构,包括无监督集成 (C1)、监督细化阶段 (C2)、人机交互检查点以及可解释性组件 (C3)。

在这个架构中,第一个组件使用仅良性数据的无监督集成来检测可疑或先前未见的流量。第二个组件通过在第一阶段伪标记输出上进行监督学习来细化这些初步检测,从而提高分类质量并减少误报。第三个组件为最终决策提供局部和全局解释,提高透明度,并帮助分析师理解为什么一个流量被分类为良性或恶意。

图 1:UNAD+ 架构:(1) 在良性数据上训练的无监督集成;(2) 使用伪标签进行监督细化;(3) 用于局部和全局解释的事后可解释性。

为了进一步提高鲁棒性,在无监督集成和监督细化阶段之间设置了一个人机交互检查点 [5]。此步骤允许领域专家在将伪标记检测用于监督学习之前,对其子集进行审查和验证。通过这种方式,该框架降低了将来自无监督集成的错误或不可靠标签传递到细化组件的风险。

3.3 集成设计与装袋策略

UNAD+ 的第一阶段包括数据预处理,随后是无监督集成构建。图 2 展示了 UNAD+ 中使用的无监督集成的结构。在训练之前,应用主成分分析进行降维 [2]。对于每个数据集和检测器,保留的主成分数量通过实验调优确定,并基于达到的最高 F1 分数进行选择 [5]。然后,将得到的降维表示作为输入传递给无监督集成。

图 2:UNAD+ 中无监督集成阶段的工作流程。

与原始 UNAD 一样,无监督集成结合了 50 个 LOF 学习器和 50 个 iForest 学习器。这一配置得以保留,因为 100 个基础学习器的集成产生了最强的整体性能,而 LOF 和 iForest 之间的均分避免了偏向任何一种学习器类型 [6]。在最初考虑的异常检测方法中,包括局部离群因子、隔离森林、椭圆包络和一类支持向量机,LOF 和 iForest 实现了最强的整体 F1 分数,因此被选中。使用装袋法,通过在良性训练数据的不同自助样本上训练每个基础学习器,在集成中引入多样性 [10]。这提高了泛化能力,并减少了个体学习器不稳定性带来的影响。

除了样本级别的变化外,通过对每种学习器类型使用不同的高性能超参数组合,进一步引入了异质性。因此,该集成既受益于通过结合使用 LOF 和 iForest 带来的算法异质性,也受益于通过多个参数设置和自助训练子集带来的内部变化。这样的结构使系统能够更好地捕获网络流量中不同形式的异常行为。

3.4 投票策略:加权多数投票

原始 UNAD 的一个关键局限性是它依赖简单多数投票,这平等地对待所有基础学习器。然而,在实践中,并非所有基础学习器对最终决策的贡献都相同。给予较弱和较强的学习器同等的影响力可能会降低最终决策的有效性,并且在学习器数量为偶数的情况下,还可能导致需要打破平局的平局投票。

为了解决这个问题,UNAD+ 用加权多数投票取代了简单多数投票。在验证期间,每个基础学习器获得与其 F1 分数成比例的权重。在推理时,预测(0 表示良性,1 表示攻击)掩盖了它们的权重。对每个类别的分数求和,并使用最高分数作为集成输出。

这种策略使较强的检测器比较弱的检测器对最终决策有更大的影响。因此,不可靠模型的影响被降低,并且预计集成将产生更确定的预测。加权多数投票的另一个实际优势是,它消除了在原始 UNAD 的多数投票版本中观察到的与平局相关的模糊性,在原始版本中,平局投票被以有利于良性类的方式解决,从而引入了对良性预测的偏见。由于决策是基于连续的加权分数而不是相等的票数,精确的平局变得极不可能发生。因此,预计加权多数投票将提高框架的操作可靠性,同时保持基于集成的异常检测的优势。UNAD+ 中加权多数投票的实现如算法 1 所示。

算法 1 UNAD+ 中的加权多数投票
1: 输入:
2: 预测 P = [p₁, p₂, …, pₙ],其中 p_i ∈ {benign, attack}
3: 每个基础学习器的 F1 分数 F = [f₁, f₂, …, fₙ]
4: 输出:该实例的最终类别标签
5:
6: 初始化:Score_benign ← 0, Score_attack ← 0
7: for i = 1 to n do
8: if p_i == benign then
9: Score_benign ← Score_benign + f_i
10: else
11: Score_attack ← Score_attack + f_i
12: end if
13: end for
14: if Score_attack > Score_benign then
15: return attack
16: else
17: return benign
18: end if

3.5 监督细化

尽管加权的无监督集成提供了未知攻击检测的第一阶段,但误报和漏报仍然会发生。为了提高这些初始检测的质量,UNAD+ 在 WMV 集成之后引入了一个监督细化阶段。在此阶段,由无监督集成产生的正确检测到的良性和攻击实例被用作伪标签。这些伪标记的实例与原始良性训练数据相结合,为监督学习创建一个扩展的训练集。这使得第二阶段分类器能够使用比仅使用原始良性数据更接近操作检测设置的流量模式,来学习更精确的决策边界。

为此角色评估了几个监督分类器,包括 AdaBoost、朴素贝叶斯、K 近邻和随机森林。在训练之前,使用信息增益进行特征选择,并增量评估候选特征子集。从信息增益排名前五的特征开始,每次迭代添加一个特征,直到评估完前 30 个特征。对于每个候选子集,使用 10 折交叉验证和网格搜索来优化模型超参数,并基于最高的 F1 分数选择最终的监督分类器。为了解决组合数据集中的类别不平衡问题,在特征选择之后应用合成少数类过采样技术 [13] 将攻击类和良性类平衡为 1:1 的比例。

在评估的分类器中,随机森林一致地取得了最强的结果,因此被选为细化分类器。除了其强劲的经验性能外,随机森林对过拟合具有鲁棒性,并且还通过特征重要性和替代模型适用于事后可解释性 [19, 7]。通过这种方式,UNAD+ 的第二阶段作为一个细化组件,提高了初始异常检测的质量,并显著减少了误报。

3.6 可解释性层

原始 UNAD 框架的另一个局限性是缺乏可解释性。在实践中,这限制了系统在人类分析师必须检查、验证和信任模型决策的环境中的实用性。为了解决这个问题,UNAD+ 包含了一个事后可解释性层,支持局部和全局解释。

对于局部可解释性,将局部可解释模型无关解释 [34] 应用于随机森林细化分类器。LIME 通过扰动输入实例、观察分类器输出的变化以及识别对最终决策贡献最大的特征来解释单个预测。LIME 因其模型不可知性、易于应用以及对表格网络流量数据的适用性而被选中 [34]。它还在底层模型更新时只需要有限的重新配置。与提供理论基础的 Shapley 值解释的 SHAP [1] 等替代方法相比,LIME 在此应用场景中提供了一种计算效率更高的生成局部解释的方法 [34]。

对于全局可解释性,训练一个决策树替代模型来近似随机森林的行为。该替代模型使用输入样本和随机森林生成的预测进行拟合,然后评估其保真度,以确定它在多大程度上再现了原始模型的行为。尽管替代模型比原始分类器更简单,但它提供了对整个决策逻辑(包括主导规则、特征交互和广泛的决策边界)更可解释的视图 [21]。这种全局解释有助于分析师整体检查系统的行为,并支持审计、验证和模型调试。

因此,局部和全局解释在 UNAD+ 中扮演着互补的角色。局部解释支持对单个流量的分析,而替代模型则提供了对细化分类器在整个数据集上行为的更广泛理解。


4 实验评估与分析

实验评估评估了 UNAD+ 的检测性能、鲁棒性和可解释性,特别关注加权投票和监督细化相对于原始 UNAD 和基线模型的效果。

4.1 数据集

使用了两个公开的基准数据集来评估所提出的框架:CICIDS2017 [36] 和 NSL-KDD [39]。选择 CICIDS2017 是因为它在真实的网络环境中提供了更新、更多样化的攻击场景,而 NSL-KDD 作为一个广泛使用的基准,具有不同的流量结构和攻击组成。因此,在这两个数据集上评估 UNAD+ 有助于在不同特征空间、类别分布和攻击类别之间进行更广泛的鲁棒性和泛化能力评估。表 1 总结了评估中使用的两个数据集的主要特征。

CICIDS2017 是加拿大网络安全研究所生成的一个公开基准数据集,历时五天,包含约 300 万个数据实例 [36]。它在一个真实的网络环境中开发,包括多个操作系统和常用协议,如 HTTP、HTTPS、FTP、SSH 和电子邮件协议。与传统的入侵检测基准相比,CICIDS2017 提供了更现代、更具代表性的现代网络流量视图。该数据集涵盖了 14 种攻击,分为七类:暴力破解、Heartbleed、僵尸网络、DoS、DDoS、Web 攻击和渗透。本研究中考虑的攻击类型包括 DoS Hulk、端口扫描、DDoS、DoS GoldenEye、FTP-Patator、SSH-Patator、DoS Slowloris、DoS Slowhttptest、僵尸网络、Web 攻击-暴力破解、Web 攻击-XSS、渗透、Web 攻击-SQL 注入和 Heartbleed。使用 CICFlowMeter 从 PCAP 文件中提取流量特征,生成 84 个网络流量特征以及类别标签。

NSL-KDD 是 KDD99 数据集的更新版本,后者最初源自 DARPA98 数据集。引入该基准是为了解决 KDD99 已知的局限性,特别是可能使模型评估产生偏差的大量重复记录 [39]。NSL-KDD 包含两个文件:KDDTrain+(包含 125,973 条记录)和 KDDTest+(包含 22,544 条记录)。除了正常流量外,还代表了四个主要攻击类别:拒绝服务、用户到根、远程到本地和探测。其 43 个特征分为三类:源自 TCP/IP 连接的基本特征、在时间窗口上计算的流量特征,以及旨在捕获与 R2L 和 U2R 等类别相关的可疑行为的内容特征。鉴于其不同的结构和攻击组成,NSL-KDD 为在异构基准设置下评估所提出的框架提供了一个有用的补充。

表 1:评估中使用的数据集摘要

数据集

特征数

总记录数

攻击类别

CICIDS2017

84

2,829,463

暴力破解, Heartbleed, 僵尸网络, DoS, DDoS, Web 攻击, 渗透

NSL-KDD

43

125,973 (KDDTrain+) + 22,544 (KDDTest+)

DoS, U2R, R2L, 探测

4.2 预处理与超参数调优

对于 CICIDS2017,预处理从删除重复、缺失和无效记录开始。然后丢弃表示 ID、IP 地址和端口的特征,因为它们不能为入侵检测提供稳定的判别价值,并且可能使模型偏向于数据集特定的特征。标签字段被转换为二进制,良性流分配 0,所有攻击类型分配 1。随后使用最小-最大缩放对数据进行归一化。预处理后,数据集保留了 76 个最终特征,并包含 2,827,672 个流,其中 2,271,117 个是良性的,556,555 个是攻击。为了反映零日检测设置,包含 529,445 个流的良性周一流量被用作无监督集成的训练集。然后应用 PCA 进行降维,LOF 使用 7 个主成分,iForest 使用 11 个主成分。

对于 NSL-KDD,预处理遵循类似的程序,包括删除缺失和重复记录、二进制标签编码以及最小-最大缩放。此外,使用独热编码将分类特征协议类型、服务和标志转换为数值形式,得到 122 个最终特征。KDDTrain+ 文件首先被拆分为 60% 的训练数据和 40% 的保留数据。由于无监督集成仅在良性流量上训练,所有攻击实例都从训练部分中移除,留下 40,405 条正常记录。然后将 KDDTrain+ 剩余的 40% 与 KDDTest+ 合并,并使用分层随机抽样重新拆分为 37,791 个实例的验证集和 35,140 个实例的测试集,以便两个集合都包含代表性的攻击类别。再次应用 PCA,LOF 使用 7 个主成分,iForest 使用 16 个主成分。

使用网格搜索对无监督模型和监督细化分类器的超参数进行优化,使用 F1 分数作为主要选择标准。对于 LOF,污染参数在 0.01 到 0.50 之间以 0.01 为步长探索,邻居数量在 5 到 50 之间以 5 为步长探索。对于 iForest,污染在同一范围内探索。同时,估计器数量在 50 到 600 之间以 50 为步长变化,最大样本数使用 auto 设置以及训练数据的 25%、50%、75% 和 100% 进行评估。对于监督细化阶段,在调整了第 3.5 节中描述的候选模型后,选择随机森林作为最终分类器。为随机森林探索的超参数范围包括:估计器数量从 100 到 500 以 50 为步长,最大深度在默认设置以及 5 到 15 以 5 为步长之间,最小样本分割从 2 到 8 以 2 为步长,最小叶节点样本在默认设置以及 2 到 6 以 2 为步长之间。表 2 总结了为实验中使用的模型探索的超参数范围以及选择的最终值。

表 2:LOF、iForest 和随机森林的超参数调优范围与选定值

模型

参数

探索范围

CICIDS2017 最终值

NSL-KDD 最终值

LOF

PCA 组件数

2–15 (CICIDS2017), 2–17 (NSL-KDD)

7

7

contamination

0.01–0.50

0.07

0.14

n_neighbors

5–50

30

5

iForest

PCA 组件数

2–15 (CICIDS2017), 2–17 (NSL-KDD)

11

16

contamination

0.01–0.50

0.24

0.10

n_estimators

50–600

400

100

max_samples

auto, 25%, 50%, 75%, 100%

25%

100%

随机森林

n_estimators

100–500

100

300

max_depth

默认, 5, 10, 15

10

15

min_samples_split

2–8

8

4

min_samples_leaf

默认, 2–6

2

默认

4.3 评估指标

评估使用标准的二分类度量,即精确率、召回率、F1 分数、ROC-AUC 和假阳性率。在所有实验中,攻击实例被视为异常,良性或正常实例被视为非异常。选择这些度量是为了联合评估检测质量和操作可靠性。在入侵检测中,不仅检测恶意流量很重要,限制被错误分类为攻击的良性流的数量也很重要。

精确率衡量检测到的攻击中真正恶意攻击的比例,而召回率衡量实际攻击中被成功检测到的比例。F1 分数结合了这两个度量,因此在整个模型选择过程中被用作主要性能指标。ROC-AUC 用于评估跨阈值的类别分离能力,而 FPR 量化了良性流量被错误标记为恶意流量的程度。

4.4 CICIDS2017 和 NSL-KDD 上的整体性能

对四种设置评估了检测性能:使用简单多数投票的原始 UNAD、加权集成版本(UNAD+ WMV Ensemble)、独立的监督细化分类器,以及完整的组合 UNAD+ 框架。独立的监督细化分类器在集成错误案例(即假阳性和假阴性)上进行了单独评估,并作为诊断性比较包含在此处。表 3 和表 4 分别报告了在 CICIDS2017 和 NSL-KDD 上获得的结果,涵盖标准评估指标。

在 CICIDS2017 上,原始 UNAD 的 F1 分数为 75.19%,而 UNAD+ WMV Ensemble 达到 74.91%。监督细化分类器达到 90.59% 的 F1 分数,最终的组合 UNAD+ 框架达到 98.31% 的 F1 分数,以及 99.44% 的精确率、99.21% 的召回率和 98.52% 的 ROC-AUC。在 NSL-KDD 上,原始 UNAD 的 F1 分数为 93.38%,而 UNAD+ WMV Ensemble 达到 93.16%。监督细化分类器达到 78.47% 的 F1 分数,完整的 UNAD+ 框架达到 98.25%,以及 97.26% 的精确率、99.26% 的召回率和 98.24% 的 ROC-AUC。

表 3:CICIDS2017 结果 (%)

模型

准确率

精确率

召回率

F1 分数

ROC-AUC

原始 UNAD

87.23

70.99

79.92

75.19

84.74

UNAD+ WMV Ensemble

86.84

69.57

81.14

74.91

84.90

独立的监督细化分类器

93.86

96.69

85.22

90.59

91.83

最终组合框架

99.19

99.44

99.21

98.31

98.52

表 4:NSL-KDD 结果 (%)

模型

准确率

精确率

召回率

F1 分数

ROC-AUC

原始 UNAD

93.45

93.90

92.86

93.38

93.44

UNAD+ WMV Ensemble

93.22

93.52

92.80

93.16

93.22

独立的监督细化分类器

74.02

69.76

89.67

78.47

73.10

最终组合框架

98.24

97.26

99.26

98.25

98.24

这些结果表明,单独的加权投票阶段并没有相对于原始 UNAD 提高 F1 分数。然而,原始 UNAD 获得的较高 F1 分数不应被解释为第一阶段性能优越的证据,因为在简单多数投票下,平局投票被以有利于良性类的方式解决,从而引入了对良性预测的系统性偏差。

总体而言,最强的性能由完整的 UNAD+ 框架在将加权集成检测与监督细化相结合后实现。在 CICIDS2017 上,F1 分数从原始 UNAD 的 75.19% 增加到最终组合框架的 98.31%,而在 NSL-KDD 上,F1 分数从 93.38% 增加到 98.25%。这些结果证实,UNAD+ 的主要贡献不在于孤立地使用加权投票阶段,而在于将加权集成检测与使用伪标记数据的监督细化相结合。

4.5 监督细化的影响

为了评估框架第二阶段的贡献,通过比较单独的加权集成与监督细化后的框架进行了消融分析。该分析的主要目的是检验细化阶段对降低假阳性率的影响,因为高假阳性率仍然是基于异常的入侵检测系统的主要局限性。图 3 展示了在 CICIDS2017 和 NSL-KDD 上应用监督细化阶段之前和之后的假阳性率。

图 3:监督细化对 CICIDS2017 和 NSL-KDD 假阳性率的影响。

监督细化阶段在两个数据集上都显著降低了 FPR。在 CICIDS2017 上,FPR 从加权集成的 11.34% 降低到细化后的 0.18%,降幅超过 98%。在 NSL-KDD 上,FPR 从 6.37% 降低到 2.77%,降幅超过一半。这些结果表明,细化阶段有效地抑制了无监督集成产生的大部分虚假警报。

这种改进反映了第二阶段分类器的作用。在加权集成识别出可疑流量后,其正确检测到的良性和攻击实例被用作监督学习的伪标记数据。这使得细化分类器能够从比原始仅使用良性数据的训练样本更接近操作检测设置的样本中学习更精确的决策边界。因此,第二阶段可以纠正第一阶段产生的很大一部分残余错误,特别是在良性和恶意行为重叠时。

监督细化分类器在专门由集成先前误分类的实例(即假阳性和假阴性)组成的测试集上进行了评估。对于 CICIDS2017,这对应于 151,245 个实例;对于 NSL-KDD,对应于 2,383 个实例。因此,FPR 的大幅降低表明,第二阶段不仅仅是重复集成的决策,而是提供了一个有意义的校正机制,提高了框架的可靠性。

结果证实,监督细化阶段在提高 UNAD+ 的现实世界实用性方面发挥着重要作用。它通过显著降低假阳性率同时保持强大的检测性能,解决了无监督异常检测的主要弱点之一,从而直接促进了最终组合框架所取得的改进。

4.6 集成投票策略的效果

为了评估集成投票策略的效果,在 CICIDS2017 和 NSL-KDD 数据集上比较了加权多数投票与原始的简单多数投票方法。图 4 展示了两种投票策略在两个数据集上产生的平局案例比例。在简单多数投票下,良性票数和攻击票数相等导致平局,并以有利于良性类标签的方式解决。这给第一阶段的检测带来了模糊性,并降低了原始 UNAD 框架的操作可靠性。

图 4:CICIDS2017 和 NSL-KDD 上多数投票与加权多数投票下平局案例比例的比较。

简单多数投票在 CICIDS2017 上导致 15.1% 的预测出现平局,在 NSL-KDD 上导致 2.5% 的平局。相比之下,WMV 通过根据每个基础学习器的 F1 分数分配权重,在两个数据集上将平局减少到 0%,从而给予更强的检测器更大的影响力。这使得第一阶段集成更加果断,消除了在简单多数投票下以有利于良性类方式解决的平局投票。这种效果在 CICIDS2017 上更为明显,其中流量类型的多样性似乎导致了基础学习器预测的更大变化。

尽管多数投票和 WMV 之间的整体指标差异相对较小,但 WMV 提供了一个显著的实际优势。通过消除平局案例,它消除了原始 UNAD 的主要局限性之一,并提高了集成的一致性和操作适用性,因为第一阶段检测器不再依赖于在票数相等时采用良性默认的解决方式。

4.7 类别级检测分析

为了评估框架在聚合指标之外的行为,对两个数据集进行了类别级检测率分析。图 5 和图 6 分别比较了所提出系统在 CICIDS2017 和 NSL-KDD 上的三个阶段:加权无监督集成、单独评估的监督细化分类器,以及最终的组合框架(其中监督细化阶段跟在加权集成之后)。此分析突出了哪些流量类别从第二阶段受益最多,以及哪些仍然难以检测。

图 5:CICIDS2017 上加权集成 (UNAD+ WMV)、监督细化分类器和最终组合框架的类别级检测率比较 (%)。

在 CICIDS2017 上,监督细化阶段显著有助于提高几种攻击类型的检测率。如图 5 所示,与单独的加权集成相比,最终的组合框架提高了良性流量和大多数攻击类别的检测率。良性检测率从 88.66% 增加到 99.82%,提高了超过 11%。在攻击类别中,SSH-Patator 的改进最大,从 43.42% 增加到 98.03%,DoS Slowhttptest 提高到 97.71%。DoS Slowloris、DDoS 和 DoS Hulk 也观察到了显著的增益,而 FTP-Patator 和 DoS GoldenEye 在第二阶段细化后也有所改善。相比之下,端口扫描和僵尸网络攻击仅略有改善。

这些结果表明,第二阶段对于那些最初被集成以中等性能检测到,但有足够数量的伪标记训练实例可用的攻击类别特别有效。相反,没有改善的类别是那些只有极少数量伪标记示例到达监督阶段的类别。因此,细化分类器无法改善 Web 攻击和渗透的检测。

在这些罕见的 CICIDS2017 类别上的弱性能归因于到达监督细化阶段的伪标记实例数量非常少。例如,监督模型仅基于 59 个暴力破解、13 个 XSS、8 个渗透和 1 个 SQL 注入实例进行训练。此外,通过 PCA 进行降维也可能减少了用于区分这些罕见攻击类型的有用信息。

图 6:NSL-KDD 上加权集成 (UNAD+ WMV)、监督细化分类器和最终组合框架的类别级检测率比较 (%)。

NSL-KDD 显示出类似的模式,但各类别之间的改进更为一致。如图 6 所示,在添加监督细化分类器后,最终的组合框架提高了正常流量和所有攻击类别的检测率。最大的增益出现在 R2L 攻击上,检测率从 51.55% 提高到 92.33%。U2R 攻击也有显著提高,从 77.72% 提高到 94.06%。此外,正常和 DoS 流量提高了超过 3%,而探测攻击提高了约 1%。这些结果表明,细化阶段对于 NSL-KDD 中罕见和困难的攻击类别特别有用,同时保持了加权集成在较容易类别上已有的强劲性能。

类别级分析表明,混合框架的主要优势在于它能够改进那些要么高度可变,要么单独使用无监督集成最初难以处理的类别。同时,它也表明细化阶段的成功取决于是否有足够信息量的伪标记示例可用。因此,尽管 UNAD+ 改进了大多数主要流量类别的检测,并显著增强了几个困难类别,但对于在第一阶段检测中代表性极弱的非常罕见的类别,其性能仍然有限。

4.8 可解释性组件的评估

可解释性组件在合理性、定性稳定性和保真度方面进行了检查。合理性指的是解释是否突出了对预测类别有意义的流量特征。稳定性在此指的是局部解释在重复检查和小的输入变化下是否保持大致一致。保真度指的是一个更简单的替代模型在多大程度上能够准确地再现随机森林细化分类器的行为。图 7 展示了 LIME 为 CICIDS2017 生成的代表性局部解释,图 8 展示了 NSL-KDD 相应的局部解释,图 9 展示了用于全局解释的决策树替代模型。

a

b

图 7:CICIDS2017 上攻击实例的局部 LIME 解释。(a) 正确分类的攻击实例的 LIME 解释。(b) 错误分类的攻击实例的 LIME 解释。

在合理性方面,局部解释表明细化分类器依赖于连贯且可解释的流量特征。在 CICIDS2017 上,LIME 反复突出显示诸如 Init Win Bytes Backwards、Subflow Bwd Packets、Fwd Packet Length Max 和 Packet Length Variance 等特征,用于正确分类的攻击实例,包括 SSH-Patator 和 DoS Slowhttest。如图 7(a) 所示,这些特征在代表性攻击案例中一致出现,而不是孤立的模式。这支持了分类器的局部推理与异常流量行为的有意义指标(而非虚假相关性)相一致的解释。

a

b

图 8:NSL-KDD 上攻击实例的局部 LIME 解释。(a) 正确分类的攻击实例的 LIME 解释。(b) 错误分类的攻击实例的 LIME 解释。

在 NSL-KDD 上观察到了类似的模式。对于代表性的 DoS 和 R2L 实例,最有影响力的 LIME 特征包括 dst bytes、flag 和 service。这些是可解释的网络级属性,它们在局部解释中的重复出现表明细化分类器正在使用与可疑流量行为相关的特征。如图 8(a) 所示,局部解释层的有用性不仅在于产生解释,还在于将这些解释建立在分析师可以解释和评估的特征上。

关于稳定性,局部解释在对代表性案例的重复检查中表现出大致的一致性,并且对小的输入变化不是高度敏感。这是相关的,因为如果输入的微小变化产生显著不同的解释,那么解释方法的实际价值是有限的。在当前情况下,观察到的一致性表明 LIME 适合作为框架内面向分析师的解释工具。

局部解释层在分析分类器错误方面也很有用。如图 7(b) 和图 8(b) 所示,在两个数据集上,错误分类的攻击实例仍然产生了可解释的特征级解释,从而可以识别哪些特征将预测推向了错误的类别。这在分析上很重要,因为它表明即使在分类器失败时,解释层仍然提供信息。在这种情况下,问题不在于缺乏可解释的结构,而在于有影响力的特征的平衡有利于错误的类别。这使得解释对于调试和识别细化分类器中的系统性弱点非常有用。

a

b

图 9:用于在 CICIDS2017 和 NSL-KDD 上对细化分类器进行全局解释的决策树替代模型。(a) CICIDS2017 的决策树替代模型。(b) NSL-KDD 的决策树替代模型。

关于保真度,通过训练一个决策树替代模型来逼近随机森林细化分类器的预测,对全局可解释性层进行了评估。使用针对随机森林输出的准确率来衡量保真度,在两个数据集上得到的分数均超过 99%。如图 9 所示,替代模型捕获了细化分类器的主要决策规则和特征分割,同时保持比原始模型更容易检查。这表明,第二阶段分类器的更广泛行为可以以可解释的形式近似,同时保留其主要决策规则、特征分割和整体分类逻辑。

全局可解释性层还得到了从替代决策树派生的规则提取组件的支持。这通过提供分类器更广泛决策逻辑的结构化视图(包括与攻击和良性预测相关联的主要特征阈值和决策路径),补充了图 9 所示的替代模型。通过这种方式,全局解释层支持审计、验证以及识别可能的操作盲点,例如分类器过度依赖少数特征或无法有效区分罕见攻击模式的情况。

总的来说,可解释性评估表明,事后解释层提高了框架的可解释性。局部解释通过突出有意义的流量特征并在代表性分析中显示广泛的一致性来支持合理性,而全局替代模型则保持了对细化分类器的高保真度。这种组合以支持分析师信任、审计、调试和安全审查的方式提高了透明度。


5 未来工作

本研究中未解决的一个重要挑战涉及加密流量。在当代网络环境中,加密通信越来越普遍,这使得入侵检测更加困难,因为对数据包内容的可见性降低,检测必须更多地依赖流级别和基于元数据的特征。处理加密攻击超出了本文工作的范围,本文主要侧重于在当前特征空间下对基准数据集上的 UNAD+ 进行评估。因此,未来的工作将研究是否更强有力的流级别、基于时间和时序描述符可以在加密流量条件下提高检测性能,特别是在减少误报方面,同时保持框架的可解释性。


6 结论

本文提出了 UNAD+,一个增强的入侵检测框架,旨在解决原始 UNAD 的三个局限性:对简单多数投票的依赖、高误报率以及缺乏可解释性。所提出的框架结合了一个仅使用良性数据的无监督集成、一个在伪标记检测上训练的监督细化阶段,以及一个事后可解释性组件。通过这种方式,UNAD+ 不仅被设计用于检测先前未见的攻击,而且还用于提高这些检测的质量,并为其决策提供分析师可访问的解释。

在 CICIDS2017 和 NSL-KDD 上的实验结果表明,该框架实现了强劲的整体性能。加权投票策略通过消除与简单多数投票相关的平局和良性默认偏差,改进了第一阶段的集成。同时,监督细化阶段显著减少了误报并改进了最终的检测结果。特别是,在 CICIDS2017 上,假阳性率从 11.34% 降低到 0.18%;在 NSL-KDD 上,从 6.37% 降低到 2.77%。完整的组合框架在 CICIDS2017 上达到了 98.31% 的 F1 分数,在 NSL-KDD 上达到了 98.25%,证实了将加权集成检测与监督细化相结合比原始 UNAD 基线有了实质性的改进。

分析还表明,该框架的好处不仅限于整体性能。在类别级别上,第二阶段分类器显著提高了几个困难类别的检测率,包括 CICIDS2017 上的 SSH-Patator 和 DoS Slowhttptest,以及 NSL-KDD 上的 R2L 和 U2R。同时,结果突出了一个重要的局限性:当只有极少量的伪标记实例到达监督阶段时,非常罕见的攻击类别仍然难以改进。这表明细化组件的有效性不仅取决于分类器的设计,还取决于第一阶段是否提供了足够信息量的检测。

这项工作的另一个贡献在于将可解释性集成到入侵检测系统管道中。局部解释层表明,细化分类器在代表性案例中依赖于有意义的流量特征,而全局替代模型则以高保真度再现了其更广泛的行为。因此,该框架不仅支持检测,还支持解释、审计和调试。这在安全关键环境中尤其重要,因为模型透明度对于分析师的信任和实际使用是必需的。

总体而言,研究结果表明,UNAD+ 通过结合无监督异常检测、监督细化和可解释的决策支持,提供了一个用于检测未知网络攻击的连贯框架。该框架提高了检测性能,减少了误报,并增强了透明度,使其成为原始 UNAD 的一个更可用、更可靠的扩展。未来的工作应侧重于加密流量,特别是研究在数据包内容可见性受限的情况下,更强有力的流级别、基于时间和时序描述符是否能够提高检测性能并减少误报。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询