基于启发式时空图神经网络的多变量时序异常检测

研究意义

为了预防工业信息物理系统 (CPS) 的故障，保证CPS的安全生产，需要及时准确地检测系统异常。由于有监督的异常检测方法训练时需要使用标签，且模型只能检测出已知的异常类型，应用范围有限，因此异常检测研究主要集中在无监督方法上。目前的研究成果在处理具有潜在成对耦合特性的多变量时序数据时面临困难，模型的可解释性差，且对于微小的早期异常不敏感，可能会产生漏检。

本文工作

针对上述问题，本文在设计异常检测算法时考虑系统变量间的耦合关系、传播有向性和因果时滞性，利用变量间的耦合关系从系统结构变化的角度检测早期异常，提出了针对多变量时序的异常检测模型——启发式时空图神经网络 (heuristic spatial-temporal graph neural network, HST-GNN)。HST-GNN模型的任务是提取t时刻前长度为h的历史数据

的深度时空特征 (传感器级特征) 及其对应的图结构特征 (系统级特征)。将传感器级特征和系统级特征串联起来得到串联特征

送到AE中进行拟合学习。若重建数据和采集到的真实系统运行数据一样或者接近，表明t时刻系统处于正常运行状态，否则表明t时刻系统处于异常工作状态。

由图1可知，HST-GNN包括三个主要组成部分——图结构学习模块、特征提取模块和重构模块。

1. 图结构学习模块

通过构建有向相似性函数，设计基于启发式聚类的图结构学习算法，学习变量间的图结构。针对目前图结构学习方法忽略变量关系有向性和变量集群性的问题，设计了一种有向的相似性函数计算公式；其次，考虑图结构的集群特性，提出一种基于启发式聚类算法的图结构学习算法。

1.1 相似性矩阵构建

相似矩阵S或距离矩阵Dis构建函数是量化变量对之间的相似性或差异性的函数。本论文提出了一个有向相似度计算函数表示变量间耦合关系的强弱：其中，X_t表示t时刻输入到神经网络的节点特征矩阵，W₁和W₂是需要学习的模型参数。

1.2 基于启发式聚类的图结构学习算法

初始化一个完全断开的图结构，

其中O为全零矩阵，此时一个节点就是一个簇。根据上述有向相似度计算函数计算得到相似性矩阵，然后将相似性矩阵S转化为距离矩阵Dis。根据距离矩阵识别出距离簇G0距离最近的两个簇G1和G2并将其标红，计算G1和G2相对于G0的平均相异度和，比较最邻近簇G1与G0将各个节点的距离d1, d2,…与间的大小，若小于，则将对应的两节点相连接，重复上述步骤，直至所有变量节点均属于同一个簇G0。最终得到稀疏且连通的图结构。

以k = 2，六个变量节点为例构建其图结构，其构建流程示意图如图2所示。

2. 特征提取模块

该模块包含时空图注意力网络预测模块和图结构特征提取模块。时空图注意力网络预测模块由输入层和3个ST-GAM模块构成。图结构特征提取模块以当前输入数据Xt的图结构为输入，提取两者的平均路径长度、聚类系数等复杂网络测度作为其图结构特征。

2.1 时空深度特征提取模块

针对工况波动、设备状态和工艺条件变化带来的变量间耦合关系和因果时滞特性变化的问题，提出了一种包含门控卷积注意力单元 (gated convolutional attention unit, GCAU)和多头图注意层 (graph attention network, GAT) 的时空图注意模块网络 (spatial temporal graph attention module, ST-GAM)，从时间和空间维度同时捕捉多变量时序数据的特征。GCAU 采用具有局部上下文敏感的卷积注意力 (convolution attention, CA)，通过因果卷积将局部上下文更好地纳入注意机制，解决变量间的因果时延问题，如图3所示。

GAT 精确捕捉时变的变量间的成对的耦合特性，如图4 所示。

2.2 图结构特征提取模块

针对传感器级偏差会忽略早期异常检测的问题，选择复杂网络测度量化图结构，将其作为表征当前时刻的系统运行和信息传输状态的系统级特征，与 ST-GAM 捕捉到的时空深度特征一起进行后续的无监督异常检测。该模块计算由t时刻输入到网络的观测值的图结构G的平均路径长度D ̅(G)，平均聚类系数ACC(G)，密度ρ(G)，介数中心性NDE(G)等复杂网络测度作为t时刻的图结构特征：

3. 重构模块

使用多层感知机 (multilayer perceptron, MLP) 作为编码器和解码器。以时空深度耦合特征与图结构特征串联后的特征时序作为编码器的输入，将串联特征压缩为低维向量，随后将低维向量传递给解码器重构出输入数据，使输出与输入尽量相同，通过重构损失判别系统是否发生异常，给出检测结果。

本文的创新点总结如下：

(1) 提出了一种连通有向图结构学习算法对多变量时序进行图建模，解决了 GNN 在多变量时序分析中图建模时存在传感器孤岛 (单节点或子图) 或结构密集的问题；

(2) 设计了一个新的ST-GAM 模块，通过带有局部上下文敏感的 CA 的GCAU和 GAT 结构，同时挖掘存在时延的变量时间维度上的非线性行为和变量间在空间维度上的耦合关系，对时序数据的异常突变更为敏感；

(3) 提出了一种基于复杂网络拓扑量化特征的系统级特征，作为 ST-GAM 捕捉到的时空特征传感器级特征的补充，使网络对传感器的早期异常更为敏感。

实验结果

为了证明HST-GAT 的有效性，本论文将HST-GNN与七个多变量时序无监督异常检测方法进行比较，七个对比模型分别为AE、DAGMM、MAD-GAN、OmniAnomaly、RCoders-RSCoders、GDN和MTAD-GAT。对比模型的简要描述在表1中列出。

在HST-GNN模型训练与测试中使用CUDA 11.3的Pytorch 1.12.0版本实现该方法。滑窗大小为24，步幅为4。输入时序长度为64，GAT的维数为4，头的数目为6，AE有3个MLP层构成的编码器和解码器。此外还应用了Dropout策略，将Dropout率设为0.3。学习率设为1e-3，迭代次数epoch设为300，batch size设为64。利用Adam优化算法对每个权重参数获取网络误差的梯度，通过参数更新过程得到新的权重。用于模型训练的损失函数定义如下：

其中，是特征提取模块的预测误差，用于训练特征提取模块，是解码器的重建误差，用于训练基于AE的重构模块，Xf 为特征提取模块提取出的串联特征。在测试过程中, 本论文使用Loss作为各个时间戳的异常得分, 如果得分超过固定阈值AT, 则将该时间标记为异常。本论文选择POT方法进行异常阈值的选择。

本论文使用网络服务器的数据集PSM和SMD，来自工业水处理厂的数据集SWaT和WADI进行模型验证。数据集的基本统计数据列于表2中。本论文使用精度 (Precision, Prec)、召回率 (Recall, Rec) 和F1指标 (F1-Score, F1) 评价模型的检测性能。

表3列出了上述八个模型在四个数据集上的检测结果。最优结果加粗标红，次优结果加粗。HST-GAT在四个数据集上的F1都在 0.85以上，优于所有对比模型。由于WADI的变量数目较多且异常率较低，相比而言数据更为不平衡，因此大多数多变量时序无监督异常检测模型在WADI上的检测结果相较于其他数据集稍显逊色。但是，HST-GAT在该数据集上取得了最优结果。这些实验结果证明了HST-GAT具有一定的优越性。