基于多层次典型相关分析的无监督多图扩散网络算法

研究意义

近年来，无监督多图表示学习（UMGRL）受到了研究者越来越多的关注，其旨在自监督学习的指导下，从多图中学习更具判别性的节点特征。尽管这些设计的UMGRL方法在各种与图相关的下游任务中取得了巨大的成功，但大多数现有的UMGRL模型仍然存在以下的问题：其高度依赖于复杂的自监督学习策略（即数据增强、预定义任务和负样本采样技术），有限的感受野以及仅仅聚合节点之间的低频信息。因此，如何设计一个简单且更加有效的无监督多图表示学习模型是极其重要的。

本文工作

为了解决上述问题，我们提出了一种基于多层次典型相关分析的无监督多图扩散网络（UMGDN）。具体来说，我们首先解耦了图卷积层的特征变换和特征传播过程，以进一步提升模型可学习参数的泛化能力。然后，我们提出了自适应的扩散传播模块，以捕捉节点之间的长期依赖关系，而不是局部的邻域关系。最后，多层次典型相关分析损失函数被同时引入到特征变换和特征传播过程中，以最大化来自多个图上的相同节点特征的相关性，从而引导模型进行参数的优化。与现有的UMGRL模型相比，我们提出的UMGDN不需要引入任何的数据增强、负样本采样技术或复杂的预定义任务，其还可以自适应地聚合节点之间最优的频率信息，为其生成更加鲁棒的节点嵌入。在四个常用的数据集和两个与图相关任务上的大量实验表明了所提方法的有效性。

本文的创新点如下：

(1) 我们将广泛使用的图卷积层拆分为特征转换和特征传播过程，以进一步提升模型学习参数的泛化能力。更重要的是，我们提出了一个具有可学习参数的自适应的扩散传播机制，通过捕捉节点之间的长期依赖关系并生成最优的滤波器，为其学习到更加鲁棒的节点嵌入。

(2) 我们移除了一些复杂的自监督策略，包括复杂的数据增强、复杂的预定义任务和复杂的负样本采样，进一步扩展了所提模型的适用范围。然后，我们设计了一个简单的预定义任务，为UMGDN提供更多的监督信息，即在特征转换和特征传播过程上同时最大化来自多个图上的相同节点特征的相关性。

(3) 我们在四个常用的基准数据集和两个与图相关的任务（节点分类和节点聚类）上进行了大量实验，以证明所提出的UMGDN有效性。实验结果表明，我们提出的UMGDN在不引入任何复杂的自监督策略下仍然优于现有的UMGRL。

实验结果

在本文中，我们在半监督节点分类和无监督节点聚类任务上进行了大量实验，以评估所提出的UMGDN模型的有效性。具体而言，我们首先利用训练好的UMGDN和多图融合操作为给定下游任务生成其最终的节点嵌入。对于节点分类任务，来自下游任务的标签信息被进一步用来训练逻辑回归模型。对于节点聚类任务，我们使用获取的节点嵌入来训练K均值模型。在表1中，展示所有模型五次测试的平均值。我们引入了 Macro-F1、Micro-F1和Normalized Mutual Information来分别评估所有的对比方法和我们的模型在半监督节点分类和无监督节点聚类任务上的性能。

我们将所提出的UMGDN与现有的GRL方法进行了比较，包括同质GRL [1,2,3,4,6,7,8,11,14,15,19,20,21] 和 MGRL [5,9,10,12,13,15,16,17,18, 63]。表1展示了所有的对比方法和我们的模型在半监督节点分类和无监督节点聚类任务上的平均精度。从表1中，我们可以得出以下的观察结果：

(1) 在大多数情况下，我们提出的UMGDN在所有任务上都取得了最好的性能。由于有限的节点数量，与一些基于自监督技术的UMGRL（HeCo、MvAGC、HDMI）相比，我们的UMGDN无法获得足够的训练，导致个别任务上存在较差的性能。

(2) 与同质GRL相比，MGRL在大多数情况下取得了最好的性能。这些结果表明，合理利用节点之间的多元关系提高低维节点嵌入的鲁棒性是十分重要的。其次，基于自监督技术的UMGRL（如DMGI、HDMI）相对于有监督/半监督UMGRL（如HAN、MNE、HAN）获得了显著的性能提升。这表明通过构建有效的预定义任务从数据本身获得的有效的自监督信息可以进一步加强训练后的MGRL在下游任务上的泛化能力。最后，我们提出的UMGDN在不使用复杂自监督策略的情况下仍然获得了很好的性能。一方面，这些结果表明了所提出的自适应图扩散卷积和多层次典型相关分析损失的有效性；另一方面，也表明了复杂的数据增强、复杂的预定义任务和复杂的负样本采样技术，对于基于自监督技术的UMGRL并不是必要的条件。

Table 1 Performance comparison (in percentage) on node classification and node clustering. The best and second-best results are highlighted in black and underline. OOM denotes out-of-memory.

出版信息

Sichao FU, Qinmu PENG, Yange HE, Baokun DU, Bin ZOU, Xiao-Yuan JING & Xinge YOU. Unsupervised Multiplex Graph Diffusion Networks with Multi-level Canonical Correlation Analysis for Multiplex Graph Representation Learning. Sci China Inf Sci, doi:10.1007/s11432-023-3939-1