每周文章分享-197

网络与安全实验室

每周文章分享

—2025.02.03至2025.02.09—

简介

标题: Towards Effective and Robust Graph Contrastive Learning With Graph Autoencoding

期刊: IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, vol. 36, no. 2, pp. 868-881, Feb. 2024.

作者: Wen-Zhi Li, Chang-Dong Wang , Jian-Huang Lai and Philip S. Yu

分享人: 河海大学——徐阳

研究背景

当前图神经网络（GNNs）的主要挑战在于大多数方法依赖于半监督学习，需要大量标注数据，但标注数据稀缺且人工标注成本高。为解决这一问题，自监督网络嵌入方法应运而生，主要分为两类：图对比学习（GCL）和图自编码器。GCL方法通过增强图的不同版本并优化正负样本的互信息，虽然在性能上占主导地位，但容易受到图攻击，且引入显式对抗性增强会增加训练时间，降低效率。图自编码器则通过重构原始图来增强鲁棒性，但其性能较弱。GCL的核心是图增强，但现有的图增强方法如随机丢弃节点或遮罩属性，缺乏直观性或依赖领域知识。为此，一些研究者提出了基于节点/边的语义中心性进行自适应增强，但这种方法未能有效利用图的高阶特征，且在长尾分布的图中容易加剧高节点度的稀缺性问题，影响模型性能。

关键技术

本文提出了自适应增强的图对比学习（AEGCL），该方法通过图中的模体（motif）进行自适应增强，并将节点特征和拓扑结构解耦后重构，以便在图对比学习中利用图自编码器。

具体而言，为了增强GCL中的图增强方法以获取语义上的高阶图特征，AEGCL首先提出了一种基于模体中心性的直观有效的自适应增强方法。然后，基于典型的图神经网络输入图通常是属性图，图的重构主要包括节点特征重构和图结构恢复。与传统的GNN方法同时传播节点特征和图结构不同，AEGCL将原始图解耦成特征图和拓扑图，并提取它们各自的嵌入。然而，如何将这两个解耦的图融合回GCL结构是一个挑战。由于GCL本身也有两个增强图视图，可以自然地与这两个解耦图结合。基于此，AEGCL提出了一个可学习的AttnFuse模块，自动融合来自两个增强图和两个解耦图的信息。重构目标包括对拓扑结构和节点特征的精细重构损失，并与GCL目标结合，采用多任务学习的方式进行优化。通过这种方式，AEGCL能够显著提高模型的鲁棒性，抵抗链接或特征攻击，因为它显式地利用了两类真实信息（节点特征和图结构）。

该方法的创新和贡献如下：

1）通过利用图对比学习中的自动编码器，提出了一种有效且强大的图自监督学习框架 AEGCL。

2）提出了一种基于模体中心性的新型自适应增强方法来捕获用于图对比学习的高阶图特征，这在语义上具有重要意义，因此可以提高 GCL 性能。

3）根据经验，大量实验证明了 AEGCL 与自监督和半监督图表示学习基线方法相比的有效性和鲁棒性。

算法介绍

（1）网络框架

图1 本文提出的框架

对于初始图G=(X,A)，关键思想是通过KNN在原始特征和node2vec嵌入上生成特征图G_f和拓扑图G_t，然后分别通过 GNN1 和 GNN2 提取专用于节点特征的嵌入 F 和专用于图结构的嵌入 T。利用基于模体中心性的 GCL通过共享的GNN3得到嵌入H_1和H_2，再利用AttnFuse2融合之后，最终得到 Z1 和 Z2。损失函数定义为对比损失L_cont、原始特征恢复损失L_feat和边缘重建损失Ledge的加权和，它们以多任务学习的方式组合。经过训练的编码器 GNN3 将用于下游任务。

（2）本文算法

A. 特征图和拓扑图构建

对于特征图G_f，本文通过余弦相似度选择原始特征空间X中每个节点的前k个最近节点来进行构建。

对于拓扑图G_t，首先在初始图拓扑结构上执行node2vec方法以获得每个节点的node2vec 嵌入E ，然后以与特征图相同的方式在E上执行KNN算法。（使用node2vec的原因是它是一种完全基于拓扑结构的随机游走，因此它可以利用拓扑信息来形成节点嵌入。）KNN 能够为每个节点均匀地选择k个最近邻，因此特征图和拓扑图可以缓解长尾分布引起的中心性偏差。

B. 基于模体中心性的自适应对比学习模块

1）图对比学习：

给定一个图 G =(X,A)，首先通过随机边缘丢弃、属性屏蔽等生成两个任意增强视图 G1 =(X1,A1) 和 G2 =(X2,A2)。输入到共享 GNN 编码器中，之后我们得到节点嵌入 H1和 H2。图对比学习的关键是定义正负节点对。以图G1中的v_i为例，正负节点对的定义如下：

正节点对：G1和G2中的节点v_i。

负节点对：G1中的节点v_i和G2中的另一个节点v_k。

对比损失函数定义如下：

2）基于模体的自适应增强：

模体指的是在复杂网络中频繁出现的子图模式，其数量明显高于保留相同节点程度的随机子图。本文所使用的是三角模体。如下图2所示：

图2 三角模体

本文利用三角形模体来计算中心性，因为它是最简单和最具代表性的高阶图结构，并且在很多文献中得到了广泛应用。具体来说，对于未加权的原始图，本文计算每条边所属的三角形图案的数量，并将该频率用作边权重。

与1）中方法的随机增强不同，自适应增强致力于生成适应输入图的图视图，从而能够反映图的内在属性。具体来说，仍然采用边缘丢弃和属性屏蔽，但是对于不太重要的边缘或属性，丢弃和屏蔽概率是倾斜的，并且重要性基于中心性，可以是度、特征向量或PageRank。它将迫使模型突出显示重要的图形结构。

然而，由于普遍的节点中心性度量都是基于低级节点连接，这使得语义高阶图结构不可知；在现实场景中，节点度始终遵循长尾分布，即大多数节点的度较小，因此丢弃不太重要的节点很容易退化为微不足道的随机丢弃，这不利于获得鲁棒性。

为了缓解这两个问题，本文首先利用子图级别的高阶信息（模体），然后本文认为丢弃更重要的边可以迫使模型从其中学习基本信息，有助于提高模型性能。

由KNN生成的特征图和拓扑图由两个GNN编码器提取，以获得专用于节点特征和图结构的嵌入F和T。节点嵌入 H1 和 H2 也是通过 GCL 模块的共享 GNN 编码器生成的，具有基于模体中心性的增强。现在我们需要设计一个模块来融合它们，以便（1）仍然可以采用InfoNCE损失来保留GCL结构； (2)图重构易于应用； (3)双方信息能够自动融合。

C. 损失函数

1）对比损失

2）重构损失

拓扑重构：

特征重构：

3）最终损失

实验分析

（1）实验设置

主要实验是在 PyTorch 几何库文献中广泛使用的六个公开可用的 10,000 规模现实世界图基准上进行的。本文使用的数据集如下：

Amazon-Photo 和 Amazon-Computers是由 Amazon 构建的两个共同购买网络，其中节点代表产品，边代表共同购买关系。每个产品节点都有一个原始的词袋特征，用于编码产品评论，并标有其类别。

Coauthor-CS 是一个学术网络，其中节点代表作者，边代表合著者关系。每个作者节点都有一个原始词袋特征，编码他/她出版物的关键词，并标有最相关的研究领域。

PubMed、DBLP 和 CoraFull是三个学术网络，其中节点代表论文，边代表引用关系。每篇论文都有一个原始的词袋特征编码其关键词，并标有其相关的研究领域。

（2）节点分类结果

表1 自监督节点分类结果

表2 半监督节点分类结果

根据以上两个表，可以看到，提出的冻结模式 (AEGCL) 和完全微调模式 (AEGCL-ft) 下的方法在几乎所有数据集上都优于所有基线方法，除了冻结模式下的 CoraFull 之外。从上表可以看出无监督和半监督本文效果最好。具体来说，对于冻结模式，自适应增强 GCA-DE、GCA-EV 和 GCA-PR 可以提高随机边缘丢弃和属性屏蔽的性能。提出的基于模体中心性的增强GCA-MO可以进一步提高模型性能，本文认为模体中心性可以捕获高阶图语义结构。此外，作者发现 GCA-DE (vr.) 通常优于 GCA-DE，这证明了丢弃更重要的边的有效性。总体而言，AEGCL 可以在所有数据集上实现一致的改进，尤其是在 PubMed 上，性能提升了近 2%，这证明了图自动编码器与 GCL 相结合的稳定性和通用性。对于完全微调模式，直观的是半监督方法/全微调方法通常比自监督方法或其自监督方法表现得更好，因为在训练期间可以访问一小部分标记数据。可以看到，完全微调模式 (AEGCL-ft) 下的 AEGCL 变体再次表现最佳。

（3）消融实验

从重建方法、图增强模式和聚合模式三个方面进一步进行消融研究。结果如表3所示。

表3 消融实验结果

1）图自动编码器：AEGCL中利用了两部分图自编码器，即边缘重建和原始特征重建。在这里，通过将β或γ设置为 0，也就是禁用其中一个或两个来测试它们的有效性。从 AEGCL 和 vr2/vr3/vr4 之间的比较，可以看到，同时考虑双重图自动编码器任务——边缘重建和特征重建能够提高模型性能。不同的数据集显示出两个重建项的不同敏感性，这可能是由于内在的数据分布所致。

2）图增强模式：本文还测试了基于模体中心性的自适应增强方法如何对 AEGCL 的最终性能做出贡献。具体来说，我们根据 GCA 中提出的度中心性、特征向量中心性和基于 PageRank 中心性的自适应图增强方法来测试其性能。表中的“其他”项表示三者中最好的变体。从 vr5 和 AEGCL 的比较中，我们可以看到本文的模体中心性优于其他自适应图增强方法。

3）聚合模式：本文还验证了基于注意力的 AttnFuse 模块的有效性。将 AttnFuse 与均值运算符进行比较。

（3）网络攻击

由于所提出的 AEGCL 方法明确地利用了节点特征重构和图拓扑重构，因此需要了解模型在多大程度上可以保留双重信息，即 AEGCL 的鲁棒性。因此，实验是在专门针对节点特征或图拓扑或两者的图攻击下进行的。在这里，应用中提出的单节点直接规避攻击nettack，其中受训的GNNencoderf(X,A;θ)在整个攻击过程中保持不变。攻击者nettack将原始节点特征X、原始图邻接矩阵A、节点标签Y、目标节点vt和经过训练的GNN编码器f(X,A;θ)作为输入，生成扰动（被攻击）节点特征X 和图邻接矩阵 A ，即：

那么被攻击图的嵌入是：

图3 Amazon-Photo 上的网络攻击结果

实验过程中，随机选择500个节点作为攻击目标， Amazon-Photo 数据集上的结果如图 3所示。这里，AEGCL（w/o feat）代表仅聚合具有图增强的拓扑图的变体，AEGCL（w/o topo）代表仅聚合拓扑图的变体仅聚合带有图增强的特征图。

在图中可以看出，半监督方法GCN在受到攻击时性能下降最快。在其他五种自监督方法中，GCA的鲁棒性最差，因为它没有明确训练双重的节点特征和图拓扑信息。相比之下，AEGCL（仅去除特征）、AEGCL（仅去除拓扑）以及完整的AEGCL表现更好。在训练过程中仅利用节点特征或图拓扑信息时，AEGCL（仅去除特征）在单一链接攻击下表现优异，而AEGCL（仅去除拓扑）在单一特征攻击下表现更佳。

（4）模型的泛化能力

表4 Amazon-Computers 数据集上节点聚类结果

1）节点聚类：通过在不同模型学习到的节点嵌入上训练 k-means 算法来进行节点聚类，其中 k 设置为类的数量。表 4报告了亚马逊计算机上标准化互信息 (NMI) 和调整兰特指数 (ARI) 的结果。很明显，AEGCL 在这两个指标上都优于其他模型，本文将其归因于两个重建函数促进了更紧密的簇内联系。

表5 链接预测结果

2）链接预测：将边分成比例分别为70%、20%、10%的训练/验证/测试集，并根据不同模型学习的嵌入训练具有多类二元交叉熵损失的线性分类器。 Amazon-Photo 上的接收器操作特征曲线下面积 (ROC AUC) 和平均精度 (AP) 方面的结果如表5所示，其中 AEGCL 实现了最佳性能。本文将其归因于直接针对链接结构的拓扑重建功能，因为简单的基线Graph Rec也取得了出色的性能。

（5）可视化

图4 可视化结果

本文使用t-SNE将图重构、node2vec、GCA和AEGCL在Amazon-Photo数据集上与原始特征一起学习到的节点嵌入投影到二维空间中。结果如图4所示，每个节点按其标签着色。从图中可以看出，图重构和node2vec难以呈现清晰的聚类，边界模糊。对于GCA，不同类别的节点仍然在一定程度上分散。显然，AEGCL表现最佳，图4(e)显示了紧凑的结构和相对清晰的边界。

总结

本文旨在提升图对比学习（GCL）的有效性和鲁棒性，提出了将图自编码器引入GCL的AEGCL方法。通过显式的边重构和原始属性重构，增强了GCL的鲁棒性。此外，本文还提出了一种基于模体中心性的自适应图增强方法，利用丰富语义的高阶图特征实证提升了GCL的性能。大量实验结果与自监督和半监督学习方法相比，证明了AEGCL在下游节点分类任务中具有优越的有效性和鲁棒性，并具备一定的可解释性。

END

河海大学

网络与安全实验室