2024.01.22-2024.01.28
每周文章分享
标题: Adversarially regularized graph attention networks for inductive learning on partially labeled graphs
期刊: Knowledge-Based Systems 268 (2023) 110456.
作者: Jiaren Xiao, Quanyu Dai, Xiaochen Xie, James Lam, Ka-Wai Kwok.
分享人: 河海大学——陈乐兰
研究背景
图自然地表示了具有复杂关系和丰富信息的数据,如社交网络、生物网络和引文网络。基于图嵌入,可以使用经典机器学习技术来执行节点分类任务,例如为引文网络中的论文分配主题以及对生物网络中的蛋白质角色进行分类。然而,在许多场景中,数据标注成本高昂,在实际应用中往往会导致节点标签短缺。为了提高节点分类的准确性,基于图的半监督学习利用充足的未标记节点与稀缺的可用标记节点一起进行训练。然而,噪声、扰动甚至攻击在图结构数据中很常见。在半监督学习中,常见的正则化是基于同质性假设驱动连接的节点具有相同的标签。因此,图结构的关系效应可能会使模型性能恶化,因为操纵一个节点或边可能会误导关系节点的预测。为了解决这个问题,本文提出了一种对抗性正则化图注意模型来对部分标记图中新添加的节点进行分类。
关键技术
在本文中,提出了一种名为对抗性正则化图注意网络(AGAIN)的新方法,用于部分标记图的归纳学习。一方面,AGAIN使用基于注意力的聚合器将图结构和节点特征编码到节点嵌入中。在聚合邻居信息时,采用注意机制为采样的邻居分配不同的可学习权重,捕获每个邻居的重要性。在推理时,学习到的聚合器可以为以前未见过的节点生成信息表示。另一方面,对抗性训练用于通过强制节点表示与先验分布匹配来学习鲁棒的节点表示。
该方法的创新和贡献如下:
1)本文设计了第一个专门为解决部分标记图上具有挑战性的归纳学习问题的对抗性正则化 GNN 模型。
2)设计的模型结合了注意力机制和对抗训练,能够有效地生成信息丰富和鲁棒的节点表示。
3)使用现实世界的信息网络进行了大量的实验,表明所提出的模型在基准归纳节点分类任务上可以与最先进的方法相媲美甚至优于它们。
算法介绍
(1)问题定义
图1 半监督环境下的归纳学习
信息网络可以表示为一个属性图G (V, E, X),其中V是节点的集合,E 是表示节点之间关系的边的集合,X是特征矩阵。未加权图G的拓扑结构可以表示为邻接矩阵A每个元素a_ij 设为0或1,指定两个节点之间是否存在边。如图 1所示,在本工作中,研究了新添加到部分标记图的节点的分类。节点V由标记的节点V_L和未标记节点V_U组成。部分未标记节点在训练过程中被观察到,其余节点未被观察到。在测试阶段将这些未观察到的节点添加到原始图中。
图嵌入的目的是将节点映射为一个低维嵌入向量。为了在嵌入的基础上进行节点分类,半监督学习被定义为学习一个分类器,有两种学习范式:转导学习和归纳学习。转导学习的目的只是预测图中观察到的未标记节点。归纳学习进一步寻求将分类模型推广到训练时图中不可见的节点。本文主要研究归纳式半监督学习。
此外,图嵌入模型对噪声输入的鲁棒性是一个重要问题。因此,在本研究中,假设在评估鲁棒性时输入是有噪声的。受GIB中特征攻击的启发,本文在图中随机选取一个百分比的节点,并在节点特征的每个维度上添加独立的高斯噪声。
(2)对抗性正则化图注意模型
A.模型概述
图2 AGAIN 的模型架构
图 2 显示了所提出方法AGAIN的模型架构。有两个主要组成部分,即归纳学习和对抗性训练。具体来说,归纳学习的图注意力网络(GAIN)由 GNN 编码器 f_φ() 和节点分类器 l_ψ() 组成。GNN 编码器使用基于注意力的聚合器将输入图的拓扑信息和节点特征编码为低维节点嵌入向量。节点嵌入进一步由节点分类器(一个全连接层,后跟 softmax 激活)转换为节点标签的预测。此外,对抗性训练对节点嵌入施加了先验分布。鉴别器 d_w()旨在区分先验样本和嵌入向量,由一个多层感知器(MLP),后接 sigmoid 激活组成,指示输入样本为真实样本的概率。GNN 编码器在对抗训练中还起着生成假样本(即嵌入向量)的作用。因此,GNN 编码器由归纳学习和对抗训练组件共享。
B.归纳学习
图3 邻域采样和随后的信息聚合过程
如图3所示,在邻域采样阶段,不是考虑给定目标节点的整个邻域,而是在每个搜索深度随机采样固定大小的邻域。如果样本大小大于节点度数,则对邻居进行放回采样。采样是一个向外的过程,逐渐发现远邻。最大搜索深度表示为 K。然后节点聚合来自其采样邻居的信息。请注意,聚合是一个向内的过程。
在聚合邻居信息时,本文引入了一种注意力机制,为邻居分配不同的可学习权重,表明它们在辅助目标节点学习中的相对重要性。如图3所示,在步骤k,注意力系数的计算如下:
其中,S_v是节点v的采样领域,h_v和h_u分别表示当前节点v和目标节点u的潜在表示,a和W分别是线性变换的权重向量和矩阵,非线性激活σ_1 是一个泄漏 ReLU 函数。因此,注意力权重是节点v及其邻居节点的潜在表示在非线性变换后利用softmax函数求得的。
然后,通过注意力聚合函数导出邻域的潜在表示:
之后,将节点 v 前一个步骤的潜在表示与其领域的潜在表示输入非线性激活层,之后在进行正则化,计算得到节点 v 在步骤 k 更新的潜在表示:
最后,可以通过将嵌入向量输入节点分类器来计算预测分类。在半监督设置下,通过最小化标记节点的交叉熵损失来训练归纳学习组件。
C.对抗性训练
本文采用对抗性训练模型对嵌入向量进行正则化,以强制学习的嵌入匹配某个先验分布。该算法建立了两个参与者(生成器和鉴别器)的对抗训练平台进行极大极小博弈。在这项工作中,归纳学习阶段的GNN 编码器f_φ()扮演了生成器的角色。真实样本 z 从先验分布 P_g(z) 中采样,而编码器生成的嵌入向量被视为假样本。鉴别器d_w()是一个标准的多层感知器,其输出是一维的,后跟 sigmoid 激活,表示输入样本为真实样本的概率。本文将鉴别器和生成器的训练分开。鉴别器被训练来区分先验样本和嵌入向量,其损失函数定义为:
而生成器的目标是使节点嵌入匹配先验分布,从而误导判别器。生成器的损失函数为:
D.算法
AGAIN的训练算法首先对属性图的所有标记节点进行随机洗牌,然后将其平均划分为若干批,之后对这些批进行逐个处理。选取其中一个被选中的标记节点作为目标节点,对其邻居节点进行采样,并通过 GNN 编码器聚合邻域信息来计算其嵌入向量,然后通过分类器进行预测。基于预测和真实标签计算交叉熵损失,通过反向传播对GNN编码器和分类器的参数进行更新。在对抗训练阶段,对抗网络首先更新鉴别器来区分真实样本和嵌入向量。此外,GNN编码器作为一个发生器混淆训练有素的鉴别器并更新参数。因此,通过归纳学习和对抗训练交替更新GNN编码器的参数。
在测试阶段,由于 GNN 编码器和节点分类器是经过训练的,所以它们的可学习参数是固定的。然后将测试节点的特征和其抽样的邻居特征输入训练的模型,得到节点嵌入和预测标签。最后,基于预测标签和真实标签计算分类精度。从图 1中可以看出,在测试阶段,现有节点的局部邻域会发生变化,有新的节点加入。所提出的归纳学习模型可以处理这种情况,并计算图中所有节点的表示。
实验分析
1.实验设置
本文对四个真实世界数据集进行了实验。其中包括三个引文图(即 Cora、CiteSeer 和 PubMed)具有分别代表出版物和引文链接的节点和边。以及一个博客作者相互关注的社交网络,即BlogCatalog数据集。标记节点是从训练数据中随机选择的。具体来说,本文在训练节点中为每个类别随机选择相同数量的标记节点。为了进行更彻底的研究,标记数n在20到100之间变化。其余训练节点未标记。在归纳设置下,训练期间不会观察到测试节点。每个图中的测试节点数固定为1000。
图4 AGAIN的层结构
图4显示了AGAIN的层结构。GNN 编码器是一个两层图注意力模型。加权向量a的维度在集合{64,128,256,512,1024,2048}中选择。每层的输出维度设置为256。节点分类器是一个全连接的单层神经网络,后面是Softmax 激活。鉴别器是一个四层神经网络(即 MLP),三个隐藏层的维度依次设置为 1024、1024 和 256,其输出是一维的,表示输入样本为真实样本的概率。在前三层中使用 Leaky ReLU 激活,并在输出层中使用 sigmoid 激活。AGAIN 在对抗性训练阶段的默认先验是多元高斯分布。
2.性能评估
A.节点分类性能
表 1 给出了不同基线方法和本文提出的AGAIN在节点分类性能方面的比较结果。从表 1 中可以看出,LR产生的标准差值最大,可能是由于其简单。在同一图上进行检验时,其他方法的标准差值一般比较接近,且顺序一致。
表1 归纳设置下测试数据的平均分类精度
从表 1 可以看出,与第一组基线相比,基于图的半监督学习方法(即 ManiReg、SemiEmb 和 Planetoid-I)表现出更好的性能。其中,Planetoid-I是最具竞争力的。GraphSAGE 变体中可以看到进一步的改进。在 Cora 和 PubMed 数据集上,可以观察到几种归纳 GNN 模型具有接近的性能,包括 GAT、GS-mean、GS-pool、GAIN 和 AGAIN。在 CiteSeer 和 BlogCatalog 数据集上,AGAIN 比其他 GNN 模型有明显的性能提升。具体来说,借助注意力机制和跳跃连接,GAIN 的性能优于 GraphSAGE 变体和 GAT。而AGAIN 通过对抗性训练进一步改进 GAIN的性能。与Cora和PubMed相比,BlogCatalog和CiteSeer中的节点特征向量具有更大的维度。因此,上述观察结果揭示了本文的方法在特征丰富的图上进行归纳学习的优势。
一旦检测到并消除了对抗发射器,本文的系统就会使用神经网络对“可信”发射器进行分类。首先,使用提供的实现细节构建的CNN进行可信发射机分类。对于4和8个发射机分类,分别获得了89.07%和81.6%的准确率。两种情况的准确度和混淆矩阵如图9和图10所示。注意到训练和验证的准确性都随着epoch的数量而增加。然而,对于CNN实现,误报和漏报的数量有点高。直观地说,这表明与网络一起使用的卷积滤波器无法识别和编码此任务的判别特征。由于知道至少有一个区分发射器的判别特征(即I/Q不平衡),可以得出结论,与CNN一起使用的输入表示没有有效地编码这些特征,因此系统无法有效地学习它们。
B.嵌入向量的可视化
图5 使用 t-SNE 在2D空间中可视化嵌入向量
图 5 使用 t-SNE可视化了 Cora 和 BlogCatalog 数据集中测试节点的嵌入向量。这项实验中选择了 Planetoid-I 和 GS-pool 作为代表性基线。如表2所示,本文进一步计算了二维投影空间中簇的相应轮廓得分。结果表明AGAIN 生成的嵌入向量具有最佳的可视化效果。具体来说,簇分离得更清楚,并产生最高的轮廓分数。
表2 二维投影空间中簇的轮廓分数
C.消融研究
本文通过消融实验逐步研究了信息聚合、注意力机制和对抗训练对学习节点嵌入的影响,结果如表3所示。其中基线MLP,仅使用节点特征作为输入,无需考虑图结构。GS-mean取权重相等的邻居表示的平均值。GAIN 进一步为这些相邻节点分配不同的可学习权重(即注意力系数)。然后将对抗性训练与 GAIN 结合起来组成AGAIN,限制学习到的嵌入以匹配先验分布。
表3 消融实验下平均分类准确度
在表3中,基于信息聚合的方法(即GS-mean、GAIN和AGAIN)优于仅利用节点特征的MLP。与 GS-mean 相比,GAIN 在大多数情况下获得了更高的精度。就平均准确率而言,AGAIN 在 12 个案例中的 9 个中优于 GAIN,这表明 AGAIN 在未见过的测试节点上进行评估时的泛化能力略有提高。
D. 超参数敏感性研究
图6 在四个不同的超参数设置下AGAIN的准确度
最后,本文分析了AGAIN在四个相关超参数方面的分类精度,即嵌入维度 d、邻域样本大小 s、鉴别器学习率 p_r 和权重衰减系数 p_c 。当研究一个超参数时,其余超参数将设置为默认值。图6显示了四种不同配置图上的分类精度。嵌入维度 d 是 AGAIN 模型学习的节点表示向量的维度。预测精度首先随着嵌入维数的增加而增加,然后变得稳定。当增加采样邻居 s 的数量时,可以在 Cora 和 PubMed 上看到类似的趋势。然而,由于 CiteSeer 的平均度较低,因此变化不大。相比之下,当测试应用于密度较高的BlogCatalog时,准确率随着样本量的增加而稳定增加。在鉴别器的学习率(即 1e-2)远大于 GNN 编码器的学习率(即 1e-3)的情况下,在每个图上都观察到明显的性能下降。在 Cora 和 PubMed 上进行评估时,模型对鉴别器学习率更加敏感。在 BlogCatalog 上,权重衰减系数为 5e-3 时可获得最佳准确度。在三个引文图(即 Cora、CiteSeer 和 PubMed)上,当权重衰减系数为 5e-2 时,分类准确率达到峰值。
总结
本文解决了解决部分标记图上新加入节点的分类问题。本文提出了一种对抗性正则化图注意力模型——AGAIN,该模型包括归纳学习和对抗训练两个模块。AGAIN 使用基于注意力的聚合器聚合来自其邻居的信息,为看不见的节点生成信息表示向量。并采用对抗训练通过将节点表示与先验分布进行匹配来提高模型的鲁棒性和泛化能力。实验结果表明,与最先进的方法相比,本文的方法取得了相媲美甚至更有利的性能。
END
==河海大学网络与安全实验室==
微信搜索:Hohai_Network
联系QQ:1084561742
责任编辑:何宇
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...