论文精讲 | 知识图谱与推荐系统—使用图神经网络的解决方案 - 新鲜讯息

本次论文研读系列推文来自知识图谱硕士课程课堂展示。其中来自数据科学、管理科学与工程、保密管理等专业13位同学选择了知识图谱相关的前沿论文进行精读。我们将从KG construction，KG representation以及综述三个专题进行成果展示。本期展示主题为KG representation。

摘要：

本文提出了一种名为 "知识图谱关注网络"（KGAT）的新方法，它以端到端的方式明确地模拟了KG中的高阶连接性。它递归地传播来自一个节点的邻居（可以是用户、项目或属性）的嵌入，以完善该节点的嵌入，并采用一种关注机制来区分邻居的重要性。KGAT在概念上优于现有的基于KG的推荐方法，这些方法要么通过提取路径来利用高阶关系，要么通过正则化隐含地对它们进行建模。在三个公共基准上的实证结果表明，KGAT明显优于最先进的方法，如Neural FM和RippleNet。进一步的研究验证了嵌入传播对于高阶关系建模的功效以及注意力机制带来的可解释性优势。

关键词：协同过滤, 推荐, 图形神经网络, 高阶连接, 嵌入传播, 知识图谱

论文标题：

KGAT: Knowledge Graph Attention Network for Recommendation

会议：

KDD 2019

论文地址：

KGAT | Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining

———————————————————————————————

01介绍

协同过滤 Collaborative Filtering

1.1 什么是协同过滤

协同过滤是一个基于行为形似度的推荐算法，找到和目标用户相似的用户，推荐该相似用户使用过但该用户没见过的物品。首先计算每个用户和目标用户的相似度，并选出最相似的一群用户群体，根据相似用户对某一物品的评价计算出目标用户对这个物品的评价，设定一个阈值判断是否推荐。

使用协同过滤的电影推荐举例：

如何根据推荐对象A的观影行为找到相似用户并进行推荐呢，这里有两个可供参考的其他用户B和C：

如果根据协同过滤算法进行推荐，可以根据电影的观看选择计算出A与B为相似用户，B的后续观看列表将按评分由高到低为A进行推荐，由此我们可以得到基于协同过滤的推荐列表。

推荐列表

小丑9

闪电侠7

蜘蛛侠6

1.2 协同过滤算法的局限性

协同过滤类的方法（CF-based methods）存在一定的不足之处，例如数据稀疏与冷启动问题。

为缓解部分问题，当前大多采用知识图谱（KG）的思路，即将物品属性，用户信息，社交网络关系等多种可以辅助决策的属性（side information）通过知识图谱的方式结合，以得到能够较好融合side information的网络，并同时建立各个实体之间，实体与属性之间的关系。

1.3 协同知识图谱

（1）针对集体关系 Collaborative Filtering

尽管具有有效性和普遍性，但它无法对辅助信息进行建模，例如项目属性、用户简档和上下文，因此在用户和项目很少交互的稀疏情况下表现不佳。

（2）针对个体特征 Factorization Machine

将这些辅助信息转换成一个通用的特征向量，和userID和itemID输入到监督学习模型进行预测得分这些模型将每个交互都建模为一个独立的数据实例，不考虑它们之间的关系，使得它们不能从用户的集体行为中提取协作信号。

（3）综合建模 Collaborative knowledge graph

knowledge graph + user-item graph = collaborative knowledge graph协同知识图(CKG)

（4）发掘高阶关系High-Order Connectivity

高阶关系又称跳数，通过与自身建立关系的其他类别实体寻找下一个链接目标，如上图，u1和i4为度为3的高阶关系，i4相较i5存在更多的高阶路径，所以这里会优先推荐i4。

使用高阶关系进行电影推荐举例：

现在根据side information（例如用户标签或浏览内容进行推断）已知一位喜欢诺兰电影的推荐对象A，那么如何才能找到他真的兴趣点诺兰并且针对性进行推荐呢？同样我们准备了两位可供参考的用户B和C

很显然我们的目标是推荐给用户A有相同兴趣点诺兰导演的用户C的观影内容，但是根据协同过滤算法的要求，具有类似行为的B才是推荐的目标，这显然是不合适的；如果我们根据高阶关系去发掘兴趣点，我们不难发现，A和C之间围绕实体诺兰导演有更多的高阶路径，所以C的观影内容更容易被得到推荐，由此综合B和C观影行为，我们得到如下的推荐列表：

推荐列表

星际穿越9

信条8

超人8

盗梦空间7

敦刻尔克6

可见我们最后的高阶关系推荐是围绕兴趣点诺兰而展开的，而对具体的某一个用户无关，如果根据浅层的协同过滤算法进行推荐，为A推荐一些超级英雄电影或者C的其他爱好《两小无猜》，这对诺兰的粉丝A是不合适的。

02前置知识

2.1 知识图谱嵌入Knowledge Graph Embedding—Trans系算法

知识图谱，在此多以异构信息网络的形式，主要有以下几个优点：

• 利用更多的 side information 数据信息以帮助决策，可以更好地发掘用户的潜在兴趣

• 此时各个实体之间存在多种多样的关系，能够帮助提高用户推荐的多样性（diversity）

• 推荐结果具有较好的解释性

然而将知识图谱与推荐系统本身进行融合的工作本身面临诸多挑战，当前大多使用 embedding 的方法进行融合（KGE）

（1）TransE

Bordes, A., Usunier, N., Garcia-Duran, A., Weston, J., & Yakhnenko, O. (2013). Translating embeddings for modeling multi-relational data. Advances in neural information processing systems, 26.

TransE认为：h+r=t，即r是头尾实体之间的翻译关系，并定义评分函数为，优化目标是最小化评分函数。TransE能够解决1-1类别的关系，但不能够很好地解决1-N, N-1, N-N关系。比如（美国，城市，纽约）、（美国，城市，洛杉矶）两个三元组，当头实体 h 和关系 r 相同时，TransE认为所有尾实体 t 具有相同的Embedding信息，但实际情况并非如此。

（3）TransH

Wang, Z., Zhang, J., Feng, J., & Chen, Z. (2014, June). Knowledge graph embedding by translating on hyperplanes. In Proceedings of the AAAI conference on artificial intelligence (Vol. 28, No. 1).

针对TransE存在的问题，TransH把头实体h和尾实体t投影到关系所在的超平面中，并定义评分函数为，其中。经过投影后，尽管头实体h和关系r相同，尾实体t的Embedding信息也会不同，TransH能够一定程度上解决多对多的关系。

（4）TransR

Lin, Y., Liu, Z., Sun, M., Liu, Y., & Zhu, X. (2015, February). Learning entity and relation embeddings for knowledge graph completion. In Twenty-ninth AAAI conference on artificial intelligence.

TransR认为TransE和TransH均是把实体和关系放在同一空间中进行考虑，但实体可能具有多个不同方面的属性，不同的关系也关注着实体的不同属性，因此把实体和关系放在同一空间中考虑是不准确的。因此，TransR构建实体空间和关系空间，并定义评分函数为，其中，属于实体空间，属于关系空间。

2.2 图神经网络算法—GCN和GAT

（1）Graph Convolution Network

Bruna, J., Zaremba, W., Szlam, A., & LeCun, Y. (2013). Spectral networks and locally connected networks on graphs. arXiv preprint arXiv:1312.6203.

类似于CNN，GCN可以用于提取图的特征，对于每个节点，都能够关注到其所有k层邻居节点和自己的embedding（感受野），所以GCN可以理解更深层的拓扑特征和节点之间的关系。

（2）Graph Attention Network

Veličković, P., Cucurull, G., Casanova, A., Romero, A., Lio, P., & Bengio, Y. (2017). Graph attention networks. arXiv preprint arXiv:1710.10903.

attention可以为每个节点分配不同权重，关注那些作用比较大的节点，而忽视一些作用较小的节点，处理局部信息的时候同时能够关注整体的信息。自注意力机制和多头注意力机制，经过Graph Attention Layer可以计算出每个结点对其他的相邻节点的关注程度。

03算法与实验

3.1 KGCN:Knowledge Graph Convolutional Networks

Wang, H., Zhao, M., Xie, X., Li, W., & Guo, M. (2019, May). Knowledge graph convolutional networks for recommender systems. In The world wide web conference (pp. 3307-3313).

3.1.1模型结构

如图1将实体和用户的感受野中的实体合集聚合，然后根据损失函数计算聚合器结果和预测用户的表示结果的loss，聚合器相当于传统CNN的卷积核，网络训练即最小化loss计算聚合器权重。为ReLu激活函数。

sum aggregator

concat aggregator

neighbor aggregator

3.1.2对比实验

（1）数据集

本项目在电影、书籍和音乐推荐实验中，分别使用以下三个数据集：

• MovieLens-20M是电影推荐中广泛使用的基准数据集，包括MovieLens网站上大约2000万个明确的评分（从1到5）。

• Book-Crossing包含Book Crossing社区中100万册图书的评级（从0到10）。

Last.FM包含来自上一个2000名用户的Last.fm在线音乐系统的收听信息。

三个数据集的基本统计数据和超参数设置（K：相邻采样大小，d：嵌入维度，H：感受野深度，λ：L2正则化器权重，η：学习率）

（2）推荐算法对比实验

• SVD 是一个经典的基于矩阵分解的CF的模型，使用内积来建模use-item交互。

• LibFM 是CTR场景中基于特征的因子分解模型。连接用户ID和项目ID作为LibFM的输入。

• LibFM + TransE 通过将TransE学习的实体表示附加到每个user-item对来扩展LibFM。

• PER 将KG视为异构信息网络，并提取基于元路径的特征来表示user-item之间的连接。

• CKE 将CF与结构、文本和视觉知识结合在一个统一的推荐框架中，将CKE实现为CF加上一个结构化的知识模块。

• RippleNet 是一种类似内存网络的方法，可在KG上传播用户的偏好以供推荐。

（3）自身参数对比实验

以AUC作为参考指标

3.2 KGAT: Knowledge graph attention network

Wang, X., He, X., Cao, Y., Liu, M., & Chua, T. S. (2019, July). KGAT: Knowledge graph attention network for recommendation. In Proceedings of the 25th ACM SIGKDD international conference on knowledge discovery & data mining (pp. 950-958).

3.2.1模型结构

（1）CKG Embedding Layer

使用TransR对CKG进行embedding生成向量表示，使用有链接的真实三元组和无连接的虚假三元组进行监督学习。和是和在关系空间中的投影，转换矩阵记为，即为该阶段学习的参数。

（2）Attentive Embedding Propagation Layers

整个注意力传播层包含以下几个步骤：

• information propagation

一个实体可以包含在多个三元组中，充当连接两个三元组和传播信息的桥梁，在多组表示中通过传播扩充自己的信息。给定一个实体表示三元组的集合,其中为头实体。

• knowledge-aware attention

根据知识图谱中的知识对实体在每个关系中的权重进行计算

• information aggregation

使用以及下文的聚合器进行一个实体的信息聚合表示,在这表示LeakyReLu激活函数，与KGCN中同理需要学习聚合器中的参数。

GCN Aggregator