Abs

本文介绍了一种新的图卷积网络方法——关系图卷积网络（Relational Graph Convolutional Networks, R-GCN），用于处理多关系数据，尤其是知识图谱中的实体分类和链接预测问题。R-GCN能够有效地捕捉知识图谱中节点的复杂关系，改善现有知识库中缺失信息的预测问题。通过在实体分类和链接预测任务上的实验，验证了R-GCN在多关系知识图谱推理中的优越性。

1. Introduction

知识图谱（如DBPedia、Wikidata等）在问答系统、信息检索等任务中有着广泛应用，但即使是大型知识图谱，依然存在信息不完整的问题。统计关系学习（SRL）任务的目标是通过机器学习方法预测知识图谱中的缺失信息。本文提出了R-GCN模型，扩展了传统的图卷积网络，使其能够处理包含多种关系类型的图数据。本文将R-GCN应用于两个主要任务：实体分类和链接预测，并展示了其在这些任务上的效果。

link prediction (recovery of missing triples) and entity classification (assigning types or categorical properties to entities)

实体分类：作者提出的实体分类模型利用R-GCN来生成节点表示，随后通过softmax分类器对每个节点进行分类。整个模型通过优化交叉熵损失函数来学习R-GCN的参数，旨在精确预测节点标签。
链接预测：链接预测被看作是一个自编码器模型，包含两个主要组件：
- 编码器：R-GCN用于生成实体的潜在特征表示。
- 解码器：利用张量因式分解模型来预测带标签的边。本文选择了DistMult作为解码器，它是一种简单且有效的因式分解方法，用于给三元组（subject, relation, object）评分。
主要贡献：
- 首次将图卷积网络（GCN）框架成功应用于多关系数据建模，尤其是知识图谱中的链接预测和实体分类任务。
- 引入了参数共享和稀疏性约束的技术，解决了多关系图中的参数过多问题，使得R-GCN能够适应关系较多的图数据。
- 通过结合R-GCN编码器和DistMult解码器，展示了将信息传播纳入关系推理的有效性，显著提高了因式分解模型的性能。

2. Method

2.1. Neural Relational Modeling

2.1.1. Relational Graph Convolutional Networks (R-GCN)

1. 基本架构

R-GCN是基于图卷积网络（GCN）的一种扩展，专门设计用于处理多关系图数据。模型的输入是一个有向标记的多图，记作 G = (V, E, R)，其中：

V 是节点集合（实体）。
E 是带标签的边集合（关系）。
R 是关系类型集合。

2. 节点更新公式

R-GCN的核心是节点的表示更新，更新公式为：

h_i^{(l+1)} = \sigma\left(\sum_{r \in R} \sum_{j \in N_i^r} \frac{1}{c_{i,r}} W_r^{(l)} h_j^{(l)} + W_0^{(l)} h_i^{(l)}\right)

其中：

h_i^{(l)} 是节点 v_i 在第 l 层的隐藏状态。
N_i^r 是节点 v_i 在关系 r 下的邻居节点集合。
c_{i,r} 是归一化常数，可以根据邻居的数量选择。
W_r^{(l)} 是与关系 r 相关的权重矩阵。
\sigma 是激活函数（如ReLU），用于引入非线性。

该公式表明，节点的表示依赖于其邻居节点的表示，经过加权和激活函数的处理。

3. Why?

处理多关系数据：R-GCN的设计旨在有效处理包含多个关系类型的图数据，能够同时利用不同关系的信息进行推理。
提升表示能力：通过更新公式中邻居节点的聚合，R-GCN能够捕捉到节点之间的关系及其结构信息，从而提升节点表示的有效性。
减少参数数量：引入基分解法和块对角分解法的目的是控制模型的参数数量，防止在多关系数据上出现过拟合，确保模型在未见数据上的泛化能力。

2.1.2. Regularization

为了应对多关系数据带来的参数过多问题，本文在权重矩阵之间共享参数，并在权重矩阵中强制稀疏以限制参数的总数，因此R-GCN引入了两种正则化策略：基分解法和块对角分解法。

1. 目的：

减少参数数量：在处理多关系数据时，R-GCN的参数数量会随着关系的增加而迅速增长。使用这两种方法可以有效减少需要学习的参数数量，从而降低计算成本。
防止过拟合：在高度多关系的数据中，过多的参数容易导致模型在训练集上过拟合，通过引入正则化手段，可以提高模型在未见数据上的泛化能力。
提升模型性能：通过控制模型复杂性和优化参数学习，旨在提升模型在实际任务中的性能，例如在知识图谱的实体分类和链接预测任务中的表现。

2. 基分解（Basis Decomposition）：

基分解法通过将每个关系的权重矩阵表示为多个基础变换的线性组合，从而减少模型的参数数量。这可以被表示为：

W_r^{(l)} = \sum_{b=1}^{B} a_{rb}^{(l)} V_b^{(l)}

其中W_r^{(l)} 是关系 r 在第 l 层的权重矩阵， V_b^{(l)} 是基础变换，a_{rb}^{(l)} 是与关系 r 相关的系数。

优点：
- 参数共享：通过使用基础变换的线性组合，模型可以在多个关系之间共享参数，降低过拟合的风险。
- 表达能力：能够有效地捕捉不同关系之间的相似性，提高模型的泛化能力。
缺点：
- 模型复杂性：虽然参数数量减少，但基础变换的选择和组合可能会增加模型的复杂性。
- 计算效率：基础变换的数量（B）需要合适设置，过多可能导致计算负担增加。

3. 块对角分解（Block-Diagonal Decomposition）：

块对角分解法通过将权重矩阵定义为一组低维矩阵的直接和，以减少每种关系的参数数量。其表示为：

W_r^{(l)} = \bigoplus_{b=1}^{B} Q_{br}^{(l)}

优点：
- 稀疏性约束：通过将权重矩阵构造成块对角形式，限制了参数的数量，使得模型更加简洁，降低了过拟合的风险。
- 易于实现：块对角结构便于实现，并且在计算时可以利用矩阵的稀疏性进行优化。
缺点：
- 表达能力限制：由于块对角结构的限制，可能无法充分捕捉某些复杂关系，特别是在需要高复杂度表达的情况下。
- 对称性：由于使用对角矩阵，每种关系类型的表示可能受到对称性的限制，降低了模型的灵活性。

2.2. Entity Classification

在实体分类任务中，作者使用R-GCN的多层堆叠来生成节点的最终表示。损失函数定义为交叉熵损失：

L = -\sum_{i \in Y} \sum_{k=1}^{K} t_{ik} \log h_{ik}^{(L)}

其中：

Y 是所有带标签节点的集合。
t_{ik} 是节点 i 的真实标签。
h_{ik}^{(L)} 是网络输出的第 k 个值。

该模型通过全批量梯度下降进行训练，旨在最大化正确标签的概率。

2.3. Link Prediction

链接预测任务旨在预测知识图谱中的缺失三元组。知识库被表示为有向标记图 G = (V, E, R)，其中 E 是边的集合。链接预测的核心是为可能的边 (s, r, o) 赋分：

f(s, r, o) = e_s^T R_r e_o

在此，e_s 和 e_o 分别是源节点和目标节点的嵌入，R_r 是与关系 r 相关的矩阵。

链接预测的损失函数为：

L = - \frac{1}{(1+\omega)|\hat{E}|} \sum_{(s, r, o, y) \in T} y \log l(f(s, r, o)) + (1 - y) \log(1 - l(f(s, r, o)))

其中：

T 是所有真实和负样本三元组的集合。
l 是逻辑sigmoid函数。
y 是指示符，用于标记三元组的正负。

通过结合R-GCN作为编码器和DistMult作为解码器，链接预测的效果得到了显著提升，尤其在FB15k-237数据集上。

2.4. 模型图

1. 单个R-GCN层

输入：该部分展示了节点及其邻居的表示。
- 邻居节点：以不同颜色表示的邻居节点 activations，包含来自不同关系（如 rel_1, rel_N）的输入（蓝色矩形）。
- 自连接：红色部分表示节点自身的自连接。
计算过程：
- 邻居节点的表示（d维向量）首先被聚集起来。对于每种关系类型，进行单独的转换。
- 聚合的表示通过一个归一化和激活函数（如 ReLU）进行处理。激活函数用于引入非线性，增强模型的表达能力。
输出：最终的输出是更新后的节点表示（绿色矩形），这些表示可以在整个图中并行计算，具有共享的参数。

2. 实体分类模型

模型结构：
- 输入数据传递给 R-GCN 进行编码，生成节点表示。
- 使用softmax分类器进行分类，计算节点损失（Node loss），用于训练模型。
目标：该部分的目标是通过学习节点的表示来实现对节点类型的分类。

3. 链接预测模型

模型结构：
- 类似于实体分类模型，输入经过 R-GCN 编码后，生成节点的潜在表示。
- 这些表示随后被传递给 DistMult 解码器，用于预测节点之间的关系，并计算边损失（Edge loss）。
目标：通过结合R-GCN和DistMult，模型旨在从节点表示中推断出可能缺失的边（即三元组中的关系）。

3. Experiment

作者在多个基准数据集上对R-GCN进行了实证研究，主要集中在实体分类和链接预测任务：

实体分类实验：在AIFB、MUTAG等四个RDF格式的知识图谱数据集上，R-GCN在AIFB和AM数据集上取得了最好的分类准确率，超越了基于RDF2Vec、Weisfeiler-Lehman内核等方法的基准模型。
链接预测实验：在知识图谱的链接预测任务中，R-GCN通过结合DistMult解码器，在FB15k-237数据集上表现优异，提升了29.8%的性能。相比于直接优化DistMult模型，R-GCN的编码器通过多次聚合邻居信息，显著提升了预测效果。

4. Conclusion

本文提出的R-GCN模型展示了在多关系知识图谱数据中的强大能力，尤其是在实体分类和链接预测任务中的效果。R-GCN不仅通过关系特定的变换矩阵有效处理多关系图，还通过正则化手段减小了过拟合的风险。实验表明，R-GCN模型在现有的基准任务上取得了优异的表现，尤其是在FB15k-237数据集上取得了显著的提升。未来的工作可以在因式分解解码器、实体特征集成和图神经网络的子采样技术上继续优化R-GCN模型。

目录CONTENT

Modeling Relational Data with Graph Convolutional Networks

Abs