模型名称MA-GNN
知识图谱补全(非少样本)
摘要
图神经网络(GNN)有效地利用知识图谱(KG)中的拓扑结构在低维空间中嵌入实体和关系,在知识图谱补全(KGC)中显示出强大的功能。KG具有丰富的全局和局部结构信息,然而,许多基于GNN的KGC模型不能通过设计复杂的聚合方案来捕获这两类关于图结构的信息,并且不能很好地学习孤立子图中具有稀疏邻域的可见实体的表示。在本文中,我们发现一个简单的基于注意力的方法可以优于一般的基于GNN的KGC方法。然后,我们提出了一种基于双分支多注意的图神经网络(MA-GNN)来学习包含丰富的全局局部结构信息的更具表现力的实体表示。具体来说,我们首先探索了基于图注意网络的局部聚合器来学习实体表示。在此基础上,我们提出了一种滚雪球式的局部关注机制,利用两跳邻居之间的语义相似性来丰富实体嵌入。最后,我们利用基于Transformer的自关注学习实体之间的远程依赖关系,以获得具有全局图结构和实体特征的更丰富的表示。在5个基准数据集上的实验结果表明,MA-GNN在归纳KGC的强基线上取得了显著的改进。
一、介绍
1、知识图谱(KGs)是由事实三元组(头实体、关系、尾实体)表示的结构化知识集合,对许多应用至关重要,包括语义搜索、问答、推荐系统等。
2、即使是拥有数十亿个三元组的大规模知识图谱(例如Freebase和DBpedia)也是不完整的,不完整性了知识图谱的应用。
3、知识图谱补全(KGC)试图在给定三元组关系和尾(头)的情况下自动预测缺失的头(尾)。
4、知识图谱补全(KGC)可以通过以下方法:
知识图谱嵌入(KGE)方法:KGE旨在定义一个评分函数,并将实体和关系嵌入到低维向量空间中,以基于观察到的三元组来评估三元组的合理性。
图神经网络(GNN)方法:由于KGC的内在图结构,GNN可以通过聚合其相应的本地邻居信息来学习每个实体的隐藏表示。
基于注意力的GNN方法:基于注意力的GNN方法可以有效地聚合多跳邻居信息从而获得更丰富的实体表示。
二、面临问题
1、知识图谱嵌入(KGE)补全知识图谱:严重依赖于预定义的评分函数;很难将关于实体的结构信息编码为单个向量。
2、图神经网络(GNN)补全知识图谱:只能捕获单个实体附近的局部信息,缺乏利用全局信息的能力;一个大的知识图谱由多个的子图组成,这些子图不与主子图相连,随着GNN层的增加和孤立子图中有限实体和关系的增加,现有的GNN方法往往会出现过度平滑或过度压缩。
3、基于注意力的GNN补全知识图谱:它们大多数集中于编码高阶拓扑信息(路径或随机行走序列),忽略了来自邻域实体的丰富结构信息;对复杂信息编码中重要的局部信息与全局信息的融合问题重视不够;两跳邻居实体的数量远远高于一跳邻居实体的数量,直接为每个目标实体融合两跳邻域实体不合理。
因此,对目标实体更关注其多跳邻居,并结合全局和局部结构信息来学习有效的知识表示是有意义的。
本文提出了一种双分支多注意图神经网络(MA-GNN),以保持KGC的全局-局部结构信息。MA-GNN是一种编码器-解码器模型,其中三种注意机制(Graph attention network(GAT)、基于Snowball局部注意机制和基于Transformer的自注意模块)和ConvE 分别扮演编码器和解码器的角色。此外,由于这两个分支的特征不同,在提取全局和局部特征时使用了三种注意机制。具体来说,我们首先采用了基于GAT和基于Transformer的自注意模块学习实体表示以获取全局-局部结构信息。其次,提出了Snowball局部注意模块来计算两跳邻域实体之间的局部语义相似度。
综上所述,我们做出了以下贡献:
1、提出了一种双分支多注意图神经网络,该网络由全局和局部两个并行分支组成,与其他基于注意力的GNN方法相比,MA-GNN可以通过GAT和基于Transformer的自注意捕获实体之间的局部信息和长期依赖关系。
2、为了提取更多的判别特征,设计了Snowball局部注意机制,该机制可以学习目标实体的两跳邻域实体之间的实体相似性,并像雪球一样编码更多的信息。
3、在五个基准数据集上将MA-GNN与以前的KGC方法进行了比较。实验表明,MA-GNN具有显著的改进效果,在WN18RR数据集上的得分为0.679,在NELL-995数据集上的得分为0.823,在FB15K数据集上的得分为0.932,分别比现有方法高12.7%,4.3%和15.1%。
三、相关工作
3.1GNN-based模型
迄今为止,现有的大多数基于GNN的方法都被用来处理KGs中的多关系边,这些方法设计了不同的消息传递机制来捕获实体的图结构和属性。
CompGCN描述了在连接目标实体的邻域实体的每条边上的组合算子;
SE-GNN提出了一种新的基于语义证据感知图神经网络的KGE模型来辅助KGE外推;
Rethinking旨在探索GCNs在KGC中的实际效果,并提出了LTE-KGE框架,该框架将线性变换的实体嵌入与现有的KGE模型相结合;
MRGAT为KGs设计了一个基于异构GNN的框架,直接将GNN应用于多关系图;
KBGAT利用GAT在任何实体的邻域中合并实体和关系特征。
3.2 Attention-based模型
近年来,基于注意力机制的方法(Attention-based methods)在知识图谱中越来越受欢迎。
基于Transformer的注意力聚合邻居信息,关注图结构而不是一跳邻居,研究了在不过度平滑的情况下学习远距离关系的问题;
将分层注意力机制解耦分为关系级注意和实体级注意,可以通过实体级注意力编码每个基于关系路径的邻居特征。
四、实验
4.1模型
模型MA-GNN有两大组成部分:一个编码器和一个解码器。
编码器分为三个模块来捕获局部和全局信息:
(1)局部分支(图注意网络模块(Graph attention network module,GAT )和Snowball局部注意模块学习局部图结构信息)
(2)全局分支(基于Transformer的自注意模块学习全局、远程关系)。
4.1.1图注意网络模块Graph attention network module
假设知识图谱G = (E, R)中的每个实体
其中是实体在第l层的嵌入,对于实体特征,有一个可学习的权重矩阵叫做,为全连接神经网络,是我们使用的激活函数ReLU,通过对实体邻居的加权特征求和,可以对实体的局部信息进行聚合:
更新后的实体表示通过以下方式计算:
其中决定了多少信息在邻居之间传递,是需要训练的参数。
4.1.2基于Transformer的自注意模块Transformer-based self-attention module
Transformer是一种由多个自注意组件组成的独特编解码器结构,设是每个Transformer自注意层的输入,其中n是实体的数量,d是每个实体的维度,可以用函数,公式作为一个基于Transformer的自关注层:
其中LayerNorm()为层归一化函数,Softmax()为逐行Softmax函数,σ为激活函数(如ReLU)。在该层中,可训练的参数有,,,,,,,,更详细地说,,,被分解成H个注意力头,,,然后来自注意头的矩阵被连接起来产生:
一旦我们获得了GAT编码最终的每个实体表示,其中l是GAT层的总数,我们将其传递给基于Transformer的MA-GNN自关注子网,如下图所示:
图2
其中N、K为堆叠模块数,为了规范化嵌入,我们首先将投影到基于Transformer的自关注维度中,并使用层规范化对嵌入进行规范化:
其中,为可学习权矩阵,为自注意维数,为最终GAT嵌入的维数。由于基于Transformer的自关注在没有位置编码的情况下是置换不变性的,我们利用随机游走法来获得实体序列。
其中,、、分别为第l层单个注意头的学习查询矩阵、键矩阵和值矩阵,h为注意头的个数。
4.1.3Snowball局部注意模块
我们首先构建以目标实体的邻居为重点的一跳邻域子图(例如,,),如下图所示,
图3
然后利用提出的Snowball局部注意机制聚合局部图结构信息。雪球局部注意机制对目标实体的两跳邻居和一跳邻居进行采样,并能够根据两跳邻居之间的注意得分来捕获两跳邻居实体之间的实体相似性。在这里,我们只是呈现雪球局部注意层的一种表述:
其中和表示实体的嵌入,表示实体的两跳邻居,中的i表示第i个一跳邻域子图或目标实体,k = 0表示目标实体,k, m = 1,2,3…指两跳邻域实体,为两跳邻居间的语义相似度。
经过雪球局部注意层后,对两跳邻域实体进行归一化。然后将归一化输出送入前馈神经网络,前馈神经网络的输出向量z与GAT模块和基于Transformer的自注意模块的输出向量相加,“Add”相当于简化的特征融合,Snowball局部注意力模块被堆叠成M层,如图1所示,M = 2。
如图3所示,是目标实体,一跳相邻子图属于该实体。图注意网络模块根据注意分数对一跳邻居的嵌入进行线性组合,然后将这些一跳邻居实体聚合到目标实体上,学习其新的实体表示。
然而,GAT需要两个阶段的图注意来聚合实体到,是 ()的单跳邻居实体,也是目标实体的两跳邻居实体。由此可见,是的两跳邻居实体,雪球局部注意机制就像雪球效应。为了获取更丰富的图结构信息和实体特征,我们使用雪球局部注意机制学习不同的语义相似度信息来生成实体特征,然后利用这些特征融合图注意网络模块和基于Transformer的自注意架构产生的特征向量。
4.1.4知识图谱补全模块Knowledge graph completion module
我们特别选择ConvE 作为解码器。在我们的实验中,使用初始化特征表示来表示关系特征。ConvE首先将三元组(h, r, t)的嵌入重塑为二维张量,然后基于重塑张量计算知识三重分数。从(h, r, ?)到t或从(?, r, t)到h,然后通过使用输出嵌入来执行。ConvE score函数为:
其中和表示h和r的二维重塑,∗表示卷积算子,ψ表示一组卷积核,矢量化函数为f(),权值矩阵为,σ为ReLU激活函数,在ConvE中具有更高分数的三元组比具有更低分数的三元组要更积极。本文提出的MA-GNN模型的损失函数定义如下:
其中,是三元组的标签(1或0),sigmoid函数用g表示,N表示尾部实体的候选个数。
4.2数据集
4.3基线方法
本文采用了大量的基线方法进行比较,分为以下几类:
几何方法:TransE (2013)、RotatE (2019)、ATTH (2020)、TimE (2021)、Rot-Pro (2021)、BiQUE (2021)、HBE (2021)、RotatE-IAS (2022)、HousE (2022)、GIE (2022)
张量分解方法:ComplEx (2016)、Procrustes (2021)
负采样(NS)方法:CAKE (2022)、KGTuner (2022)
深度学习和基于注意力的方法:ConvE (2018)、HittER (2021)、KGA (2022)、PUDA (2022)、JointE (2022)、StructurE (2022)
图神经网络方法:CompGCN (2020)、Rethinking (2022)、SE-GNN (2022)、MRGAT (2022)
4.4结果分析
表1 FB15K-237和WN18RR的链路预测结果
表2 NELL-995上的链路预测结果
表3 FB15K和WN18的链路预测结果
表1、2和3显示了标准基准测试集上的链路预测性能。
从实验结果中,我们观察到MA-GNN明显优于基准方法,特别是对于稀疏知识图谱,即WN18RR和NELL-995,MA-GNN在Hits@10上分别优于次优方法12.7%和15.1%。MA-GNN在FB15K-237的H@10指标上排名第二,但在其他指标上仍然表现最好。在WN18、FB15K和NELL995数据集上,MA-GNN也取得了与基线模型相比具有竞争力的结果,在NELL995数据集上有显著改善。如表1所示,其他方法在某些度量上存在竞争,但MA-GNN在所有度量上都有显著的结果,这表明所提出的方法在捕获知识图谱中的全局-局部结构信息方面具有强大的性能。
表4 预测头尾实体的评估
在表4中,我们发现在FB15K-237和WN18RR上,验证集和测试集对尾实体的预测结果都明显高于对头实体的预测结果,这表明MA-GNN在预测尾实体时更能通过聚合相邻实体来捕获额外的信。
4.5消融实验
在MA-GNN中有三个主要模块:GAT、Snowball局部注意模块和基于Transformer的自注意模块。
“MA-GNN w/o A”为未使用Snowball局部注意模块的模型,“MA-GNN w/o T”为未使用基于Transformer的自注意模块的模型,“GAT w/ MLP”表明模型中Snowball局部注意模块被多层感知器取代,基于Transformer的自注意模块被移除。
五、局限性
MA-GNN模型只关注具有多类型关系的图谱(知识图谱),在单一类型关系的图谱上表征能力有待证实。