图神经网络

图是一种数据结构,它对一组对象(顶点)及其关系(边)进行建模。近年来,由于图结构的强大表现力,用机器学习方法分析图的研究越来越受到重视。图神经网络(GNN)是一类基于深度学习的处理图域信息的方法。由于其较好的性能和可解释性,图神经网络已成为一种广泛应用的图分析方法。

一、什么是图神经网络

1、图和属性图

要了解图神经网络,首先要了解图。图是由顶点和边组成的,如下图所示。一般图中的顶点表示实体对象(比如一个用户、一件商品、一辆车、一张银行卡等都可以作为顶点),边代表事件或者实体之间的特殊关系(比如用户和商品之间的购买关系)。

在数学中,我们一般使用邻接矩阵来表示图,如上图右边所示。邻接矩阵中的值为 1 表示顶点之间有边,即有连接关系。所以邻接矩阵其实很好的将图的这种结构信息表达出来了。
还要介绍一个概念是属性图。就是说,图中的顶点和边都带有属性(这是一种信息)。如下图所示:

这个图里的用户顶点有姓名、性别,话题顶点具体的话题类别,公司顶点有名称,注册时间等属性信息。边也可以有属性信息,比如开始工作时间是边”工作于”的一种属性。所以,属性图就是顶点和边带有自己的属性信息,同时每个顶点又有自己的拓扑结构信息。这是工业界最常用的一种图表示方法,因为我们需要更丰富的信息。
图神经网络就是将图数据和神经网络进行结合,在图数据上面进行端对端的计算。

2、图神经网络的计算机制

单层的神经网络计算过程:

相比较于神经网络最基本的网络结构全连接层(MLP),特征矩阵乘以权重矩阵,图神经网络多了一个邻接矩阵。计算形式很简单,三个矩阵相乘再加上一个非线性变换。

图神经网络的计算过程总结起来就是聚合邻居。如下面的动图所示,每个顶点都在接收邻居的信息。为了更加全面的刻画每个顶点,除了顶点自身的属性信息,还需要更加全面的结构信息。所以要聚合邻居,邻居的邻居…..

图神经网络是直接在图上进行计算,整个计算的过程,沿着图的结构进行,这样处理的好处是能够很好的保留图的结构信息。而能够对结构信息进行学习,正是图神经网络的能力所在。

二、图神经网络的强大能力

现实生活中的大量的业务数据都可以用图来表示。万事万物皆有联系,顶点+关系这样一种表示足以包罗万象。
比如人类的社交网络,个体作为顶点,人与人之间的各种关系作为边;电商业务中,用户和商品也可以构建成图网络;而物联网、电网、生物分子这些是天然的顶点+关系结构;甚至,可以将实物物体抽象成 3D 点云,以图数据的形式来表示。图数据可以说是一种最契合业务的数据表达形式。

图神经网络的强大能力可以归纳为三点:对图数据进行端对端学习、擅长推理、可解释性强

1、端对端学习

近几年,深度学习带来了人脸识别、语音助手以及机器翻译的成功应用。这三类场景的背后分别代表了三类数据:图像、语音和文本。
深度学习在这三类场景中取得突破的关键是它背后的端对端学习机制。端对端代表着高效,能够有效减少中间环节信息的不对称,一旦在终端发现问题,整个系统每一个环节都可以进行联动调节。
既然端对端学习在图像、语音以及文本数据上的学习是如此有效,那么将该学习机制推广到具有更广泛业务场景的图数据就是自然而然的想法了。

2、擅长推理

业界认为大规模图神经网络是认知智能计算强有力的推理方法。图神经网络将深度神经网络从处理传统非结构化数据(如图像、语音和文本序列)推广到更高层次的结构化数据(如图结构)。
大规模的图数据可以表达丰富和蕴含逻辑关系的人类常识和专家规则,图节点定义了可理解的符号化知识,不规则图拓扑结构表达了图节点之间的依赖、从属、逻辑规则等推理关系。
以保险和金融风险评估为例,一个完备的AI系统不仅需要基于个人的履历、行为习惯、健康程度等进行分析处理,还需要通过其亲友、同事、同学之间的来往数据和相互评价进一步进行信用评估和推断。基于图结构的学习系统能够利用用户之间、用户与产品之间的交互,做出非常准确的因果和关联推理。

3、可解释性强

图具有很强的语义可视化能力,这种优势被所有的GNN模型所共享。比如在异常交易账户识别的场景中,GNN在将某个账户判断为异常账户之后,可以将该账户的局部子图可视化出来,如下图所示:

我们可以直观地从子图结构中发现一些异常模式,比如同一设备上有多个账户登录,或者同一账户在多个设备上有行为。还可以从特征的维度,比如该账户与其他有关联的账户行为模式非常相似(包括活跃时间集中,或者呈现周期性等),从而对模型的判断进行解释。

三、图神经网络的应用

图数据无处不在,图神经网络的应用场景自然非常多样。

0%