A Brief Survey of Node Classification with Graph Neural Networks --译 (侵删)
2021-01-02 02:28
标签:引用 其他 商品 dsc 性能提高 学习方法 png 出版物 上进 原文链接: 图神经网络彻底改变了图数据上神经网络的性能。 诸如Pinterest [1],Google [2]和Uber [3]之类的公司已经实现了图神经网络算法,以显着提高大型数据驱动任务的性能。 图简介 图神经网络的出现 DeepWalk 深度游走 2014年发布的DeepWalk [4]是第一种基于深度学习的重要节点分类方法。 DeepWalk的方法与自然语言处理(NLP)中用于嵌入的方法类似。 嵌入是对象的矢量表示,例如NLP中的单词或图形中的节点。 为了创建其嵌入,DeepWalk从图数据中获取截断的随机游动,以学习节点的潜在表示形式。 在CoRA数据集上,DeepWalk在基准节点分类实验中达到了67.2%的准确性[5]。 当时,这比竞争方法好10%,而训练数据却少60%。 为了演示DeepWalk生成的嵌入如何包含有关图结构的信息,下图显示了DeepWalk如何在Zachary的空手道网络上工作。 空手道网络是一个空手道俱乐部成员之间联系的小型网络,如果两个成员在空手道之外进行互动,则会在两个成员之间形成边缘。 节点着色基于俱乐部内的不同子社区。 左图是社交网络的输入图,右图是由对图数据进行操作的DeepWalk算法生成的二维输出。 Graph Convolutional Networks图卷积网络 GCN中线性层的数量决定了进行分类预测时要考虑的目标节点邻域的大小。 例如,一个隐藏层将暗示图网络在做出分类决策时仅检查直接邻居。 Applying GCN to Real-World Data 图-BERT 结论 A Brief Survey of Node Classification with Graph Neural Networks --译 (侵删) 标签:引用 其他 商品 dsc 性能提高 学习方法 png 出版物 上进 原文地址:https://www.cnblogs.com/Ann21/p/13669494.html
https://medium.com/@ODSC/a-brief-survey-of-node-classification-with-graph-neural-networks-fa02aff024e4
图是包含节点和边的任何数据集。 节点是实体(例如人,组织),而边表示节点之间的连接。 例如,社交网络是将网络中的人视为节点的图。 当两个人以某种方式联系在一起时(例如,朋友,分享一个人的帖子),存在优势。
在零售应用程序中,客户和产品可以视为节点。 边显示了客户与购买的产品之间的关系。 图表可以用来代表每个客户的消费习惯。 此外,节点还可以具有功能或属性。 人们具有年龄和身高等属性,而产品具有价格和尺寸等属性。 Pinterest以这种方式使用图神经网络将其推荐系统的性能提高了150%[1]。
在图神经网络发展之前,深度学习方法无法应用于边以提取知识并进行预测,而只能基于节点特征进行操作。 将深度学习应用于图形数据可以使我们进行链接预测,社区检测和生成建议的任务。
深度学习还可以应用于节点分类或预测未标记节点的标记。 这是在半监督的环境中进行的,其中某些节点的标签是已知的,而另一些则是未知的。 深度学习节点分类方法的调查显示了最新性能的发展历史,同时说明了用例和应用程序的范围。
本博客文章中讨论的方法在基准CoRA数据集上进行了评估。 CoRA由深度学习期刊出版物组成。 每个出版物都是一个节点,如果引用或被数据集中的另一篇论文引用,则节点之间存在边。 该数据集由2708个出版物和5429条边组成。
2016年,Thomas N. Kipf和Max Welling引入了图卷积网络(GCN)[6],将最新的CoRA基准提高到81.5%。 GCN是由具有激活功能的堆叠线性层组成的网络。 Kipf和Welling引入了一个新的传播函数,该函数逐层运行并直接在图形数据上运行。
使用5%的标签在CoRA数据集上训练的两层GCN的t-SNE可视化。 颜色代表文档类别。
图卷积网络的输入是邻接矩阵,它是图本身的表示。 它还将每个节点的特征向量作为输入。 这可以像对每个节点的属性进行一次编码一样简单,而可以使用更复杂的版本来表示节点的复杂特征。
我们的研究团队对在真实数据上实施GCN感兴趣,以便加快分析人员的工作量。 我们实现了用PyTorch编写的GCN架构,以对商品数据执行节点分类。 我们数据集中使用的图表是由确定其相关的用户从“播放列表”中分组的文章数据中得出的。 节点是单独的文章和播放列表,并且如果播放列表中包含特定文章,则在文章和播放列表之间存在边缘。 我们不是使用人工浏览语料库来确定其他相关文章,而是使用GCN推荐其他可能相关的文档。 通过2层GCN运行大约100,000条文章和7个不同播放列表的语料库后,我们的网络的效果比随机效果好5倍。
GCN多年来一直是领先的架构,随后发布了其中的许多变体。 然后,在2020年1月,Graph-BERT [7]消除了对链接的依赖,并重新格式化了通常表示图网络的方式。 这对于可伸缩性很重要,同时相对于其他类型的图神经网络也显示出更高的准确性和效率。 我们目前正在探索Graph-BERT如何影响我们已经通过图神经网络解决的用例。
图神经网络是神经网络研究的一个不断发展的领域。 它们使用图形数据的能力使诸如节点分类之类的棘手问题变得更加易于处理。
有关图神经网络及其可以解决的问题的更深入讨论,请参加我在ODSC East上的演讲“图神经网络及其应用”。
文章标题:A Brief Survey of Node Classification with Graph Neural Networks --译 (侵删)
文章链接:http://soscw.com/essay/39481.html