0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Transformer 能代替图神经网络吗?

颖脉Imgtec 2024-07-02 08:27 次阅读

当Transformer模型发布时,它彻底革新了机器翻译领域。虽然最初是为特定任务设计的,但这种革命性的架构显示出它可以轻松适应不同的任务。随后成为了Transformer一个标准,甚至用于它最初设计之外的数据(如图像和其他序列数据)。

然后人们也开始优化和寻找替代方案,主要是为了减少计算成本(自注意力机制的二次方成本)。关于哪种架构在计算成本方面更优的讨论一直在进行,但是对于Transformer来说,它的成功之处在于模型能够展示出强大的推理能力。


如何分析神经网络的推理能力?

最常用的方法之一是研究利用架构内部表示能执行哪些算法。有一个完整的领域致力于这项任务:Neural algorithmic reasoning。Transformer是否能进行泛化,或者通过扩展是否能解决一些问题,这些问题仍然悬而未决,并且这方面的研究也十分活跃。有些人认为Transformer具有普适推理能力,而其他人认为它是引领我们走向人工通用智能的架构(假设我们能够足够扩展它),但是目前看Transformer能够在不同的领域,NLP,时间序列,甚至CV中取得良好的成绩但是测试其极限也非常重要。我们不仅需要测试它的极限,还需要与其他架构进行比较,并在未来建立基准。在最近的一项研究中,研究人员决定深入研究一个特定的领域:图神经网络。今天介绍的这篇论文叫“Understanding Transformer Reasoning Capabilities via Graph Algorithms”e4b8d6f4-3809-11ef-a655-92fbcf53809c.png

这可能听起来有些奇怪,但近来Transformer(以及大型语言模型)与图(Graphs)之间的关系越来越密切。首先,自注意力可以被视为一种图的形式。其次,图(尤其是知识图谱)可以用来扩展Transformer。第三,图是复杂推理的理想抽象。思维链条和其他技术也可以被视为图的一种抽象。另外许多图问题可以通过简单的架构解决,而其他问题则需要复杂的推理和先进的图神经网络(GNNs)。

图计算已经成为过去几十年计算和人工智能中几个成功设计的基础之一,例如用于蛋白质预测的AlphaFold。许多推理任务可以表达为关于图的推理(这就是为什么像Tree of Thoughts或Graph of Thoughts这样的技术显示出成功)。所以这似乎是测试Transformer能力的最佳选择。尽管有不同的理论前提,但是进行严格分析并不容易:图推理任务可以被归类到已知的计算类别中。但是当我们想要评估一个神经网络解决这些任务的能力时,情况就不同了。在Transformer的情况下,我们也感兴趣的不仅仅是固定深度的情况,还有通过改变层数从而学习更简单或更复杂的表征时的变化。并且Transformer也可以在宽度上增长,这在考虑到对上下文长度的重新关注时尤其相关。作者总结了三类任务,它们的难度逐步增加,只能通过越来越复杂的模型来解决:1. 检索任务。节点计数、边计数、边存在检查和节点度数是只需要一次查找的任务,因此只需要一个Transformer层和一个小型嵌入。2. 可并行化任务。连通性、连接节点和循环检查(以及更复杂的任务如二分性和平面性)可以用对数深度的Transformer解决。3. 搜索任务。最短路径和其他需要更多推理的任务需要模型的扩展。

e53d2cd8-3809-11ef-a655-92fbcf53809c.jpg

论文中进行了几项理论分析,展示了Transformer如何解决这些任务以及解决这些任务所需的维度要求。另一个有趣的点是,作者还分析了“pause tokens”的影响。


结果在对Transformer的推理能力进行了实证分析后。他们选择使用从头开始训练的模型(最多60M参数),对预训练的Transformer(T5,带11B参数)进行微调,测试提示技术,并将其与图神经网络(GNNs)进行比较。使用GraphQA基准任务进行了实验。

e542391c-3809-11ef-a655-92fbcf53809c.jpg

图推理算法可以分为局部和全局两种。前者在局部聚合信息(节点及其邻居),而后者模拟节点之间可能是长距离的全局连接。论文主要专注于全局任务,如评估连通性或计算最短路径(这些任务需要分析图的全局结构)。在少数示例情况下,图神经网络(GNNs)在这些任务中更为高效,但通过增加示例数量,Transformer的表现更好(Transformer仍然具有弱归纳偏见,需要许多示例才能最好地学习)。对Transformer进行微调也对预训练的Transformer有积极影响。

e5464e76-3809-11ef-a655-92fbcf53809c.jpg

以前的研究已经表明,对于图神经网络(GNN)来说,以参数效率的方式解决连通性存在限制。微调后的模型似乎对连通性和最短路径都更有效。虽然Transformer在解决全局任务方面更有效,但GNN在分析局部推理的任务中似乎更为高效:

表明GNN对于学习可以通过专门关注局部启发式解决的图推理任务具有有益的归纳偏见。(论文原文翻译)

在GNN中的消息传递框架便于节点与其邻居之间的信息传递(每增加一层相当于图中的一次跳跃)。相比之下,注意力机制计算每对标记之间的关系,因此它通过全局任务来促进,但在数据量较低的情况下,识别重要的局部关系更为困难。

e549f4c2-3809-11ef-a655-92fbcf53809c.jpg

作者还测试了使用大型语言模型(LLM)的情况,对表现优异的Transformer进行微调优于使用提示方法。尽管在训练过程中,LLM会在语料库中看到图数据,因此并不是完全没有接触过此类数据。但这表明在特定任务的情况下专业的小模型还是要更好,并且微调要比直接使用提示的方式好。

e555723e-3809-11ef-a655-92fbcf53809c.jpg

总结这篇论文详细展示了Transformer在图推理方面的能力,并且涵盖了不同的参数缩放模式。许多问题可以被重新表述为图问题,所以这篇论文还是值得阅读。并且论文还显示,一些能力的展示需要一定的网络深度,以便让Transformer解决问题。例如在需要全局推理的任务中,Transformer超过了图神经网络(GNN),这得益于自注意力机制,它允许长距离依赖关系被高效评估。这些发现为使用Transformer处理具有复杂全局依赖性的图推理任务提供了理论和实证支持。

论文地址:https://arxiv.org/abs/2405.18512
作者:Salvatore Raieli

本文来源:DeepHub IMBA

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4762

    浏览量

    100519
  • 人工智能
    +关注

    关注

    1791

    文章

    46820

    浏览量

    237463
  • 模型
    +关注

    关注

    1

    文章

    3158

    浏览量

    48701
收藏 人收藏

    评论

    相关推荐

    卷积神经网络与传统神经网络的比较

    在深度学习领域,神经网络模型被广泛应用于各种任务,如图像识别、自然语言处理和游戏智能等。其中,卷积神经网络(CNNs)和传统神经网络是两种常见的模型。 1. 结构差异 1.1 传统神经网络
    的头像 发表于 11-15 14:53 167次阅读

    Transformer代替神经网络

    Transformer作为一种在处理序列数据方面表现出色的深度学习模型,自其提出以来,已经在自然语言处理(NLP)、时间序列分析等领域取得了显著的成果。然而,关于Transformer是否完全
    的头像 发表于 07-12 14:07 373次阅读

    BP神经网络和卷积神经网络的关系

    BP神经网络(Backpropagation Neural Network)和卷积神经网络(Convolutional Neural Network,简称CNN)是两种在人工智能和机器学习领域
    的头像 发表于 07-10 15:24 1187次阅读

    BP神经网络和人工神经网络的区别

    BP神经网络和人工神经网络(Artificial Neural Networks,简称ANNs)之间的关系与区别,是神经网络领域中一个基础且重要的话题。本文将从定义、结构、算法、应用及未来发展等多个方面,详细阐述BP
    的头像 发表于 07-10 15:20 810次阅读

    rnn是递归神经网络还是循环神经网络

    RNN(Recurrent Neural Network)是循环神经网络,而非递归神经网络。循环神经网络是一种具有时间序列特性的神经网络,能够处理序列数据,具有记忆功能。以下是关于循环
    的头像 发表于 07-05 09:52 489次阅读

    递归神经网络是循环神经网络

    递归神经网络(Recurrent Neural Network,简称RNN)和循环神经网络(Recurrent Neural Network,简称RNN)实际上是同一个概念,只是不同的翻译方式
    的头像 发表于 07-04 14:54 625次阅读

    循环神经网络和卷积神经网络的区别

    循环神经网络(Recurrent Neural Network,RNN)和卷积神经网络(Convolutional Neural Network,CNN)是深度学习领域中两种非常重要的神经网络
    的头像 发表于 07-04 14:24 1104次阅读

    深度神经网络与基本神经网络的区别

    在探讨深度神经网络(Deep Neural Networks, DNNs)与基本神经网络(通常指传统神经网络或前向神经网络)的区别时,我们需要从多个维度进行深入分析。这些维度包括
    的头像 发表于 07-04 13:20 655次阅读

    卷积神经网络与循环神经网络的区别

    在深度学习领域,卷积神经网络(Convolutional Neural Networks, CNN)和循环神经网络(Recurrent Neural Networks, RNN)是两种极其重要
    的头像 发表于 07-03 16:12 2622次阅读

    反向传播神经网络和bp神经网络的区别

    反向传播神经网络(Backpropagation Neural Network,简称BP神经网络)是一种多层前馈神经网络,它通过反向传播算法来调整网络中的权重和偏置,以达到最小化误差的
    的头像 发表于 07-03 11:00 663次阅读

    bp神经网络是深度神经网络

    BP神经网络(Backpropagation Neural Network)是一种常见的前馈神经网络,它使用反向传播算法来训练网络。虽然BP神经网络在某些方面与深度
    的头像 发表于 07-03 10:14 672次阅读

    bp神经网络和卷积神经网络区别是什么

    BP神经网络(Backpropagation Neural Network)和卷积神经网络(Convolutional Neural Network,简称CNN)是两种不同类型的人工神经网络,它们在
    的头像 发表于 07-03 10:12 994次阅读

    卷积神经网络和bp神经网络的区别

    卷积神经网络(Convolutional Neural Networks,简称CNN)和BP神经网络(Backpropagation Neural Networks,简称BPNN)是两种
    的头像 发表于 07-02 14:24 2794次阅读

    反向传播神经网络模型的特点

    的应用,如图像识别、语音识别、自然语言处理等。 BP神经网络的特点 1.1 多层结构 BP神经网络由输入层、多个隐藏层和输出层组成。输入层的节点数与问题的特征维度相同,输出层的节点数与问题的输出维度相同。隐藏层的层数和节点数可以根据问题的复杂程度进行调整。 1.2 自学习
    的头像 发表于 07-02 14:14 340次阅读

    神经网络架构有哪些

    神经网络架构是机器学习领域中的核心组成部分,它们模仿了生物神经网络的运作方式,通过复杂的网络结构实现信息的处理、存储和传递。随着深度学习技术的不断发展,各种神经网络架构被提出并广泛应用
    的头像 发表于 07-01 14:16 594次阅读