0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

自监督学习与Transformer相关论文

深度学习自然语言处理 来源:深度学习自然语言处理 作者:深度学习自然语言 2020-11-02 15:50 次阅读

导读

国际表示学习大会(TheInternationalConference onLearningRepresentations)是致力于人工智能领域发展的国际知名学术会议之一。ICLR 2021 将在明年5月4日举行,目前,本次大会投稿已经结束,最后共有3013篇论文提交。ICLR 采用公开评审机制,任何人都可以提前看到这些论文。

为了分析最新研究动向,我们精选了涵盖自监督学习、Transformer、图神经网络、自然语言处理、模型压缩等热点领域,将分多期为大家带来系列论文解读。

本期的关注焦点是自监督学习与Transformer。

自监督学习

Self-Supervised Variational Auto-Encoders

变分自编码器(VAE)往往通过假设先验分布为高斯分布来简化计算过程,实际上真实数据的分布往往较为复杂,该假设会导致模型的过正则化并影响模型对真实分布的拟合能力;本文通过利用多个简单分布对复杂真实分布进行建模,并采用自监督方法对这些分布之间进行约束,进而提升VAE模型最终的效果。

论文链接:https://openreview.net/forum?id=zOGdf9K8aC

Self-Supervised Learning from a Multi-View Perspective

即使自监督学习已经取得了很好的效果,现有的方法依旧并不清楚自监督学习带来增益的主要原因;本文基于信息空间的考虑,认为自监督学习通过减少不相关信息来帮助收敛;此外本文还提出将自监督任务的两个经典方法——对比学习和预测学习任务进行合并,结合两者优点以增强自监督学习的效果。

论文链接:https://openreview.net/forum?id=-bdp_8Itjwp

Contrast to Divide: Self-Supervised Pre-Training for Learning with Noisy Labels

现有的噪声数据学习策略往往基于loss的噪声识别与再过滤的框架,其需要模型在warm-up阶段既能学习到足够好的特征信息,同时不至于过分拟合噪声数据的分布;改目的与对比学习任务非常契合,本文提出在warm-up阶段采用对比学习帮助进行特征学习,并基于对比学习策略帮助区分噪声数据。

论文链接:https://openreview.net/forum?id=uB5x7Y2qsFR

Improving Self-Supervised Pre-Training via a Fully-Explored Masked Language Model

现有的BERT等模型往往采用masked language model进行自监督学习,但是其往往采用随机的方法确定mask的word或者span;本文提出不合适的mask会导致梯度方差变大,并影响模型的效果,并分析原因在于同时mask的word之间具有一定的相似度;故本文提出一种特殊的mask机制,其考虑增大被mask的word之间的差异,进而削弱梯度方差大带来的影响。

论文链接:https://openreview.net/forum?id=cYr2OPNyTz7

Bi-Tuning of Pre-Trained Representations

随着预训练模型的快速发展,现有方法主要关注于如何进行pre-train,但是很少关注如何进行fine-tune;本文认为在fine-tune时模型很容易忘记预训练的信息并过拟合到当前任务,因此提出了一种特殊的Bi-tune策略,即利用对比学习作为正则项约束模型的收敛情况,进而帮助提升模型的效果。

论文链接:https://openreview.net/forum?id=3rRgu7OGgBI

Erasure for Advancing: Dynamic Self-Supervised Learning for Commonsense Reasoning

为了解决预训练模型很难学习到更精准的 question-clue pairs 问题,本文提出DynamIcSelf-sUperviSedErasure (DISUSE)。其中包含 erasure sampler 和 supervisor,分别用于擦出上下文和问题中的多余线索,以及使用 self-supervised manner 进行监督。

论文链接:https://openreview.net/forum?id=WfY0jNndSn3

Transformer

Addressing Some Limitations of Transformers with Feedback Memory

Transformer结构因其并行计算的特性有很高的计算效率,但是这种特性限制了Transformer发掘序列信息的能力,这体现在底层表示无法获得高层表示信息。作者提出一种Feedback Memory结构,将所有历史的底层和高层表示信息传递给未来表示。

论文链接:https://openreview.net/forum?id=OCm0rwa1lx1

Not All Memories are Created Equal: Learning to Expire

Attention机制往往需要长期的记忆,但是实际上并不是所有历史信息都是重要的。因此,作者提出一种Expire-Span机制,动态地决定每一个时刻信息存活的时间长短,从而减少模型进行Attention操作耗费的空间开销。

论文链接:https://openreview.net/forum?id=ZVBtN6B_6i7

Memformer: The Memory-Augmented Transformer

目前大部分Transformer变体模型在处理长序列时都会存在效率问题。作者提出一种利用Memory机制来编码和保存历史信息,使得时间复杂度下降到线性时间,空间复杂度变为常数。

论文链接:https://openreview.net/forum?id=_adSMszz_g9

Non-iterative Parallel Text Generation via Glancing Transformer

本文提出了一种基于 glancing language model 的 Glancing Transformer,通过 one-iteration 的生成方式提升 NAT 的性能。其中 Glancing language model,可以通过两次 decoding 来降低学习难度以及加快生成速度。另外这种方法同样可以应用于其他基于 NAT 的任务。

论文链接:https://openreview.net/forum?id=ZaYZfu8pT_N

责任编辑:xj

原文标题:【ICLR2021必读】 【自监督学习】 & 【Transformer】相关论文

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1781

    文章

    44981

    浏览量

    232392
  • 深度学习
    +关注

    关注

    73

    文章

    5270

    浏览量

    120176
  • Transformer
    +关注

    关注

    0

    文章

    130

    浏览量

    5916

原文标题:【ICLR2021必读】 【自监督学习】 & 【Transformer】相关论文

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    OpenAI推出Sora:AI领域的革命性突破

    大模型的核心技术是自然语言处理(NLP)和深度学习。具体而言,它基于Transformer架构,使用了大规模无监督学习方法,例如自回归语言建模和掩码语言建模,来训练一个庞大的神经网络模型。
    发表于 02-21 16:36 861次阅读
    OpenAI推出Sora:AI领域的革命性突破

    基于transformer和自监督学习的路面异常检测方法分享

    铺设异常检测可以帮助减少数据存储、传输、标记和处理的压力。本论文描述了一种基于Transformer和自监督学习的新方法,有助于定位异常区域。
    的头像 发表于 12-06 14:57 903次阅读
    基于<b class='flag-5'>transformer</b>和自<b class='flag-5'>监督学习</b>的路面异常检测方法分享

    Backbone之战:计算机视觉任务模型大比较

    尽管Vision Transformer(ViTs)和自监督学习(SSL)越来越受欢迎,但在大多数任务中,文章发现在大型训练集上以监督方式预训练的卷积神经网络仍然表现最好。
    的头像 发表于 11-13 15:41 450次阅读
    Backbone之战:计算机视觉任务模型大比较

    深度学习的由来 深度学习的经典算法有哪些

    深度学习作为机器学习的一个分支,其学习方法可以分为监督学习和无监督学习。两种方法都具有其独特的学习
    发表于 10-09 10:23 410次阅读
    深度<b class='flag-5'>学习</b>的由来 深度<b class='flag-5'>学习</b>的经典算法有哪些

    为什么transformer性能这么好?Transformer的上下文学习能力是哪来的?

    为什么 transformer 性能这么好?它给众多大语言模型带来的上下文学习 (In-Context Learning) 能力是从何而来?在人工智能领域里,transformer 已成为深度
    的头像 发表于 09-25 12:05 925次阅读
    为什么<b class='flag-5'>transformer</b>性能这么好?<b class='flag-5'>Transformer</b>的上下文<b class='flag-5'>学习</b>能力是哪来的?

    马毅团队新作:白盒ViT成功实现

    最近,马毅教授团队探索了基于Transformer架构的模型中涌现分割能力是否仅仅是复杂的自监督学习机制的结果,或者是否可以通过模型架构的适当设计在更通用的条件下实现相同的涌现。
    的头像 发表于 09-14 15:58 357次阅读
    马毅团队新作:白盒ViT成功实现

    机器学习模型类型分类

     机器学习按照模型类型分为监督学习模型、无监督学习模型两大类。 1. 有监督学习监督学习通常是利用带有专家标注的标签的训练数据,
    的头像 发表于 09-05 11:45 1792次阅读
    机器<b class='flag-5'>学习</b>模型类型分类

    适用于任意数据模态的自监督学习数据增强技术

    本文提出了一种适用于任意数据模态的自监督学习数据增强技术。   自监督学习算法在自然语言处理、计算机视觉等领域取得了重大进展。这些自监督学习算法尽管在概念上是通用的,但是在具体操作上是基于特定的数据
    的头像 发表于 09-04 10:07 864次阅读
    适用于任意数据模态的自<b class='flag-5'>监督学习</b>数据增强技术

    人工智能的关键技术包括哪些

    机器学习是人工智能的一个重要分支,它通过计算的手段、学习经验(也可以说是利用经验)来改善系统的性能。它包括:有监督学习、无监督学习和强化学习
    发表于 08-28 12:53 1417次阅读
    人工智能的关键技术包括哪些

    机器学习有哪些算法?机器学习分类算法有哪些?机器学习预判有哪些算法?

    有许多不同的类型和应用。根据机器学习的任务类型,可以将其分为几种不同的算法类型。本文将介绍机器学习的算法类型以及分类算法和预测算法。 机器学习的算法类型 1. 监督学习算法 在
    的头像 发表于 08-17 16:30 1606次阅读

    深度学习框架和深度学习算法教程

    了基于神经网络的机器学习方法。 深度学习算法可以分为两大类:监督学习和无监督学习监督学习的基本任务是训练模型去
    的头像 发表于 08-17 16:11 846次阅读

    基于Transformer的目标检测算法

    掌握基于Transformer的目标检测算法的思路和创新点,一些Transformer论文涉及的新概念比较多,话术没有那么通俗易懂,读完论文仍然不理解算法的细节部分。
    发表于 08-16 10:51 501次阅读
    基于<b class='flag-5'>Transformer</b>的目标检测算法

    人工智能技术包括哪些方面

    机器学习通常分为监督学习和无监督学习监督学习通过在计算机上显示标记的数据集进行训练,使其可以预测未来的输入。无监督学习则是一种不需要标记
    的头像 发表于 08-14 15:06 1524次阅读

    人工智能ai是什么

    在人工智能的发展中,最重要的是机器学习(Machine Learning),这是一种人工智能的实现方式,通过对大量数据进行分析和学习,让系统自己找到规律和特征,从而达到自主智能化的目的。在机器学习中,主要有三种方式,分别是
    的头像 发表于 08-14 14:20 3793次阅读

    2D Transformer 可以帮助3D表示学习吗?

    预训练的2D图像或语言Transformer:作为基础Transformer模型,具有丰富的特征表示能力。作者选择了先进的2D Transformer模型作为基础模型,例如Vision Transformers (ViTs) 或
    的头像 发表于 07-03 10:59 524次阅读
    2D <b class='flag-5'>Transformer</b> 可以帮助3D表示<b class='flag-5'>学习</b>吗?