0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何让Transformer在多种模态下处理不同领域的广泛应用?

深度学习自然语言处理 来源:AI公园 作者:Synced 2021-03-08 10:30 次阅读

一个模型完成了CV,NLP方向的7个任务,每个任务上表现都非常好。

Transformer架构在自然语言处理和其他领域的机器学习(ML)任务中表现出了巨大的成功,但大多仅限于单个领域或特定的多模态领域的任务。例如,ViT专门用于视觉相关的任务,BERT专注于语言任务,而VILBERT-MT只用于相关的视觉和语言任务。

一个自然产生的问题是:我们能否建立一个单一的Transformer,能够在多种模态下处理不同领域的广泛应用?最近,Facebook的一个人工智能研究团队进行了一个新的统一Transformer(UniT) encoder-decoder模型的挑战,该模型在不同的模态下联合训练多个任务,并通过一组统一的模型参数在这些不同的任务上都实现了强大的性能。

Transformer首先应用于sequence-to-sequence模型的语言领域。它们已经扩展到视觉领域,甚至被应用于视觉和语言的联合推理任务。尽管可以针对各种下游任务中的应用对预先训练好的Transformer进行微调,并获得良好的结果,但这种模型微调方法会导致为每个下游任务创建不同的参数集。

Facebook的人工智能研究人员提出,一个Transformer可能就是我们真正需要的。他们的UniT是建立在传统的Transformer编码器-解码器架构上,包括每个输入模态类型的独立编码器,后面跟一个具有简单的每个任务特定的头的解码器。输入有两种形式:图像和文本。首先,卷积神经网络骨干网提取视觉特征,然后BERT将语言输入编码成隐藏状态序列。然后,Transformer解码器应用于编码的单个模态或两个编码模态的连接序列(取决于任务是单模态还是多模态)。最后,Transformer解码器的表示将被传递到特定任务的头,该头将输出最终的预测。

UniT模型概要

评估UniT的性能,研究人员进行了实验,需要共同学习来自不同领域的许多流行的任务:COCO目标检测和 Visual Genome数据集,语言理解任务的GLUE基准(QNLI, QQP、MNLI-mismatched SST-2),以及视觉推理任务VQAv2 SNLI-VE数据集。

8d044a88-7f2a-11eb-8b86-12bb97331649.png

多任务训练的UniT性能优于单独训练的目标检测和VQA

8d3f74fa-7f2a-11eb-8b86-12bb97331649.png

基于UniT模型的目标检测与VQA的分析

8d86f6fe-7f2a-11eb-8b86-12bb97331649.png

UniT模型在8个数据集的7个任务上的性能

具有共享解码器的UniT模型的预测

结果表明,所提出的UniT 模型同时处理8个数据集上的7个任务,在统一的模型参数集下,每个任务都有较强的性能。强大的性能表明UniT有潜力成为一种领域未知的transformer 架构,向更通用的智能的目标迈进了一步。

原文标题:【多模态】来自Facebook AI的多任务多模态的统一Transformer:向更通用的智能迈出了一步

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    29914

    浏览量

    268196
  • 人工智能
    +关注

    关注

    1791

    文章

    46728

    浏览量

    237251
  • 机器学习
    +关注

    关注

    66

    文章

    8364

    浏览量

    132337

原文标题:【多模态】来自Facebook AI的多任务多模态的统一Transformer:向更通用的智能迈出了一步

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    FPGA图像处理领域的优势有哪些?

    高的应用领域,FPGA是图像处理的理想选择。 综上所述,FPGA图像处理领域具有并行处理能力强
    发表于 10-09 14:36

    IP宿主信息不同领域广泛应用

    广泛应用。 什么是IP宿主信息? IP宿主信息是指与特定IP地址相关联的详细数据集合。通过网络技术手段,对特定IP地址进行深度解析后获得的一系列相关信息。提供邮政编码、经纬度等信息的基础上为用户提供更加详细的信息,如行业类型、商圈地址、
    的头像 发表于 09-06 09:49 216次阅读

    FPGA自动驾驶领域有哪些应用?

    控制。视觉算法方面,FPGA利用自身并行处理和高速存储器的特点,极大地加快了算法的执行速度,提高了运算效率。 五、未来发展趋势随着自动驾驶技术的不断发展,FPGA自动驾驶领域的应用
    发表于 07-29 17:09

    Transformer能代替图神经网络吗

    Transformer作为一种处理序列数据方面表现出色的深度学习模型,自其提出以来,已经自然语言处理(NLP)、时间序列分析等
    的头像 发表于 07-12 14:07 366次阅读

    Transformer语言模型简介与实现过程

    自然语言处理(NLP)领域Transformer模型以其卓越的性能和广泛的应用前景,成为了近年来最引人注目的技术之一。
    的头像 发表于 07-10 11:48 1179次阅读

    Transformer架构自然语言处理中的应用

    随着人工智能技术的飞速发展,自然语言处理(NLP)领域取得了显著的进步。其中,Transformer架构的提出,为NLP领域带来了革命性的变革。本文将深入探讨
    的头像 发表于 07-09 11:42 681次阅读

    Transformer模型语音识别和语音生成中的应用优势

    自然语言处理、语音识别、语音生成等多个领域展现出强大的潜力和广泛的应用前景。本文将从Transformer模型的基本原理出发,深入探讨其
    的头像 发表于 07-03 18:24 937次阅读

    使用PyTorch搭建Transformer模型

    Transformer模型自其问世以来,自然语言处理(NLP)领域取得了巨大的成功,并成为了许多先进模型(如BERT、GPT等)的基础。本文将深入解读如何使用PyTorch框架搭建
    的头像 发表于 07-02 11:41 1435次阅读

    基于Transformer模型的压缩方法

    基于Transformer架构的大型模型人工智能领域中发挥着日益重要的作用,特别是自然语言处理(NLP)和计算机视觉(CV)
    的头像 发表于 02-22 16:27 602次阅读
    基于<b class='flag-5'>Transformer</b>模型的压缩方法

    三坐标测量仪的高精度测量功能与广泛应用领域详解

    三坐标测量仪作为一种高精度的测量设备,被广泛应用于各种复杂零件的检测和测量。它综合了机械、光学、电子、计算机等多种技术,能够准确测量物体的尺寸、形状、位置和曲面特征等多个方面。具有广泛的应用
    的头像 发表于 02-22 09:12 1929次阅读
    三坐标测量仪的高精度测量功能与<b class='flag-5'>广泛应用领域</b>详解

    基于Transformer的多模态BEV融合方案

    由于大量的相机和激光雷达特征以及注意力的二次性质,将 Transformer 架构简单地应用于相机-激光雷达融合问题是很困难的。
    发表于 01-23 11:39 711次阅读
    基于<b class='flag-5'>Transformer</b>的多<b class='flag-5'>模态</b>BEV融合方案

    RFID物流、供应链管理、工业自动化等领域广泛应用

    随着物联网技术的不断发展,RFID(无线射频识别)技术作为一种自动识别和跟踪技术,物流、供应链管理、工业自动化等领域得到了广泛应用。本文将介绍RFID解决方案及其应用场景。
    的头像 发表于 01-03 15:45 618次阅读
    RFID<b class='flag-5'>在</b>物流、供应链管理、工业自动化等<b class='flag-5'>领域</b>的<b class='flag-5'>广泛应用</b>

    成都汇阳投资关于多模态驱动应用前景广阔,上游算力迎机会!

    。Gemini 主打在多模态领域的突出能力,输入端, Gemin 可以适应文本与音视频交叉的输入序列,比如自然图像、图表、截图、pdf 和视
    的头像 发表于 12-18 13:08 449次阅读
    成都汇阳投资关于多<b class='flag-5'>模态</b>驱动应用前景广阔,上游算力迎机会!

    锁相环技术晶体振荡器中的广泛应用

    锁相环(Phase-Locked Loop,PLL)技术作为一种用于稳定和调整电子信号频率的控制系统,各个领域发挥着重要作用。其基本原理包括参考信号与反馈信号的比较、误差放大器、控制环和滤波器的协同工作。这种技术被广泛应用于通
    的头像 发表于 12-15 17:07 913次阅读
    锁相环技术<b class='flag-5'>在</b>晶体振荡器中的<b class='flag-5'>广泛应用</b>

    Transformer迎来强劲竞争者 新架构Mamba引爆AI圈!

    作为通用序列模型的骨干,Mamba 语言、音频和基因组学等多种模态中都达到了 SOTA 性能。语言建模方面,无论是预训练还是下游评估,他们的 Mamba-3B 模型都优于同等规模的
    发表于 12-07 14:14 474次阅读
    <b class='flag-5'>Transformer</b>迎来强劲竞争者 新架构Mamba引爆AI圈!