0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何让Transformer在多种模态下处理不同领域的广泛应用?

深度学习自然语言处理 来源:AI公园 作者:Synced 2021-03-08 10:30 次阅读

一个模型完成了CV,NLP方向的7个任务,每个任务上表现都非常好。

Transformer架构在自然语言处理和其他领域的机器学习(ML)任务中表现出了巨大的成功,但大多仅限于单个领域或特定的多模态领域的任务。例如,ViT专门用于视觉相关的任务,BERT专注于语言任务,而VILBERT-MT只用于相关的视觉和语言任务。

一个自然产生的问题是:我们能否建立一个单一的Transformer,能够在多种模态下处理不同领域的广泛应用?最近,Facebook的一个人工智能研究团队进行了一个新的统一Transformer(UniT) encoder-decoder模型的挑战,该模型在不同的模态下联合训练多个任务,并通过一组统一的模型参数在这些不同的任务上都实现了强大的性能。

Transformer首先应用于sequence-to-sequence模型的语言领域。它们已经扩展到视觉领域,甚至被应用于视觉和语言的联合推理任务。尽管可以针对各种下游任务中的应用对预先训练好的Transformer进行微调,并获得良好的结果,但这种模型微调方法会导致为每个下游任务创建不同的参数集。

Facebook的人工智能研究人员提出,一个Transformer可能就是我们真正需要的。他们的UniT是建立在传统的Transformer编码器-解码器架构上,包括每个输入模态类型的独立编码器,后面跟一个具有简单的每个任务特定的头的解码器。输入有两种形式:图像和文本。首先,卷积神经网络骨干网提取视觉特征,然后BERT将语言输入编码成隐藏状态序列。然后,Transformer解码器应用于编码的单个模态或两个编码模态的连接序列(取决于任务是单模态还是多模态)。最后,Transformer解码器的表示将被传递到特定任务的头,该头将输出最终的预测。

UniT模型概要

评估UniT的性能,研究人员进行了实验,需要共同学习来自不同领域的许多流行的任务:COCO目标检测和 Visual Genome数据集,语言理解任务的GLUE基准(QNLI, QQP、MNLI-mismatched SST-2),以及视觉推理任务VQAv2 SNLI-VE数据集。

8d044a88-7f2a-11eb-8b86-12bb97331649.png

多任务训练的UniT性能优于单独训练的目标检测和VQA

8d3f74fa-7f2a-11eb-8b86-12bb97331649.png

基于UniT模型的目标检测与VQA的分析

8d86f6fe-7f2a-11eb-8b86-12bb97331649.png

UniT模型在8个数据集的7个任务上的性能

具有共享解码器的UniT模型的预测

结果表明,所提出的UniT 模型同时处理8个数据集上的7个任务,在统一的模型参数集下,每个任务都有较强的性能。强大的性能表明UniT有潜力成为一种领域未知的transformer 架构,向更通用的智能的目标迈进了一步。

原文标题:【多模态】来自Facebook AI的多任务多模态的统一Transformer:向更通用的智能迈出了一步

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    32638

    浏览量

    272006
  • 人工智能
    +关注

    关注

    1800

    文章

    48156

    浏览量

    242533
  • 机器学习
    +关注

    关注

    66

    文章

    8462

    浏览量

    133475

原文标题:【多模态】来自Facebook AI的多任务多模态的统一Transformer:向更通用的智能迈出了一步

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    相关推荐

    圆形连接器的广泛应用场景及其优势

    现代工业和科技领域,圆形连接器因其独特的结构和性能优势,被广泛应用于各种场景。本文将详细介绍圆形连接器的主要应用场景及其优势,帮助您更好地理解其重要性。 1. 工业自动化 工业自动
    的头像 发表于 02-17 11:30 181次阅读

    Norflash闪存芯片HT25Q20D广泛应用在汽车电子领域

    全球NOR Flash市场由四家主要制造商主导,除巨头之外,还有华芯邦等厂商市场上也占有一席之地,主要为蓝牙、音频、WIFI等SoC主控芯片生产商供货,其产品广泛应用于各种消费电子品牌。例如HT25Q20D广泛应用在汽车电子
    的头像 发表于 01-13 15:20 609次阅读
    Norflash闪存芯片HT25Q20D<b class='flag-5'>广泛应用</b>在汽车电子<b class='flag-5'>领域</b>

    智慧交通技术的广泛应用领域

    智慧交通 是一种结合了信息技术、通信技术和交通管理的创新模式,旨在提高城市交通系统的效率、安全性和可持续性。智慧交通技术各个领域广泛的运用范围,涵盖了城市交通管理、公共交通系统、道路安全、车辆
    的头像 发表于 12-11 11:51 750次阅读

    Transformer模型的具体应用

    如果想在 AI 领域引领一轮新浪潮,就需要使用到 Transformer
    的头像 发表于 11-20 09:28 984次阅读
    <b class='flag-5'>Transformer</b>模型的具体应用

    气体传感器模块应急救援领域广泛应用与未来展望

    能力和强大的气体监测功能,成为应急救援工作中不可或缺的重要工具。 气体传感器应急救援领域的应用范围十分广泛,从预防阶段到响应阶段,再到恢复阶段,都发挥着举足轻重的作用。预防阶段,通
    的头像 发表于 11-18 10:03 495次阅读
    气体传感器模块<b class='flag-5'>在</b>应急救援<b class='flag-5'>领域</b>的<b class='flag-5'>广泛应用</b>与未来展望

    利用OpenVINO部署Qwen2多模态模型

    模态大模型的核心思想是将不同媒体数据(如文本、图像、音频和视频等)进行融合,通过学习不同模态之间的关联,实现更加智能化的信息处理。简单来说,多模态大模型可以可以理解
    的头像 发表于 10-18 09:39 755次阅读

    FPGA图像处理领域的优势有哪些?

    高的应用领域,FPGA是图像处理的理想选择。 综上所述,FPGA图像处理领域具有并行处理能力强
    发表于 10-09 14:36

    IP宿主信息不同领域广泛应用

    广泛应用。 什么是IP宿主信息? IP宿主信息是指与特定IP地址相关联的详细数据集合。通过网络技术手段,对特定IP地址进行深度解析后获得的一系列相关信息。提供邮政编码、经纬度等信息的基础上为用户提供更加详细的信息,如行业类型、商圈地址、
    的头像 发表于 09-06 09:49 548次阅读

    传统型视频展台方案,广泛应用于教学培训、公司展示等领域

    传统型视频展台方案,广泛应用于教学培训、公司展示等领域深圳市芯视音科技赖工 芯视音科技提供视频展台方案中后端图像处理主IC-CV1860,此IC直接接收前端Sensor IC传过来的如656等
    的头像 发表于 08-23 16:06 366次阅读

    FPGA自动驾驶领域有哪些应用?

    控制。视觉算法方面,FPGA利用自身并行处理和高速存储器的特点,极大地加快了算法的执行速度,提高了运算效率。 五、未来发展趋势随着自动驾驶技术的不断发展,FPGA自动驾驶领域的应用
    发表于 07-29 17:09

    Transformer能代替图神经网络吗

    Transformer作为一种处理序列数据方面表现出色的深度学习模型,自其提出以来,已经自然语言处理(NLP)、时间序列分析等
    的头像 发表于 07-12 14:07 643次阅读

    Transformer语言模型简介与实现过程

    自然语言处理(NLP)领域Transformer模型以其卓越的性能和广泛的应用前景,成为了近年来最引人注目的技术之一。
    的头像 发表于 07-10 11:48 2419次阅读

    Transformer架构自然语言处理中的应用

    随着人工智能技术的飞速发展,自然语言处理(NLP)领域取得了显著的进步。其中,Transformer架构的提出,为NLP领域带来了革命性的变革。本文将深入探讨
    的头像 发表于 07-09 11:42 1132次阅读

    Transformer模型语音识别和语音生成中的应用优势

    自然语言处理、语音识别、语音生成等多个领域展现出强大的潜力和广泛的应用前景。本文将从Transformer模型的基本原理出发,深入探讨其
    的头像 发表于 07-03 18:24 1549次阅读

    使用PyTorch搭建Transformer模型

    Transformer模型自其问世以来,自然语言处理(NLP)领域取得了巨大的成功,并成为了许多先进模型(如BERT、GPT等)的基础。本文将深入解读如何使用PyTorch框架搭建
    的头像 发表于 07-02 11:41 2095次阅读