0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

解读CV架构回归多层感知机;自动生成模型动画

智能感知与物联网技术研究所 来源:机器之心 作者:机器之心 2021-05-13 10:36 次阅读

本周的重要论文包括来自谷歌大脑的研究团队提出了一种舍弃卷积和自注意力且完全使用多层感知机(MLP)的视觉网络架构,在 ImageNet 数据集上实现了媲美 CNN 和 ViT 的性能表现;清华大学图形学实验室 Jittor 团队提出了一种新的注意机制,通过控制记忆单元的大小,External-attention 可以轻松实现线性的复杂度等研究。

论文 1:MLP-Mixer: An all-MLP Architecture for Vision

摘要:计算机视觉的发展史证明,规模更大的数据集加上更强的计算能力往往能够促成范式转变。虽然卷积神经网络已经成为计算机视觉领域的标准,但最近一段时间,基于自注意力层的替代方法 Vision Transformer(ViT)实现新的 SOTA 性能。从技术上讲,ViT 模型延续了长久以来去除模型中手工构建特征和归纳偏置的趋势,并进一步依赖基于原始数据的学习。

近日,原 ViT 团队提出了一种不使用卷积或自注意力的 MLP-Mixer 架构(简称 Mixer),这是一种颇具竞争力并且在概念和技术上都非常简单的替代方案。Mixer 架构完全基于在空间位置或特征通道重复利用的多层感知机(MLP),并且仅依赖于基础矩阵乘法运算、数据布局变换(如 reshape 和 transposition)和非线性层。

JAX/Flax 编写的 MLP-Mixer 代码。

推荐:CV 领域网络架构的演变从 MLP 到 CNN 到 Transformer 再回到 MLP,真是太有意思了。

论文 2:Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks

摘要:清华大学图形学实验室 Jittor 团队提出了一种新的注意机制,称之为「External Attention」,基于两个外部的、小的、可学习的和共享的存储器,只用两个级联的线性层和归一化层就可以取代了现有流行的学习架构中的「Self-attention」,揭示了线性层和注意力机制之间的关系。自注意力机制一个明显的缺陷在于计算量非常大,存在一定的计算冗余。通过控制记忆单元的大小,External-attention 可以轻松实现线性的复杂度。

d98242e8-b364-11eb-bf61-12bb97331649.jpg

Self Attention 和 External Attention 的区别。

推荐:External Attention 的部分计图代码已经在 Github 开源,后续将尽快开源全部计图代码。

论文 3:Learning Skeletal Articulations with Neural Blend Shapes

摘要:该论文由北京大学陈宝权教授研究团队、北京电影学院未来影像高精尖创新中心、Google Research、特拉维夫大学以及苏黎世联邦理工学院合作,针对骨骼驱动的模型动画的高质量自动化生成进行改进,提出了神经融合形状技术。实验证明,该方法显著减少了已有方法中需要的人工干预,大大提升了生成动画的质量。

具体而言,为了简化骨骼搭建和蒙皮权重绑定的过程、高效利用动作捕捉数据以及生成高质量的动画,研究者开发了一套能生成具有指定结构的骨骼以及精准绑定权重的神经网络。加以他们提出的神经融合形状(neural blend shapes)技术,研究者实现了实时高质量三维人物模型动画的端到端自动生成。

d9d77bfa-b364-11eb-bf61-12bb97331649.jpg

框架概览。

推荐:该论文已被计算机图形学顶级会议 SIGGRAPH 2021 接收。

论文 4:A Survey of Modern Deep Learning based Object Detection Models

摘要:在本文中,来自阿斯隆理工学院的研究者概述了基于深度学习的目标检测器的最新发展,提供了用于检测的基准数据集和评估指标的简要概述以及用于识别任务的主要主干架构。

da0bce78-b364-11eb-bf61-12bb97331649.jpg

文章结构。

推荐:基于现代深度学习的目标检测模型综述。

论文 5:Total Relighting: Learning to Relight Portraits for Background Replacement

摘要:在人像抠图中,前景预测背景替换是至关重要的组成部分,此前也出现过各种效果不错的抠图方法,如商汤等提出的只需单张图像、单个模型的方法 MODNet、华盛顿大学单块 GPU 实现 4K 分辨率每秒 30 帧的 Background Matting 2.0 等。这些方法或多或少都有其局限性。

近日,来自谷歌的几位研究者提出了一种全新的人像重照明(portrait relighting)和背景替换系统,该系统不仅保留了高频边界细节,并精确地合成了目标人像在新照明下的外观,从而为任何所需场景生成逼真的合成图像。该研究的亮点是通过前景蒙版(alpha matting)、重照明(relighting)和合成(compositing)进行前景估计。

推荐:该论文已被 SIGGRAPH 2021 会议接收。

论文 6:Graph Learning: A Survey

摘要:本文是对图学习的最全面综述,重点关注四类已有的图学习方法,包括图信号处理、矩阵分解、随机游走和深度学习,回顾了采用这四类方法的主要模型和算法。此外,研究者探讨了文本、图像、科学、知识图谱和组合优化等领域的图学习应用。本文作者来自澳大利亚联邦大学、大连理工、莫纳什大学和亚利桑那州立大学。

推荐:最新图机器学习论文综述。

论文 7:Locate then Segment: A Strong Pipeline for Referring Image Segmentation

摘要:如何通过自然语言定位并分割出场景中的目标物体?比如给定一张图片,语言指示 「分割出穿白色衬衫的人」。这个任务在学术界叫做指代性物体分割(Referring Image Segmentation)。目前指代性分割的工作通常着重于设计一种隐式的递归特征交互机制用于融合视觉 - 语言特征来直接生成最终的分割结果,而没有显式建模被指代物体的位置。

为了强调语言描述的指代作用,来自中科院自动化所、字节跳动的研究者将该任务解耦为先定位再分割的方案(LTS, Locate then Segment),它在直观上也与人类的视觉感知机制相同。比如给定一句语言描述,人们通常首先会注意相应的目标图像区域,然后根据对象的环境信息生成关于对象的精细分割结果。该方法虽然很简单但效果较好。在三个流行的基准数据集上,该方法大幅度优于所有以前的方法。这个框架很有希望作为指代性分割的通用框架。

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4702

    浏览量

    128708
  • 机器学习
    +关注

    关注

    66

    文章

    8378

    浏览量

    132415
  • 视觉感知
    +关注

    关注

    0

    文章

    44

    浏览量

    3182

原文标题:7 Papers & Radios | CV架构回归多层感知机;自动生成模型动画

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    多层感知器的基本原理

    多层感知器(MLP, Multi-Layer Perceptron)是一种前馈神经网络,它通过引入一个或多个隐藏层来扩展单层感知器的功能,从而能够解决复杂的非线性问题。BP网络,即基于反向传播算法
    的头像 发表于 07-19 17:20 682次阅读

    如何构建多层神经网络

    构建多层神经网络(MLP, Multi-Layer Perceptron)模型是一个在机器学习和深度学习领域广泛使用的技术,尤其在处理分类和回归问题时。在本文中,我们将深入探讨如何从头开始构建一个
    的头像 发表于 07-19 17:19 714次阅读

    多层感知是什么?它有哪些作用?

    多层感知(Multilayer Perceptron,简称MLP)是一种基本的人工神经网络模型,其结构由多个神经元组成的多层结构。它是一种
    的头像 发表于 07-11 18:21 1207次阅读

    多层感知模型结构

    和灵活的结构设计,在分类、回归、模式识别等多个领域展现出卓越的性能。以下是对多层感知模型结构的详细阐述。
    的头像 发表于 07-11 17:57 1368次阅读

    多层感知与神经网络的区别

    (Feedforward Neural Networks)的一种基础且广泛使用的模型。以下将从多个方面详细阐述多层感知和神经网络之间的区别与联系。
    的头像 发表于 07-11 17:23 1593次阅读

    不同类型神经网络在回归任务中的应用

    神经网络是一种强大的机器学习模型,可以用于各种任务,包括回归。在本文中,我们将讨论不同类型的神经网络,以及它们在回归任务中的应用。 基本的神经网络 基本的神经网络,也称为多层
    的头像 发表于 07-11 10:27 1065次阅读

    人工神经网络模型包含哪些层次

    人工神经网络(Artificial Neural Network,ANN)是一种模拟人脑神经网络的计算模型,具有自适应、自学习、泛化能力强等特点。本文将详细介绍人工神经网络模型的各个层次,包括感知
    的头像 发表于 07-05 09:17 496次阅读

    人工智能神经网络模型有哪些

    Rosenblatt在1957年提出。感知是一个二分类模型,它通过一组权重和偏置来计算输入特征的线性组合,然后通过一个激活函数(通常是符号函数或阶跃函数)来决定输出。 多层
    的头像 发表于 07-04 09:41 520次阅读

    ISEDA首发!大语言模型生成的代码到底好不好使

    在大模型席卷一切、赋能百业的浪潮里,“码农”也没能独善其身。各种代码自动生成的大模型,似乎描绘了一个人人都能像资深工程师一样写代码的美好未来。 但在这个理想成为现实之前,有一个不能回避
    发表于 05-16 13:41 298次阅读
    ISEDA首发!大语言<b class='flag-5'>模型</b><b class='flag-5'>生成</b>的代码到底好不好使

    进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

    。 **5.**自动驾驶 在自动驾驶领域,Blackwell 架构的 GPU 可以用于感知和决策算法的计算,提高车辆的安全性和自主性。 这些只是英伟达 Blackwell
    发表于 05-13 17:16

    【大语言模型:原理与工程实践】大语言模型的基础技术

    模型架构奠定基础。然后,引介一些经典的预训练模型,如BERT、GPT等。最后,解读ChatGPT和LLaMA系列模型,帮助读者初步
    发表于 05-05 12:17

    如何提高自动驾驶汽车感知模型的训练效率和GPU利用率

    由于采用了多摄像头输入和深度卷积骨干网络,用于训练自动驾驶感知模型的 GPU 内存占用很大。当前减少内存占用的方法往往会导致额外的计算开销或工作负载的失衡。
    的头像 发表于 04-29 09:12 838次阅读
    如何提高<b class='flag-5'>自动</b>驾驶汽车<b class='flag-5'>感知</b><b class='flag-5'>模型</b>的训练效率和GPU利用率

    未来已来,多传感器融合感知自动驾驶破局的关键

    架构,预计未来许多智能驾驶团队都会引入“占用网络”来提升系统能力。多维像素的应用前景非常广阔。昱感微的融合感知技术+BEV +Transformer+占用网格有望成为L3/L4级自动驾驶最优的落地方案。 昱感微电子融合
    发表于 04-11 10:26

    生成式 AI 制作动画:周期短、成本低!

    工作室和特效公司正广泛采用生成式AI技术进行背景生成、角色创作和动作合成。这种技术的应用不仅提高了动画制作的效率,还使得动画作品在视觉效果和创意上有了更大的突破。
    的头像 发表于 03-18 08:19 3506次阅读
    <b class='flag-5'>生成</b>式 AI 制作<b class='flag-5'>动画</b>:周期短、成本低!

    单片代码自动生成器程序

    单片代码自动生成器是一种能够帮助开发人员快速生成单片机代码的工具。它利用了现代计算机技术和算法,能够根据用户提供的输入和需求,自动
    的头像 发表于 01-08 14:12 2911次阅读