谷歌提出FlexiViT:适用于所有Patch大小的模型
一句话总结就是,ViT 是一种通过将图像切割成一个个小方块(patch)将图像转换为序列从而输入到T....
一种新的轻量级视觉Transformer
既然都叫 EfficientFormerV2,那必然是在上一版的基础上改进了,如图(a)所示。没什么....
基于先验指导的对抗样本初始化方法提升FAT效果
这种现象最先由Wong等人发现,随后他们又发现使用FGSM生成对抗样本时使用随机初始化可以延缓灾难性....
复旦&微软提出OmniVL:首个统一图像、视频、文本的基础预训练模型
根据输入数据和目标下游任务的不同,现有的VLP方法可以大致分为两类:图像-文本预训练和视频-文本预训....
基于视觉transformer的高效时空特征学习算法
视觉Transofrmer通常将图像分割为不重叠的块(patch),patch之间通过自注意力机制(....
无残差连接或归一化层,也能成功训练深度transformer
残差架构是最流行和成功的,最初是在卷积神经网络(CNN)的背景下开发的,后来自注意力网络中产生了无处....
全球首个面向遥感任务设计的亿级视觉Transformer大模型
简单来说,为了更好地应对遥感图像所具有的大尺寸特性以及图像中的目标物体的朝向任意性,我们提出了一种新....
一种基于毒性样本敏感性的有效后门防御!
训练深度神经网络(DNNs)往往需要大量的训练数据,这些数据有时可能由不可信的第三方来源所提供。这些....
基于视频语言模型LiteVL的无参的特征池化方法
我们提出了LiteVL,这是一种视频语言模型,它无需大量的视频语言预训练或目标检测器。LiteVL从....
LSTM之父再次炮轰LeCun:你那5点
1. 通过神经网络(NN)自动生成标注的「自监督学习」:至少可以追溯到我1990-91年的工作。 ....
用于视觉识别的Transformer风格的ConvNet
需要注意的是:上式中表示Hadamard乘积。上述卷积调制模块使得每个位置的元素与其近邻相关,而通道....
如何使用DDPM提取特征并研究这些特征可能捕获的语义信息
对于几个预先训练的扩散模型,作者研究了网络中执行逆扩散过程马尔可夫步骤的中间激活。
阿里达摩院提出MogFace:人脸检测新工作
为每个anchor点定义cls和reg目标是训练检测器的必要过程,在人脸检测中这个过程称之为标签分配....
NVIDIA提出Magic3D:高分辨率文本到3D内容创建
Magic3D 还可以执行基于提示的 3D 网格编辑:给定低分辨率 3D 模型和基本提示,可以更改文....
港大&腾讯提出DiffusionDet:第一个用于目标检测的扩散模型
近日,来自香港大学的罗平团队、腾讯 AI Lab 的研究者联合提出一种新框架 DiffusionDe....
基于可变形卷积的大规模视觉基础模型
扩大模型的规模是提高特征表示质量的重要策略,在计算机视觉领域,模型参数量的扩大不仅能够有效加强深度模....
IPMT:用于小样本语义分割的中间原型挖掘Transformer
目前在计算机视觉取得的巨大进展在很大程度上依赖于大量带标注的数据,然而收集这些数据是一项耗时耗力的工....
基于激光雷达的全稀疏3D物体检测器
这样做实质上是把instance当成了“voxel”来处理,因为instance和voxel本质上都....
基于Transformer架构的文档图像自监督预训练技术
本文简要介绍ACM MM 2022录用论文“DiT: Self-supervised Pre-tra....
一种「个性化」的文本到图像扩散模型 DreamBooth
一些大型文本到图像模型基于用自然语言编写的文本提示(prompt)实现了高质量和多样化的图像合成。这....
首个无监督3D点云物体实例分割算法
本文旨在寻求一种无监督的3D物体分割方法。我们发现,运动信息有望帮助我们实现这一目标。如下图1所示,....
间隔校准算法Margin Calibration来了!
如下图所示,我们凭经验发现边距和预测分数与每个类的基数相关(一个类的基数即该类别拥有数据的数量)。具....
无需权重更新、微调,Transformer在试错中自主改进!
最近的工作表明,transformers 还可以通过将离线强化学习(RL)视作顺序预测问题,进而从离....
基于Transformer与覆盖注意力机制建模的手写数学公式识别
手写数学公式识别是将包含数学表达式的图像转换为结构表达式,例如LaTeX数学表达式或符号布局树的过程....
深度模型Adan优化器如何完成ViT的训练
自Google提出Vision Transformer(ViT)以来,ViT渐渐成为许多视觉任务的默....
基于深度学习的图像去模糊算法及应用
当前,绝大部分基于深度学习的图像去模糊算法是不区分场景的,也就是他们是对常见的自然与人为设计的场景进....
基于超大感受野注意力的超分辨率模型
通过引入像素注意力,PAN在大幅降低参数量的同时取得了非常优秀的性能。相比通道注意力与空域注意力,像....