CVer-电子说-电子发烧友网

谷歌提出FlexiViT：适用于所有Patch大小的模型

一句话总结就是，ViT 是一种通过将图像切割成一个个小方块(patch)将图像转换为序列从而输入到T....

CVer 发表于 12-20 13:42 •1370次阅读

一种新的轻量级视觉Transformer

既然都叫 EfficientFormerV2，那必然是在上一版的基础上改进了，如图(a)所示。没什么....

CVer 发表于 12-19 14:00 •1360次阅读

基于先验指导的对抗样本初始化方法提升FAT效果

这种现象最先由Wong等人发现，随后他们又发现使用FGSM生成对抗样本时使用随机初始化可以延缓灾难性....

CVer 发表于 12-19 09:42 •850次阅读

PEMN：参数集约型掩码网络

来自美国东北大学和罗切斯特理工的研究者提出参数集约型掩码网络（Parameter-Efficient....

CVer 发表于 12-15 14:09 •906次阅读

复旦&微软提出OmniVL：首个统一图像、视频、文本的基础预训练模型

根据输入数据和目标下游任务的不同，现有的VLP方法可以大致分为两类：图像-文本预训练和视频-文本预训....

CVer 发表于 12-14 15:26 •1015次阅读

基于视觉transformer的高效时空特征学习算法

视觉Transofrmer通常将图像分割为不重叠的块(patch)，patch之间通过自注意力机制(....

CVer 发表于 12-12 15:01 •1632次阅读

无残差连接或归一化层，也能成功训练深度transformer

残差架构是最流行和成功的，最初是在卷积神经网络（CNN）的背景下开发的，后来自注意力网络中产生了无处....

CVer 发表于 12-12 11:23 •832次阅读

全球首个面向遥感任务设计的亿级视觉Transformer大模型

简单来说，为了更好地应对遥感图像所具有的大尺寸特性以及图像中的目标物体的朝向任意性，我们提出了一种新....

CVer 发表于 12-09 14:53 •823次阅读

一种基于毒性样本敏感性的有效后门防御！

训练深度神经网络(DNNs)往往需要大量的训练数据，这些数据有时可能由不可信的第三方来源所提供。这些....

CVer 发表于 12-05 14:09 •648次阅读

基于视频语言模型LiteVL的无参的特征池化方法

我们提出了LiteVL，这是一种视频语言模型，它无需大量的视频语言预训练或目标检测器。LiteVL从....

CVer 发表于 12-05 10:54 •706次阅读

LSTM之父再次炮轰LeCun：你那5点

1. 通过神经网络（NN）自动生成标注的「自监督学习」：至少可以追溯到我1990-91年的工作。 ....

CVer 发表于 11-30 14:31 •596次阅读

用于视觉识别的Transformer风格的ConvNet

需要注意的是：上式中表示Hadamard乘积。上述卷积调制模块使得每个位置的元素与其近邻相关，而通道....

CVer 发表于 11-30 14:06 •720次阅读

如何使用DDPM提取特征并研究这些特征可能捕获的语义信息

对于几个预先训练的扩散模型，作者研究了网络中执行逆扩散过程马尔可夫步骤的中间激活。

CVer 发表于 11-29 15:40 •2301次阅读

阿里达摩院提出MogFace：人脸检测新工作

为每个anchor点定义cls和reg目标是训练检测器的必要过程，在人脸检测中这个过程称之为标签分配....

CVer 发表于 11-29 15:24 •1174次阅读

NVIDIA提出Magic3D：高分辨率文本到3D内容创建

Magic3D 还可以执行基于提示的 3D 网格编辑：给定低分辨率 3D 模型和基本提示，可以更改文....

CVer 发表于 11-25 11:33 •1197次阅读

术开发一种硬件高效的RepGhost模块

特征复用技术是指：通过简单地连接来自不同层的已有的一些特征图，来额外获得一些其他的特征

CVer 发表于 11-24 09:38 •992次阅读

港大&腾讯提出DiffusionDet：第一个用于目标检测的扩散模型

近日，来自香港大学的罗平团队、腾讯 AI Lab 的研究者联合提出一种新框架 DiffusionDe....

CVer 发表于 11-22 15:35 •2025次阅读

基于可变形卷积的大规模视觉基础模型

扩大模型的规模是提高特征表示质量的重要策略，在计算机视觉领域，模型参数量的扩大不仅能够有效加强深度模....

CVer 发表于 11-21 11:28 •1113次阅读

IPMT：用于小样本语义分割的中间原型挖掘Transformer

目前在计算机视觉取得的巨大进展在很大程度上依赖于大量带标注的数据，然而收集这些数据是一项耗时耗力的工....

CVer 发表于 11-17 15:25 •1020次阅读

基于激光雷达的全稀疏3D物体检测器

这样做实质上是把instance当成了“voxel”来处理，因为instance和voxel本质上都....

CVer 发表于 11-15 14:59 •1422次阅读

基于Transformer架构的文档图像自监督预训练技术

本文简要介绍ACM MM 2022录用论文“DiT： Self-supervised Pre-tra....

CVer 发表于 11-15 11:32 •1563次阅读

一种「个性化」的文本到图像扩散模型 DreamBooth

一些大型文本到图像模型基于用自然语言编写的文本提示（prompt）实现了高质量和多样化的图像合成。这....

CVer 发表于 11-14 15:11 •1467次阅读

三行代码完成AI模型的部署！

为了解决AI部署落地难题，我们发起了FastDeploy项目。FastDeploy针对产业落地场景中....

CVer 发表于 11-10 10:18 •1429次阅读

首个无监督3D点云物体实例分割算法

本文旨在寻求一种无监督的3D物体分割方法。我们发现，运动信息有望帮助我们实现这一目标。如下图1所示，....

CVer 发表于 11-09 15:15 •2609次阅读

间隔校准算法Margin Calibration来了！

如下图所示，我们凭经验发现边距和预测分数与每个类的基数相关（一个类的基数即该类别拥有数据的数量）。具....

CVer 发表于 11-07 14:32 •1016次阅读

无需权重更新、微调，Transformer在试错中自主改进！

最近的工作表明，transformers 还可以通过将离线强化学习（RL）视作顺序预测问题，进而从离....

CVer 发表于 11-02 13:33 •1064次阅读

基于Transformer与覆盖注意力机制建模的手写数学公式识别

手写数学公式识别是将包含数学表达式的图像转换为结构表达式，例如LaTeX数学表达式或符号布局树的过程....

CVer 发表于 11-01 15:26 •1902次阅读

深度模型Adan优化器如何完成ViT的训练

自Google提出Vision Transformer(ViT)以来，ViT渐渐成为许多视觉任务的默....

CVer 发表于 10-31 17:03 •1093次阅读

基于深度学习的图像去模糊算法及应用

当前，绝大部分基于深度学习的图像去模糊算法是不区分场景的，也就是他们是对常见的自然与人为设计的场景进....

CVer 发表于 10-28 16:00 •2837次阅读

基于超大感受野注意力的超分辨率模型

通过引入像素注意力，PAN在大幅降低参数量的同时取得了非常优秀的性能。相比通道注意力与空域注意力，像....

CVer 发表于 10-27 13:55 •1318次阅读

搜索历史

CVer