0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

CVer

文章:213 被阅读:16.9w 粉丝数:2 关注数:0 点赞数:0

广告

基于先验指导的对抗样本初始化方法提升FAT效果

这种现象最先由Wong等人发现,随后他们又发现使用FGSM生成对抗样本时使用随机初始化可以延缓灾难性....
的头像 CVer 发表于 12-19 09:42 556次阅读

PEMN:参数集约型掩码网络

来自美国东北大学和罗切斯特理工的研究者提出参数集约型掩码网络(Parameter-Efficient....
的头像 CVer 发表于 12-15 14:09 627次阅读

复旦&微软提出​OmniVL:首个统一图像、视频、文本的基础预训练模型

根据输入数据和目标下游任务的不同,现有的VLP方法可以大致分为两类:图像-文本预训练和视频-文本预训....
的头像 CVer 发表于 12-14 15:26 693次阅读

基于视觉transformer的高效时空特征学习算法

视觉Transofrmer通常将图像分割为不重叠的块(patch),patch之间通过自注意力机制(....
的头像 CVer 发表于 12-12 15:01 1204次阅读

无残差连接或归一化层,也能成功训练深度transformer

残差架构是最流行和成功的,最初是在卷积神经网络(CNN)的背景下开发的,后来自注意力网络中产生了无处....
的头像 CVer 发表于 12-12 11:23 488次阅读

全球首个面向遥感任务设计的亿级视觉Transformer大模型

简单来说,为了更好地应对遥感图像所具有的大尺寸特性以及图像中的目标物体的朝向任意性,我们提出了一种新....
的头像 CVer 发表于 12-09 14:53 586次阅读

一种基于毒性样本敏感性的有效后门防御!

训练深度神经网络(DNNs)往往需要大量的训练数据,这些数据有时可能由不可信的第三方来源所提供。这些....
的头像 CVer 发表于 12-05 14:09 412次阅读

基于视频语言模型LiteVL的无参的特征池化方法

我们提出了LiteVL,这是一种视频语言模型,它无需大量的视频语言预训练或目标检测器。LiteVL从....
的头像 CVer 发表于 12-05 10:54 487次阅读

LSTM之父再次炮轰LeCun:你那5点

1. 通过神经网络(NN)自动生成标注的「自监督学习」:至少可以追溯到我1990-91年的工作。 ....
的头像 CVer 发表于 11-30 14:31 440次阅读

用于视觉识别的Transformer风格的ConvNet

需要注意的是:上式中表示Hadamard乘积。上述卷积调制模块使得每个位置的元素与其近邻相关,而通道....
的头像 CVer 发表于 11-30 14:06 493次阅读

如何使用DDPM提取特征并研究这些特征可能捕获的语义信息

对于几个预先训练的扩散模型,作者研究了网络中执行逆扩散过程马尔可夫步骤的中间激活。
的头像 CVer 发表于 11-29 15:40 1826次阅读

阿里达摩院提出MogFace:人脸检测新工作

为每个anchor点定义cls和reg目标是训练检测器的必要过程,在人脸检测中这个过程称之为标签分配....
的头像 CVer 发表于 11-29 15:24 887次阅读

NVIDIA提出Magic3D:高分辨率文本到3D内容创建

Magic3D 还可以执行基于提示的 3D 网格编辑:给定低分辨率 3D 模型和基本提示,可以更改文....
的头像 CVer 发表于 11-25 11:33 939次阅读

术开发一种硬件高效的RepGhost模块

特征复用技术是指:通过简单地连接来自不同层的已有的一些特征图,来额外获得一些其他的特征
的头像 CVer 发表于 11-24 09:38 775次阅读

港大&腾讯提出DiffusionDet:第一个用于目标检测的扩散模型

近日,来自香港大学的罗平团队、腾讯 AI Lab 的研究者联合提出一种新框架 DiffusionDe....
的头像 CVer 发表于 11-22 15:35 1616次阅读

基于可变形卷积的大规模视觉基础模型

扩大模型的规模是提高特征表示质量的重要策略,在计算机视觉领域,模型参数量的扩大不仅能够有效加强深度模....
的头像 CVer 发表于 11-21 11:28 857次阅读

IPMT:用于小样本语义分割的中间原型挖掘Transformer

目前在计算机视觉取得的巨大进展在很大程度上依赖于大量带标注的数据,然而收集这些数据是一项耗时耗力的工....
的头像 CVer 发表于 11-17 15:25 738次阅读

基于激光雷达的全稀疏3D物体检测器

这样做实质上是把instance当成了“voxel”来处理,因为instance和voxel本质上都....
的头像 CVer 发表于 11-15 14:59 1265次阅读

基于Transformer架构的文档图像自监督预训练技术

本文简要介绍ACM MM 2022录用论文“DiT: Self-supervised Pre-tra....
的头像 CVer 发表于 11-15 11:32 1207次阅读

一种「个性化」的文本到图像扩散模型 DreamBooth

一些大型文本到图像模型基于用自然语言编写的文本提示(prompt)实现了高质量和多样化的图像合成。这....
的头像 CVer 发表于 11-14 15:11 1176次阅读

三行代码完成AI模型的部署!

为了解决AI部署落地难题,我们发起了FastDeploy项目。FastDeploy针对产业落地场景中....
的头像 CVer 发表于 11-10 10:18 1052次阅读

首个无监督3D点云物体实例分割算法

本文旨在寻求一种无监督的3D物体分割方法。我们发现,运动信息有望帮助我们实现这一目标。如下图1所示,....
的头像 CVer 发表于 11-09 15:15 1817次阅读

间隔校准算法Margin Calibration来了!

如下图所示,我们凭经验发现边距和预测分数与每个类的基数相关(一个类的基数即该类别拥有数据的数量)。具....
的头像 CVer 发表于 11-07 14:32 763次阅读

无需权重更新、微调,Transformer在试错中自主改进!

最近的工作表明,transformers 还可以通过将离线强化学习(RL)视作顺序预测问题,进而从离....
的头像 CVer 发表于 11-02 13:33 841次阅读

基于Transformer与覆盖注意力机制建模的手写数学公式识别

手写数学公式识别是将包含数学表达式的图像转换为结构表达式,例如LaTeX数学表达式或符号布局树的过程....
的头像 CVer 发表于 11-01 15:26 1371次阅读

深度模型Adan优化器如何完成ViT的训练

自Google提出Vision Transformer(ViT)以来,ViT渐渐成为许多视觉任务的默....
的头像 CVer 发表于 10-31 17:03 913次阅读

基于深度学习的图像去模糊算法及应用

当前,绝大部分基于深度学习的图像去模糊算法是不区分场景的,也就是他们是对常见的自然与人为设计的场景进....
的头像 CVer 发表于 10-28 16:00 2036次阅读

基于超大感受野注意力的超分辨率模型

通过引入像素注意力,PAN在大幅降低参数量的同时取得了非常优秀的性能。相比通道注意力与空域注意力,像....
的头像 CVer 发表于 10-27 13:55 865次阅读

基于重构的方法存在的“恒等映射”问题

我们首先follow了特征重构 [2] 的框架,并测试了3种通用的网络架构MLP、CNN、trans....
的头像 CVer 发表于 10-24 09:52 1365次阅读

飞桨目标检测端到端开发套件PaddleDetection正式开源车辆分析工具PP-Vehicle

针对车辆分析场景共性的底层模型进行优选迭代;针对几个高频场景进行了详细的后处理策略设计,可以满足业务....
的头像 CVer 发表于 10-20 11:35 1910次阅读