0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

CVer

文章:213 被阅读:16.9w 粉丝数:2 关注数:0 点赞数:0

广告

中科大&字节提出UniDoc:统一的面向文字场景的多模态大模型

如上图所示,UniDoc基于预训练的视觉大模型及大语言模型,将文字的检测、识别、spotting(图....
的头像 CVer 发表于 08-31 15:29 1172次阅读
中科大&字节提出UniDoc:统一的面向文字场景的多模态大模型

重新思考跨域行人检测:无实例单阶段检测器的背景聚焦分布对齐框架

为了解决这一问题,我们系统地分析了前景和背景在图像级跨域对齐中的重要性,并认识到在图像级跨域对齐中,....
的头像 CVer 发表于 08-30 15:30 423次阅读
重新思考跨域行人检测:无实例单阶段检测器的背景聚焦分布对齐框架

CVPR上的新顶流:BEV自动驾驶感知新范式

BEV自动驾驶感知好比一个从高处统观全局的“上帝视角”,将三维环境信息投影到二维平面,以俯视视角展示....
的头像 CVer 发表于 08-23 14:51 833次阅读
CVPR上的新顶流:BEV自动驾驶感知新范式

英伟达神奇研究:用别的模型权重训练神经网络,改神经元不影响输出!

根据这种方法,我们可以根据其他网络的权重来训练一个网络,这也许是一个用来做持续学习的好方法。同样有趣....
的头像 CVer 发表于 08-21 14:55 366次阅读
英伟达神奇研究:用别的模型权重训练神经网络,改神经元不影响输出!

ReDB:通过可靠、多样和类平衡的伪标签重新审视跨域3D目标检测

随着基于激光雷达(LiDAR)的三维物体检测在机器人系统和自动驾驶汽车等各种应用中不断发展,解决在实....
的头像 CVer 发表于 08-18 15:19 783次阅读
ReDB:通过可靠、多样和类平衡的伪标签重新审视跨域3D目标检测

怎么一次性处理台风天(雨/雾/雪等)?

图像分解致力于通过完备的监督信号还原出包括噪声天气在内的所有图层,指向各图层的 multi-head....
的头像 CVer 发表于 08-15 15:16 559次阅读
怎么一次性处理台风天(雨/雾/雪等)?

SHERF:可泛化可驱动人体神经辐射场的新方法

人体神经辐射场的目标是从 2D 人体图片中恢复高质量的 3D 数字人并加以驱动,从而避免耗费大量人力....
的头像 CVer 发表于 08-15 11:46 652次阅读
SHERF:可泛化可驱动人体神经辐射场的新方法

改动一行代码,PyTorch训练三倍提速!这些技术是关键!

想要注意的是,模型和数据集的详细信息并不是这里的主要关注点(它们只是为了尽可能简单,以便读者可以在自....
的头像 CVer 发表于 08-14 13:07 609次阅读
改动一行代码,PyTorch训练三倍提速!这些技术是关键!

对于极暗场景RAW图像去噪,你是否还在被标定折磨?

SID[1] 首先提出一套完整的 benchmark 以及 dataset 进行RAW图像低光增强或....
的头像 CVer 发表于 08-11 15:47 924次阅读
对于极暗场景RAW图像去噪,你是否还在被标定折磨?

华为诺亚提出全新目标检测器Focus-DETR

为实现模型性能和计算资源消耗、显存消耗、推理时延之间的平衡,Focus-DETR 利用精细设计的前景....
的头像 CVer 发表于 08-02 15:43 356次阅读
华为诺亚提出全新目标检测器Focus-DETR

首个线性注意力Transformer大模型!1750亿参数,速度和精度更优

即便如此,传统的 Transformer 依然存在局限。首要的一点,它们有着对于序列长度的二次时间复....
的头像 CVer 发表于 07-31 15:20 862次阅读
首个线性注意力Transformer大模型!1750亿参数,速度和精度更优

PVT++:通用的端对端预测性目标跟踪框架

然而,这一假设在机器人部署中通常是难以满足的,因为算法本身的延迟在机器人硬件上不可忽视,当算法完成当....
的头像 CVer 发表于 07-19 16:06 584次阅读
PVT++:通用的端对端预测性目标跟踪框架

北大提出MotionBERT:人体运动表征学习的统一视角

构建这种表征的一个重要挑战是人体运动数据资源的异质性。运动捕捉(MoCap)系统提供了基于标记和传感....
的头像 CVer 发表于 07-19 14:23 561次阅读
北大提出MotionBERT:人体运动表征学习的统一视角

APE:对CLIP进行特征提纯能够提升Few-shot性能

CLIP是一个通用的模型,考虑到下游数据分布的差异,对某个下游任务来说,CLIP提取的特征并不全是有....
的头像 CVer 发表于 07-19 14:19 1283次阅读
APE:对CLIP进行特征提纯能够提升Few-shot性能

南开大学提出LSKNet:遥感旋转目标检测新SOTA!

如图1(a)所示,遥感图像中的物体检测器所使用的有限范围的背景往往会导致错误的分类。例如,在上层图像....
的头像 CVer 发表于 07-18 16:57 951次阅读
南开大学提出LSKNet:遥感旋转目标检测新SOTA!

清华&西电提出HumanMAC:人体动作预测新范式

人体动作预测是计算机视觉和图形学中的一个经典问题,旨在提升预测结果的多样性、准确性,并在自动驾驶、动....
的头像 CVer 发表于 07-17 16:56 406次阅读
清华&西电提出HumanMAC:人体动作预测新范式

首篇!Point-In-Context:探索用于3D点云理解的上下文学习

随着基于广泛数据训练的大模型兴起,上下文学习(In-Context Learning)已成为一种新的....
的头像 CVer 发表于 07-13 14:41 549次阅读
首篇!Point-In-Context:探索用于3D点云理解的上下文学习

你的DragGAN并不需要点跟踪!中科大和上海AI Lab提出FreeDrag:无需点跟踪即可稳定拖动语义内容

这一惊人效果来自于发表在SIGGRAPH 2023会议上的 [Drag Your GAN] 论文(简....
的头像 CVer 发表于 07-13 14:36 371次阅读

TLDR: 视频分割一直是重标注的一个task,这篇CVPR 2023文章研究了完全不需要标注的视频物体分割。

这个定律启发了基于运动的无监督分割。然而,Common Fate并不是物体性质的可靠指标:关节可动 ....
的头像 CVer 发表于 07-12 14:21 591次阅读
TLDR: 视频分割一直是重标注的一个task,这篇CVPR 2023文章研究了完全不需要标注的视频物体分割。

爆了!GPT-4模型架构、训练成本、数据集信息都被扒出来了

文章称,他们从许多来源收集了大量有关 GPT-4 的信息,包括模型架构、训练基础设施、推理基础设施、....
的头像 CVer 发表于 07-12 14:16 595次阅读
爆了!GPT-4模型架构、训练成本、数据集信息都被扒出来了

SIGGRAPH 2023最佳论文公布!山大、港大获奖!北大、腾讯光子获提名

自 50 年前举办第一次会议以来, Technical Papers program 一直是 SIG....
的头像 CVer 发表于 07-11 14:34 691次阅读
SIGGRAPH 2023最佳论文公布!山大、港大获奖!北大、腾讯光子获提名

机器人接入大模型直接听懂人话,日常操作轻松完成!

接着,LLM(大语言模型)根据这些内容编写代码,所生成代码与VLM(视觉语言模型)进行交互,指导系统....
的头像 CVer 发表于 07-11 14:31 840次阅读
机器人接入大模型直接听懂人话,日常操作轻松完成!

特斯拉前AI总监Karpathy:我被自动驾驶分了心,AI智能体才是未来!

但是因为当时的技术所限,做出来的效果不好,于是他和OpenAI就改变了方向,开始做大语言模型了。最简....
的头像 CVer 发表于 07-11 11:17 571次阅读

SAM-PT:点几下鼠标,视频目标就分割出来了!

在半监督视频对象分割(VOS)和视频实例分割(VIS)方面,目前的主流方法处理未知数据时表现一般,是....
的头像 CVer 发表于 07-10 15:28 483次阅读
SAM-PT:点几下鼠标,视频目标就分割出来了!

VISPROG:以神经符号方式将人工智能推向更广泛、更复杂的任务领域

VisProg目前支持20个模块,可实现图像理解、图像操作(包括生成)、知识检索和算术和逻辑操作等能....
的头像 CVer 发表于 07-10 15:26 484次阅读
VISPROG:以神经符号方式将人工智能推向更广泛、更复杂的任务领域

谷歌新作SPAE:GPT等大语言模型可以通过上下文学习解决视觉任务

这篇论文揭示了 PaLM 或 GPT 在通过上下文学习解决视觉任务方面的能力,并提出了新方法 SPA....
的头像 CVer 发表于 07-09 15:35 1030次阅读
谷歌新作SPAE:GPT等大语言模型可以通过上下文学习解决视觉任务

基于医学知识增强的基础模型预训练方法

      近年来,基于大数据预训练的多模态基础模型 (Foundation Model) 在自然语....
的头像 CVer 发表于 07-07 11:10 576次阅读
基于医学知识增强的基础模型预训练方法

AIGC时代的ImageNet!百万生成图片助力AI生成图片检测器研发

过去业界也有推出一些数据集。他们主要有三个特点。第一个是数据规模小,第二个是都是基于GAN的,第三个....
的头像 CVer 发表于 07-04 15:53 456次阅读
AIGC时代的ImageNet!百万生成图片助力AI生成图片检测器研发

北工大校友Cheng Zhang获SIGGRAPH最佳博士论文奖!

SIGGRAPH 博士论文奖设立于 2016 年,每年颁发给在计算机图形学和交互技术领域成功答辩并完....
的头像 CVer 发表于 07-04 10:55 440次阅读
北工大校友Cheng Zhang获SIGGRAPH最佳博士论文奖!

基于未知物体进行6D追踪和3D重建的方法

如今,计算机视觉社区已经广泛展开了对物体姿态的 6D 追踪和 3D 重建。本文中英伟达提出了同时对未....
的头像 CVer 发表于 07-03 11:24 396次阅读
基于未知物体进行6D追踪和3D重建的方法