搜索历史

清空

搜索热词

0

聊天消息
系统消息
评论与回复

查看更多

查看更多

查看更多

VIP于到期续费

登录后你可以

下载海量资料
学习在线课程
观看技术视频
写文章/发帖/加入社区

会员中心

创作中心

发布

创作活动

完善资料让更多小伙伴认识你，还能领取20积分哦，立即完善>

3天内不再提示

CVer

关注

文章：213 被阅读：16.9w 粉丝数：2 关注数：0 点赞数：0

Backbone之战：计算机视觉任务模型大比较

尽管Vision Transformer（ViTs）和自监督学习（SSL）越来越受欢迎，但在大多数任....

的头像

CVer 发表于 11-13 15:41 •465次阅读

Backbone之战：计算机视觉任务模型大比较

北大&华为提出：多模态基础大模型的高效微调

深度学习的大模型时代已经来临,越来越多的大规模预训练模型在文本、视觉和多模态领域展示出杰出的生成和推....

的头像

CVer 发表于 11-08 16:20 •381次阅读

北大&华为提出：多模态基础大模型的高效微调

AI圈巨震！微软论文声称ChatGPT是20B(200亿)参数量的模型？

在top-1中，CODEFUSION的性能与自回归模型相媲美，甚至在某些情况下表现更出色，尤其是在P....

的头像

CVer 发表于 11-01 16:23 •554次阅读

AI圈巨震！微软论文声称ChatGPT是20B(200亿)参数量的模型？

任意模型都能蒸馏！华为诺亚提出异构模型的知识蒸馏方法

相比于仅使用logits的蒸馏方法，同步使用模型中间层特征进行蒸馏的方法通常能取得更好的性能。然而在....

的头像

CVer 发表于 11-01 16:18 •649次阅读

任意模型都能蒸馏！华为诺亚提出异构模型的知识蒸馏方法

涨点！FreeMask：用密集标注的合成图像提升分割模型性能

在初始阶段我们尝试了多个GAN-based从mask生成image的模型 (e.g., OASIS[....

的头像

CVer 发表于 11-01 16:09 •562次阅读

涨点！FreeMask：用密集标注的合成图像提升分割模型性能

预训练扩散大模型取得点云-图像配准SoTA！

现有方法往往是：用一个2D特征提取网络提取图像特征；用一个3D特征提取网络提取点云特征；然后根据pi....

的头像

CVer 发表于 10-29 17:14 •443次阅读

预训练扩散大模型取得点云-图像配准SoTA！

华为成为中国首个PyTorch基金会Premier会员

2023年10月18日（北京时间），PyTorch 基金会正式宣布华为作为Premier会员加入基金....

的头像

CVer 发表于 10-22 16:33 •896次阅读

谷歌重磅新作PaLI-3：视觉语言新模型！更小、更快、更强

效果怎么样呢？PaLI-3 在需要视觉定位文本理解和目标定位的任务上实现了新的 SOTA，包括 Re....

的头像

CVer 发表于 10-20 16:21 •1834次阅读

谷歌重磅新作PaLI-3：视觉语言新模型！更小、更快、更强

港中文等发布MagicDrive：日夜、雨晴、多视角全覆盖，人、物位置随意变更

描述自动驾驶场景的条件是多维度的，包括：相机参数、物体框、路面地图以及对场景属性的语言描述（比如天气....

的头像

CVer 发表于 10-20 16:18 •248次阅读

港中文等发布MagicDrive：日夜、雨晴、多视角全覆盖，人、物位置随意变更

即插即用！百度提出S3IM：用于NeRF提点的Magic Loss

用一句话来总结这个工作就是——我们提出了一种即插即用的loss S3IM（随机结构相似性），可以近乎....

的头像

CVer 发表于 10-13 15:59 •464次阅读

即插即用！百度提出S3IM：用于NeRF提点的Magic Loss

Direct Inversion：三行代码提升基于扩散的图像编辑效果

为了完成这两个任务，最为直觉，也是使用最多的方式就是：使用两个分支来完成这两件事，一个用来保留信息，....

的头像

CVer 发表于 10-10 17:18 •660次阅读

Direct Inversion：三行代码提升基于扩散的图像编辑效果

中科院&旷视提出DropPos：全新的自监督视觉预训练代理任务

我们提出了一种全新的自监督代理任务 DropPos，首先在 ViT 前向过程中屏蔽掉大量的 posi....

的头像

CVer 发表于 10-10 17:10 •502次阅读

中科院&旷视提出DropPos：全新的自监督视觉预训练代理任务

清华&港大提出LanguageMPC：将大语言模型和MPC相结合的新型类人智驾系统

LanguageMPC首次将LLM应用于驾驶场景，并设计了将文字形式高层决策转化为可操作驾驶行为的方....

的头像

CVer 发表于 10-10 15:57 •507次阅读

清华&港大提出LanguageMPC：将大语言模型和MPC相结合的新型类人智驾系统

计算机视觉走向何方？参会ICCV的一些感想

最后，可能大家从上面一段论述中也已经能感觉出来了，许多大佬们正把embodied AI作为一个最终的....

的头像

CVer 发表于 10-08 16:16 •566次阅读

计算机视觉走向何方？参会ICCV的一些感想

NUS&深大提出VisorGPT：为可控文本图像生成定制空间条件

本文将空间条件中物体的形状、位置以及它们之间的关系等性质总结为视觉先验（Visual Prior），....

的头像

CVer 发表于 09-26 16:14 •451次阅读

NUS&深大提出VisorGPT：为可控文本图像生成定制空间条件

OpenAI最新大模型曝光！剑指多模态，GPT-4之后最大升级！

目前为止，OpenAI还没有对爆料中的传闻做出回应，但此前发布过多模态模型测试。CEO奥特曼在回应有....

的头像

CVer 发表于 09-20 17:34 •973次阅读

OpenAI最新大模型曝光！剑指多模态，GPT-4之后最大升级！

Apple提出FastViT：快速卷积和Transformer混合架构

进一步使用大核卷积使得 FastViT 精度得到提升，而且不怎么影响延时。在移动设备和 ImageN....

的头像

CVer 发表于 09-20 17:12 •513次阅读

Apple提出FastViT：快速卷积和Transformer混合架构

DDFM：首个使用扩散模型进行多模态图像融合的方法

近来去噪扩散概率模型 Denoising diffusion probabilistic model....

的头像

CVer 发表于 09-19 16:02 •2491次阅读

DDFM：首个使用扩散模型进行多模态图像融合的方法

上交提出RCLSTR：面向场景文本识别的关系对比学习

基于MoCo[3]的框架，该文提出了用于文本识别的关系对比学习框架(RCLSTR)。如下图所示：1、....

的头像

CVer 发表于 09-14 17:21 •452次阅读

上交提出RCLSTR：面向场景文本识别的关系对比学习

SCConv：即插即用的空间和通道重建卷积

如下图，SCConv 由两个单元组成，即空间重构单元 (SRU) 和信道重构单元 (CRU) ，两个....

的头像

CVer 发表于 09-14 17:05 •1647次阅读

SCConv：即插即用的空间和通道重建卷积

马毅团队新作：白盒ViT成功实现

最近，马毅教授团队探索了基于Transformer架构的模型中涌现分割能力是否仅仅是复杂的自监督学习....

的头像

CVer 发表于 09-14 15:58 •361次阅读

马毅团队新作：白盒ViT成功实现

通用数据增强技术！适用于任意数据模态的随机量化

一般性地，输入数据可以被表征为由序列维度（sequential）和通道维度（channel）组成的二....

的头像

CVer 发表于 09-12 16:40 •290次阅读

通用数据增强技术！适用于任意数据模态的随机量化

惊呆了！用ChatGPT写论文忘删生成按钮，出版商：撤稿

事实上，这并非唯一案例。自pubpeer不完全统计，4个月以来就有十几篇含有「Regenerate ....

的头像

CVer 发表于 09-12 16:22 •486次阅读

惊呆了！用ChatGPT写论文忘删生成按钮，出版商：撤稿

CLE Diffusion：可控光照增强扩散模型

本文提出了新型的可控光照增强框架，主要采用了条件扩散模型来控制任意区域的任意亮度增强。通过亮度控制模....

的头像

CVer 发表于 09-11 17:20 •590次阅读

CLE Diffusion：可控光照增强扩散模型

MUS-CDB：遥感目标检测中的主动标注的具有类分布平衡的混合不确定性采样

使用主动学习进行遥感目标检测旨在通过从大型未标记数据集中选择信息量丰富的样本来降低标注成本，从而训练....

的头像

CVer 发表于 09-10 10:02 •481次阅读

MUS-CDB：遥感目标检测中的主动标注的具有类分布平衡的混合不确定性采样

顶刊TPAMI 2023！生成式AI与图像合成综述发布！

近期，火热的扩散模型也被广泛应用于多模态合成与编辑任务。例如效果惊人的DALLE-2和Imagen都....

的头像

CVer 发表于 09-05 16:06 •531次阅读

顶刊TPAMI 2023！生成式AI与图像合成综述发布！

复旦开源LVOS：面向真实场景的长时视频目标分割数据集

现有的视频目标分割（VOS）数据集主要关注于短时视频，平均时长在3-5秒左右，并且视频中的物体大部分....

的头像

CVer 发表于 09-04 16:33 •662次阅读

复旦开源LVOS：面向真实场景的长时视频目标分割数据集

GPT-5正秘密训练！DeepMind联创爆料，这模型比GPT-4大100倍

另外，采访中，Suleyman还爆出了很多自己在DeepMind和Inflection AI工作时的....

的头像

CVer 发表于 09-04 16:28 •546次阅读

GPT-5正秘密训练！DeepMind联创爆料，这模型比GPT-4大100倍

TUM&谷歌提出md4all：挑战性条件下的单目深度估计

在这些情况下, 传感器自带的噪声、无纹理的黑暗区域和反光等不利因素都违反了基于监督和自监督学习方法的....

的头像

CVer 发表于 09-04 16:14 •496次阅读

TUM&谷歌提出md4all：挑战性条件下的单目深度估计

特斯拉前AI总监Andrej Karpathy：大模型有内存限制，这个妙招挺好用！

为了让大家更好的理解 Karpathy 的内容。我们先介绍一下「Speculative decodi....

的头像

CVer 发表于 09-04 15:43 •574次阅读

特斯拉前AI总监Andrej Karpathy：大模型有内存限制，这个妙招挺好用！

上一页 123 4 5 6 7 8 下一页