0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

CVer

文章:213 被阅读:16.9w 粉丝数:2 关注数:0 点赞数:0

广告

Vision Mamba:速度与内存的双重突破

为了进一步评估研究方法在下游任务上(即分割、检测和实例分割)的效率,本文将骨干网与常用的特征金字塔网....
的头像 CVer 发表于 01-31 14:14 1691次阅读
Vision Mamba:速度与内存的双重突破

Adobe提出DMV3D:3D生成只需30秒!让文本、图像都动起来的新方法!

因此,本文研究者的目标是实现快速、逼真和通用的 3D 生成。为此,他们提出了 DMV3D。DMV3D....
的头像 CVer 发表于 01-30 16:20 503次阅读
Adobe提出DMV3D:3D生成只需30秒!让文本、图像都动起来的新方法!

高分工作!Uni3D:3D基础大模型,刷新多个SOTA!

我们主要探索了3D视觉中scale up模型参数量和统一模型架构的可能性。在NLP / 2D vis....
的头像 CVer 发表于 01-30 15:56 454次阅读
高分工作!Uni3D:3D基础大模型,刷新多个SOTA!

ICLR 2024 清华/新国大/澳门大学提出一模通吃的多粒度图文组合检索MUG:通过不确定性建模,两行代码完成部署

如上图所示,不再采用严格的一对一匹配,而是促使模型专注于一对多匹配,即从细粒度过渡到粗粒度。因此,首....
的头像 CVer 发表于 01-25 16:53 354次阅读
ICLR 2024 清华/新国大/澳门大学提出一模通吃的多粒度图文组合检索MUG:通过不确定性建模,两行代码完成部署

Harvard FairSeg:第一个用于医学分割的公平性数据集

为了解决这些挑战,我们提出了第一个大规模医学分割领域的公平性数据集, Harvard-FairSeg....
的头像 CVer 发表于 01-25 16:52 313次阅读
Harvard FairSeg:第一个用于医学分割的公平性数据集

谷歌MIT最新研究证明:高质量数据获取不难,大模型就是归途

另一个极端是,监督学习方法(即SupCE)会将所有这些图像视为单一类(如「金毛猎犬」)。这就忽略了这....
的头像 CVer 发表于 01-15 15:40 331次阅读
谷歌MIT最新研究证明:高质量数据获取不难,大模型就是归途

顶刊TIP 2023!浙大提出:基于全频域通道选择的的无监督异常检测

Density-based方法:基于密度的方法通常采用预训练的模型来提取输入图像的有意义嵌入向量,测....
的头像 CVer 发表于 01-11 16:02 420次阅读
顶刊TIP 2023!浙大提出:基于全频域通道选择的的无监督异常检测

北京大学提出Repaint123:纹理质量、多视角一致性新SOTA!

之前,将图像转换为3D的方法通常采用Score Distillation Sampling (SDS....
的头像 CVer 发表于 01-08 16:13 310次阅读
北京大学提出Repaint123:纹理质量、多视角一致性新SOTA!

基于DiAD扩散模型的多类异常检测工作

现有的基于计算机视觉的工业异常检测技术包括基于特征的、基于重构的和基于合成的技术。最近,扩散模型因其....
的头像 CVer 发表于 01-08 14:55 611次阅读
基于DiAD扩散模型的多类异常检测工作

4DGen:基于动态3D高斯的可控4D生成新工作

尽管3D和视频生成取得了飞速的发展,由于缺少高质量的4D数据集,4D生成始终面临着巨大的挑战。
的头像 CVer 发表于 01-04 15:57 444次阅读
4DGen:基于动态3D高斯的可控4D生成新工作

语言模型的弱监督视频异常检测方法

LGT Adapter由局部关系Transformer和全局关系图卷积串联组成。考虑到常规的Tran....
的头像 CVer 发表于 01-02 15:20 409次阅读
语言模型的弱监督视频异常检测方法

SegRefiner:通过扩散模型实现高精度图像分割

一类常见的 Refinement 方法是 Model-Specific 的,其通过在已有分割模型中引....
的头像 CVer 发表于 12-28 11:24 797次阅读
SegRefiner:通过扩散模型实现高精度图像分割

Aleth-NeRF:低光增强与曝光纠正的新方向!不良光照场景下的新视角合成

最经典的原始NeRF为例,局部隐蔽场通过NeRF的MLP网络产生,与原始NeRF的两个输出color....
的头像 CVer 发表于 12-21 16:43 509次阅读
Aleth-NeRF:低光增强与曝光纠正的新方向!不良光照场景下的新视角合成

没有证据证实LK-99为常温超导体

委员会说:「一些样品在 100 摄氏度时的电阻率发生了急剧变化,然而,我们认为相变是由(样品中的)杂....
的头像 CVer 发表于 12-19 11:38 620次阅读
没有证据证实LK-99为常温超导体

更强!Alpha-CLIP:让CLIP关注你想要的任何地方!

然而CLIP必须以整张图片作为输入并进行特征提取,无法关注到指定的任意区域。然而,自然的2D图片中往....
的头像 CVer 发表于 12-10 10:28 637次阅读
更强!Alpha-CLIP:让CLIP关注你想要的任何地方!

何恺明新作RCG:无自条件图像生成新SOTA!与MIT首次合作!

它有望超越条件图像生成,并推动诸如分子设计或药物发现这种不需要人类给注释的应用往前发展(这也是为什么....
的头像 CVer 发表于 12-10 10:24 673次阅读
何恺明新作RCG:无自条件图像生成新SOTA!与MIT首次合作!

计算机视觉迎来GPT时刻!UC伯克利三巨头祭出首个纯CV大模型!

在损失函数上,研究者从自然语言社区汲取灵感,即掩码 token 建模已经「让位给了」序列自回归预测方....
的头像 CVer 发表于 12-05 15:34 603次阅读
计算机视觉迎来GPT时刻!UC伯克利三巨头祭出首个纯CV大模型!

超分画质大模型!华为和清华联合提出CoSeR:基于认知的万物超分大模型

一是缺乏泛化能力。为了实现更好的超分效果,通常需要针对特定场景使用特定传感器采集到的数据来进行模型训....
的头像 CVer 发表于 12-04 16:22 444次阅读
超分画质大模型!华为和清华联合提出CoSeR:基于认知的万物超分大模型

低成本扩大输入分辨率!华科大提出Monkey:新的多模态大模型

下图展示了Monkey的卓越性能,在 18 个不同的数据集上进行测试的结果表明,Monkey能够很好....
的头像 CVer 发表于 12-04 15:33 954次阅读
低成本扩大输入分辨率!华科大提出Monkey:新的多模态大模型

SAFA:高效时空视频超分辨率的尺度自适应特征聚合

在时空超分中,除了 I0.5{HR}, 我们还要得到 I0{HR}, I1{HR},如果把它们看成三....
的头像 CVer 发表于 11-29 16:31 425次阅读
SAFA:高效时空视频超分辨率的尺度自适应特征聚合

清华Ð提出首个二值化光谱重建算法

相比于常规的三通道 RGB 图像,高光谱图像包含几十上百个波段,从而捕获了关于成像场景更丰富的信息。....
的头像 CVer 发表于 11-29 15:43 316次阅读
清华Ð提出首个二值化光谱重建算法

小模型也能进行上下文学习!字节&华东师大联合提出自进化文本识别器

场景文本识别(Scene Text Recognition)的目标是将图像中的文本内容提取出来。实际....
的头像 CVer 发表于 11-27 16:28 639次阅读
小模型也能进行上下文学习!字节&华东师大联合提出自进化文本识别器

通过扩散模型理解不可学习样本对于数据隐私保护的脆弱性

一个直接的解决方案是设计一个特定的训练方案,可以在不可利用的数据上进行训练。这是不太理想的,因为它只....
的头像 CVer 发表于 11-25 14:46 356次阅读
通过扩散模型理解不可学习样本对于数据隐私保护的脆弱性

通过扩散模型理解不可学习样本对于数据隐私保护的脆弱性

在深度学习领域,网络上充斥着大量可自由访问的数据,其中包括像ImageNet和MS-Celeb-1M....
的头像 CVer 发表于 11-25 14:45 357次阅读
通过扩散模型理解不可学习样本对于数据隐私保护的脆弱性

哈工大提出Myriad:利用视觉专家进行工业异常检测的大型多模态模型

最近,大型多模态(即视觉和语言)模型(LMM)在图像描述、视觉理解、视觉推理等多种视觉任务上表现出了....
的头像 CVer 发表于 11-21 16:08 927次阅读
哈工大提出Myriad:利用视觉专家进行工业异常检测的大型多模态模型

谷歌新作UFOGen:通过扩散GAN实现大规模文本到图像生成

扩散模型和 GAN 的混合模型最早是英伟达的研究团队在 ICLR 2022 上提出的 DDGAN(《....
的头像 CVer 发表于 11-21 16:02 410次阅读
谷歌新作UFOGen:通过扩散GAN实现大规模文本到图像生成

基于几何分析的神经辐射场编辑方法

神经辐射场作为近期一个广受关注的隐式表征方法,能合成照片级真实的多视角图像。但因为其隐式建模的性质,....
的头像 CVer 发表于 11-20 16:56 349次阅读
基于几何分析的神经辐射场编辑方法

RayDF:实时渲染!基于射线的三维重建新方法

在机器视觉和机器人领域的许多前沿应用中,学习准确且高效的三维形状表达是十分重要的。然而,现有的基于三....
的头像 CVer 发表于 11-17 16:23 489次阅读
RayDF:实时渲染!基于射线的三维重建新方法

英伟达特供版芯片将上市:性能最高不到H100的20%

本周四,一些媒体首次报道了英伟达特供芯片的消息。报道称,这三款新产品是在 H100 GPU 的基础版....
的头像 CVer 发表于 11-13 16:44 565次阅读
英伟达特供版芯片将上市:性能最高不到H100的20%

GPT-4V在异常检测上有多少强?华科大等最新测评来了!

不同领域的数据集包含各种数据类型和类别,如图像、视频、点云、时间序列等。每种数据类型可能需要不同的异....
的头像 CVer 发表于 11-13 16:25 525次阅读
GPT-4V在异常检测上有多少强?华科大等最新测评来了!