0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

CVer

文章:213 被阅读:16.9w 粉丝数:2 关注数:0 点赞数:0

广告

构建一个移动端友好的SAM方案MobileSAM

导读 本文提出一种"解耦蒸馏"方案对SAM的ViT-H解码器进行蒸馏,同时所得轻量级编码器可与SAM....
的头像 CVer 发表于 06-30 10:59 873次阅读
构建一个移动端友好的SAM方案MobileSAM

DragGAN开源效果如何

动动鼠标,让图片变「活」,成为你想要的模样。 在 AIGC 的神奇世界里,我们可以在图像上通过「拖曳....
的头像 CVer 发表于 06-30 10:57 382次阅读

OpenOOD v1.5:更全面、更精确的分布外检测代码库及测试平台

对于训练好的图像分类器,能让其可靠地在开放世界中工作的一个关键能力便是检测未知的、分布外的(out-....
的头像 CVer 发表于 06-28 15:57 602次阅读
OpenOOD v1.5:更全面、更精确的分布外检测代码库及测试平台

中科院提出FastSAM快速分割一切模型!比Meta原版提速50倍!

通过将分割⼀切任务重新划分为全实例分割和提⽰指导选择两个⼦任务,⽤带实例分割分⽀的常规 CNN 检测....
的头像 CVer 发表于 06-28 14:33 1369次阅读
中科院提出FastSAM快速分割一切模型!比Meta原版提速50倍!

谷歌教你用"注意力"提升产品体验

之前的模型大多利用手工制作的视觉线索特征,如颜色/亮度对比度、边缘和形状等,最近也有一些方法转向基于....
的头像 CVer 发表于 06-27 14:37 288次阅读
谷歌教你用"注意力"提升产品体验

论文插图也能自动生成了!用到了扩散模型,还被ICLR 2023接收!

然而生成图表也面临一些挑战,它需要表示框、箭头、文本等离散组件之间的复杂关系。与生成自然图像不同,论....
的头像 CVer 发表于 06-27 14:32 408次阅读
论文插图也能自动生成了!用到了扩散模型,还被ICLR 2023接收!

基于通用的模型PADing解决三大分割任务

1. 研究动机 图像分割旨在将具有不同语义的像素进行分类进而分组,例如类别或实例,近年来取得飞速的发....
的头像 CVer 发表于 06-26 10:39 387次阅读
基于通用的模型PADing解决三大分割任务

基于Transformer的大型语言模型(LLM)的内部机制

本文旨在更好地理解基于 Transformer 的大型语言模型(LLM)的内部机制,以提高它们的可靠....
的头像 CVer 发表于 06-25 15:08 1144次阅读
基于Transformer的大型语言模型(LLM)的内部机制

复旦和Meta提出Open-VCLIP:兼顾时序建模与开集识别的视频理解模型

本文提出了一种新的CLIP向视频领域的迁移方法,找到模型泛化和专用化之间的平衡,让模型既能识别微调时....
的头像 CVer 发表于 06-25 15:04 727次阅读
复旦和Meta提出Open-VCLIP:兼顾时序建模与开集识别的视频理解模型

NVIDIA拿下CVPR 2023 3D Occupancy预测第一名!

在传统的三维物体检测任务中,前景物体通常由三维边界框表示。然而,这种方法存在一些弊端,一方面,现实世....
的头像 CVer 发表于 06-21 14:04 848次阅读
NVIDIA拿下CVPR 2023 3D Occupancy预测第一名!

650亿参数,8块GPU就能全参数微调!邱锡鹏团队把大模型门槛打下来了!

在上周复旦大学邱锡鹏团队提交的论文《Full Parameter Fine-tuning for L....
的头像 CVer 发表于 06-21 14:00 721次阅读
650亿参数,8块GPU就能全参数微调!邱锡鹏团队把大模型门槛打下来了!

纯随机数学无限生成逼真3D世界火了!

尽管AI发展迅猛,但目前CV领域的许多任务仍然缺乏高质量的数据,3D尤甚。一个解决办法是用合成数据。....
的头像 CVer 发表于 06-20 14:47 293次阅读
纯随机数学无限生成逼真3D世界火了!

颜宁新论文突然上线Nature子刊:结构是AI无能为力的

这篇论文的通讯作者是结构生物学家颜宁,主要从事与疾病相关的重要膜转运蛋白、电压门控离子通道的结构与工....
的头像 CVer 发表于 06-19 16:08 435次阅读
颜宁新论文突然上线Nature子刊:结构是AI无能为力的

CVPR 2023最佳论文候选!真实高精3D物体数据集OmniObject3D

面向真实 3D 物体的感知、理解、重建与生成是计算机视觉领域一直倍受关注的问题,也在近年来取得了飞速....
的头像 CVer 发表于 06-19 15:30 1216次阅读
CVPR 2023最佳论文候选!真实高精3D物体数据集OmniObject3D

基于交互环境的生成式预训练和指令微调方法

引言 距离上次的长篇大论,已经过去了半年有余。这段时间,对于AI业界甚至整个世界,都是惊心动魄的。在....
的头像 CVer 发表于 06-19 11:44 543次阅读
基于交互环境的生成式预训练和指令微调方法

陶哲轩自曝用了"满血版"GPT-4:人类对信息技术的期待全部需要校准

我可以将最近的一篇数学预印本的前几页PDF输入GPT-4,让它生成半打有关该预印本的专家可能会提出的....
的头像 CVer 发表于 06-19 10:52 396次阅读
陶哲轩自曝用了"满血版"GPT-4:人类对信息技术的期待全部需要校准

一个通用的时空预测学习框架

本文介绍CVPR2023的中稿论文:Temporal Attention Unit: Towards....
的头像 CVer 发表于 06-19 10:27 1098次阅读
一个通用的时空预测学习框架

基于预训练模型和语言增强的零样本视觉学习

在一些非自然图像中要比传统模型表现更好 CoOp 增加一些 prompt 会让模型能力进一步提升 怎....
的头像 CVer 发表于 06-15 16:36 373次阅读
基于预训练模型和语言增强的零样本视觉学习

LeCun世界模型首个研究!自监督视觉像人一样学习和推理!

今日,Meta 推出了首个基于 LeCun 世界模型概念的 AI 模型。该模型名为图像联合嵌入预测架....
的头像 CVer 发表于 06-15 15:47 260次阅读
LeCun世界模型首个研究!自监督视觉像人一样学习和推理!

基于颜色感知背景的文档图像阴影去除

图2是模型的整体结构图,它包含颜色感知背景提取网络(Color-aware Background E....
的头像 CVer 发表于 06-12 14:20 774次阅读
基于颜色感知背景的文档图像阴影去除

李飞飞团队新作SiamMAE:孪生掩码自编码器,刷榜视觉自监督方法!

先随机采样两个视频帧,并进行非对称掩码操作;然后SiamMAE编码器网络对两个帧进行独立处理,最后使....
的头像 CVer 发表于 06-12 14:18 421次阅读
李飞飞团队新作SiamMAE:孪生掩码自编码器,刷榜视觉自监督方法!

基于一种移动端高性能 Stable Diffusion 模型

  Stable Diffusion (SD)是当前最热门的文本到图像(text to image)....
的头像 CVer 发表于 06-12 10:14 557次阅读
基于一种移动端高性能 Stable Diffusion 模型

Transformer在下一个token预测任务上的SGD训练动态

  【导读】 AI理论再进一步,破解ChatGPT指日可待? Transformer架构已经横扫了包....
的头像 CVer 发表于 06-12 10:11 614次阅读
Transformer在下一个token预测任务上的SGD训练动态

NUS&深大提出VisorGPT:为可控文本图像生成定制空间条件

本文将空间条件中物体的形状、位置以及它们之间的关系等性质总结为视觉先验(Visual Prior),....
的头像 CVer 发表于 06-11 10:34 248次阅读
NUS&深大提出VisorGPT:为可控文本图像生成定制空间条件

多模态新任务和新数据集!NTU提出广义引用分割问题GRES

RES在图形编辑、视频制作、人机交互和机器人等众多应用领域具有巨大潜力。目前,大多数现有方法都遵循在....
的头像 CVer 发表于 06-08 15:06 340次阅读
多模态新任务和新数据集!NTU提出广义引用分割问题GRES

开源了!UniControl:可控视觉生成的统一扩散模型

现有的可控图片生成模型都是针对单一的模态进行设计,然而 Taskonomy [3] 等工作证明不同的....
的头像 CVer 发表于 06-08 15:01 445次阅读
开源了!UniControl:可控视觉生成的统一扩散模型

微软提出Control-GPT:用GPT-4实现可控文本到图像生成!

该研究提出了一个简单而有效的框架 Control-GPT,它利用 LLM 的强大功能根据文本 pro....
的头像 CVer 发表于 06-05 15:31 566次阅读
微软提出Control-GPT:用GPT-4实现可控文本到图像生成!

阿里&华科大提出ONE-PEACE:更好的通用表征模型,刷新多个SOTA!

ImageBind算是跨出了重要的一步,但我之前文章提了我的个人观点,就是采用小规模其他模态和图像的....
的头像 CVer 发表于 06-02 17:26 610次阅读
阿里&华科大提出ONE-PEACE:更好的通用表征模型,刷新多个SOTA!

惊!大脑视觉信号被Stable Diffusion复现成视频!

从大脑活动中重建人类视觉任务,尤其是功能磁共振成像技术(fMRI)这种非侵入式方法,一直是受到学界较....
的头像 CVer 发表于 06-02 16:51 765次阅读
惊!大脑视觉信号被Stable Diffusion复现成视频!

LinK:用线性核实现3D激光雷达感知任务中的large kernel

前文中讨论了大卷积核下稀疏卷积的两大缺陷:开销大以及优化困难。我们首先采用神经网络模块 来在线生成权....
的头像 CVer 发表于 05-31 14:41 551次阅读
LinK:用线性核实现3D激光雷达感知任务中的large kernel