搜索历史

清空

搜索热词

0

聊天消息
系统消息
评论与回复

查看更多

查看更多

查看更多

VIP于到期续费

登录后你可以

下载海量资料
学习在线课程
观看技术视频
写文章/发帖/加入社区

会员中心

创作中心

发布

创作活动

完善资料让更多小伙伴认识你，还能领取20积分哦，立即完善>

3天内不再提示

CVer

关注

文章：215 被阅读：25w 粉丝数：3 关注数：0 点赞数：1

北工大校友Cheng Zhang获SIGGRAPH最佳博士论文奖！

SIGGRAPH 博士论文奖设立于 2016 年，每年颁发给在计算机图形学和交互技术领域成功答辩并完....

的头像

CVer 发表于 07-04 10:55 •1024次阅读

北工大校友Cheng Zhang获SIGGRAPH最佳博士论文奖！

基于未知物体进行6D追踪和3D重建的方法

如今，计算机视觉社区已经广泛展开了对物体姿态的 6D 追踪和 3D 重建。本文中英伟达提出了同时对未....

的头像

CVer 发表于 07-03 11:24 •673次阅读

基于未知物体进行6D追踪和3D重建的方法

构建一个移动端友好的SAM方案MobileSAM

导读本文提出一种"解耦蒸馏"方案对SAM的ViT-H解码器进行蒸馏，同时所得轻量级编码器可与SAM....

的头像

CVer 发表于 06-30 10:59 •1383次阅读

构建一个移动端友好的SAM方案MobileSAM

DragGAN开源效果如何

动动鼠标，让图片变「活」，成为你想要的模样。在 AIGC 的神奇世界里，我们可以在图像上通过「拖曳....

的头像

CVer 发表于 06-30 10:57 •544次阅读

OpenOOD v1.5：更全面、更精确的分布外检测代码库及测试平台

对于训练好的图像分类器，能让其可靠地在开放世界中工作的一个关键能力便是检测未知的、分布外的（out-....

的头像

CVer 发表于 06-28 15:57 •915次阅读

OpenOOD v1.5：更全面、更精确的分布外检测代码库及测试平台

中科院提出FastSAM快速分割一切模型！比Meta原版提速50倍！

通过将分割⼀切任务重新划分为全实例分割和提⽰指导选择两个⼦任务，⽤带实例分割分⽀的常规 CNN 检测....

的头像

CVer 发表于 06-28 14:33 •1837次阅读

中科院提出FastSAM快速分割一切模型！比Meta原版提速50倍！

谷歌教你用"注意力"提升产品体验

之前的模型大多利用手工制作的视觉线索特征，如颜色/亮度对比度、边缘和形状等，最近也有一些方法转向基于....

的头像

CVer 发表于 06-27 14:37 •477次阅读

谷歌教你用"注意力"提升产品体验

论文插图也能自动生成了！用到了扩散模型，还被ICLR 2023接收！

然而生成图表也面临一些挑战，它需要表示框、箭头、文本等离散组件之间的复杂关系。与生成自然图像不同，论....

的头像

CVer 发表于 06-27 14:32 •631次阅读

论文插图也能自动生成了！用到了扩散模型，还被ICLR 2023接收！

基于通用的模型PADing解决三大分割任务

1. 研究动机图像分割旨在将具有不同语义的像素进行分类进而分组，例如类别或实例，近年来取得飞速的发....

的头像

CVer 发表于 06-26 10:39 •603次阅读

基于通用的模型PADing解决三大分割任务

基于Transformer的大型语言模型（LLM）的内部机制

本文旨在更好地理解基于 Transformer 的大型语言模型（LLM）的内部机制，以提高它们的可靠....

的头像

CVer 发表于 06-25 15:08 •1600次阅读

基于Transformer的大型语言模型（LLM）的内部机制

复旦和Meta提出Open-VCLIP：兼顾时序建模与开集识别的视频理解模型

本文提出了一种新的CLIP向视频领域的迁移方法，找到模型泛化和专用化之间的平衡，让模型既能识别微调时....

的头像

CVer 发表于 06-25 15:04 •1207次阅读

复旦和Meta提出Open-VCLIP：兼顾时序建模与开集识别的视频理解模型

NVIDIA拿下CVPR 2023 3D Occupancy预测第一名！

在传统的三维物体检测任务中，前景物体通常由三维边界框表示。然而，这种方法存在一些弊端，一方面，现实世....

的头像

CVer 发表于 06-21 14:04 •1025次阅读

NVIDIA拿下CVPR 2023 3D Occupancy预测第一名！

650亿参数，8块GPU就能全参数微调！邱锡鹏团队把大模型门槛打下来了！

在上周复旦大学邱锡鹏团队提交的论文《Full Parameter Fine-tuning for L....

的头像

CVer 发表于 06-21 14:00 •936次阅读

650亿参数，8块GPU就能全参数微调！邱锡鹏团队把大模型门槛打下来了！

纯随机数学无限生成逼真3D世界火了！

尽管AI发展迅猛，但目前CV领域的许多任务仍然缺乏高质量的数据，3D尤甚。一个解决办法是用合成数据。....

的头像

CVer 发表于 06-20 14:47 •446次阅读

纯随机数学无限生成逼真3D世界火了！

颜宁新论文突然上线Nature子刊：结构是AI无能为力的

这篇论文的通讯作者是结构生物学家颜宁，主要从事与疾病相关的重要膜转运蛋白、电压门控离子通道的结构与工....

的头像

CVer 发表于 06-19 16:08 •634次阅读

颜宁新论文突然上线Nature子刊：结构是AI无能为力的

CVPR 2023最佳论文候选！真实高精3D物体数据集OmniObject3D

面向真实 3D 物体的感知、理解、重建与生成是计算机视觉领域一直倍受关注的问题，也在近年来取得了飞速....

的头像

CVer 发表于 06-19 15:30 •1613次阅读

CVPR 2023最佳论文候选！真实高精3D物体数据集OmniObject3D

基于交互环境的生成式预训练和指令微调方法

引言距离上次的长篇大论，已经过去了半年有余。这段时间，对于AI业界甚至整个世界，都是惊心动魄的。在....

的头像

CVer 发表于 06-19 11:44 •736次阅读

基于交互环境的生成式预训练和指令微调方法

陶哲轩自曝用了"满血版"GPT-4：人类对信息技术的期待全部需要校准

我可以将最近的一篇数学预印本的前几页PDF输入GPT-4，让它生成半打有关该预印本的专家可能会提出的....

的头像

CVer 发表于 06-19 10:52 •545次阅读

陶哲轩自曝用了"满血版"GPT-4：人类对信息技术的期待全部需要校准

一个通用的时空预测学习框架

本文介绍CVPR2023的中稿论文：Temporal Attention Unit: Towards....

的头像

CVer 发表于 06-19 10:27 •1594次阅读

基于预训练模型和语言增强的零样本视觉学习

在一些非自然图像中要比传统模型表现更好 CoOp 增加一些 prompt 会让模型能力进一步提升怎....

的头像

CVer 发表于 06-15 16:36 •630次阅读

基于预训练模型和语言增强的零样本视觉学习

LeCun世界模型首个研究！自监督视觉像人一样学习和推理！

今日，Meta 推出了首个基于 LeCun 世界模型概念的 AI 模型。该模型名为图像联合嵌入预测架....

的头像

CVer 发表于 06-15 15:47 •414次阅读

LeCun世界模型首个研究！自监督视觉像人一样学习和推理！

基于颜色感知背景的文档图像阴影去除

图2是模型的整体结构图，它包含颜色感知背景提取网络(Color-aware Background E....

的头像

CVer 发表于 06-12 14:20 •1132次阅读

基于颜色感知背景的文档图像阴影去除

李飞飞团队新作SiamMAE：孪生掩码自编码器，刷榜视觉自监督方法！

先随机采样两个视频帧，并进行非对称掩码操作；然后SiamMAE编码器网络对两个帧进行独立处理，最后使....

的头像

CVer 发表于 06-12 14:18 •669次阅读

李飞飞团队新作SiamMAE：孪生掩码自编码器，刷榜视觉自监督方法！

基于一种移动端高性能 Stable Diffusion 模型

Stable Diffusion （SD）是当前最热门的文本到图像（text to image）....

的头像

CVer 发表于 06-12 10:14 •878次阅读

基于一种移动端高性能 Stable Diffusion 模型

Transformer在下一个token预测任务上的SGD训练动态

【导读】 AI理论再进一步，破解ChatGPT指日可待？ Transformer架构已经横扫了包....

的头像

CVer 发表于 06-12 10:11 •966次阅读

Transformer在下一个token预测任务上的SGD训练动态

NUS&深大提出VisorGPT：为可控文本图像生成定制空间条件

本文将空间条件中物体的形状、位置以及它们之间的关系等性质总结为视觉先验（Visual Prior），....

的头像

CVer 发表于 06-11 10:34 •407次阅读

NUS&深大提出VisorGPT：为可控文本图像生成定制空间条件

多模态新任务和新数据集！NTU提出广义引用分割问题GRES

RES在图形编辑、视频制作、人机交互和机器人等众多应用领域具有巨大潜力。目前，大多数现有方法都遵循在....

的头像

CVer 发表于 06-08 15:06 •527次阅读

多模态新任务和新数据集！NTU提出广义引用分割问题GRES

开源了！UniControl：可控视觉生成的统一扩散模型

现有的可控图片生成模型都是针对单一的模态进行设计，然而 Taskonomy [3] 等工作证明不同的....

的头像

CVer 发表于 06-08 15:01 •744次阅读

开源了！UniControl：可控视觉生成的统一扩散模型

微软提出Control-GPT：用GPT-4实现可控文本到图像生成！

该研究提出了一个简单而有效的框架 Control-GPT，它利用 LLM 的强大功能根据文本 pro....

的头像

CVer 发表于 06-05 15:31 •932次阅读

微软提出Control-GPT：用GPT-4实现可控文本到图像生成！

阿里&华科大提出ONE-PEACE：更好的通用表征模型，刷新多个SOTA！

ImageBind算是跨出了重要的一步，但我之前文章提了我的个人观点，就是采用小规模其他模态和图像的....

的头像

CVer 发表于 06-02 17:26 •1019次阅读

阿里&华科大提出ONE-PEACE：更好的通用表征模型，刷新多个SOTA！

上一页 1 2 345 6 7 8 下一页