0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

CVer

文章:213 被阅读:16.9w 粉丝数:2 关注数:0 点赞数:0

广告

清华朱军团队提出ProlificDreamer:直接文本生成高质量3D内容

将 Imagen 生成的照片(下图静态图)和 ProlificDreamer(基于 Stable-D....
的头像 CVer 发表于 05-29 10:02 700次阅读
清华朱军团队提出ProlificDreamer:直接文本生成高质量3D内容

华为诺亚提出VanillaNet:一种新视觉Backbone,极简且强大!

后来,Princeton大学的邓嘉团队提出了深度为12的网络并在ImageNet数据集上达到了80.....
的头像 CVer 发表于 05-26 16:13 2051次阅读
华为诺亚提出VanillaNet:一种新视觉Backbone,极简且强大!

在一个简单的Mean Teacher架构中双向复制粘贴标记和未标记的数据

为了缓解标注数据和未标注数据之间经验不匹配问题,一个成功的设计是鼓励未标注数据从标注数据中学习全面的....
的头像 CVer 发表于 05-25 16:49 1414次阅读
在一个简单的Mean Teacher架构中双向复制粘贴标记和未标记的数据

GPT-4推理提升1750%!清华姚班校友提出全新ToT框架

那么,这样一个简单的机制能否足以建立一个通向「解决通用问题的语言模型」?如果不是,哪些问题会挑战当前....
的头像 CVer 发表于 05-24 14:39 342次阅读
GPT-4推理提升1750%!清华姚班校友提出全新ToT框架

第一篇综述!分割一切模型(SAM)的全面调研

SAM 是一个提示型模型,其在 1100 万张图像上训练了超过 10 亿个掩码,实现了强大的零样本泛....
的头像 CVer 发表于 05-24 14:36 723次阅读
第一篇综述!分割一切模型(SAM)的全面调研

邱锡鹏团队提出SpeechGPT:具有内生跨模态能力的大语言模型

虽然现有的级联方法或口语语言模型能够感知和生成语音,但仍存在一些限制。首先,在级联模型中,LLM 仅....
的头像 CVer 发表于 05-22 10:19 485次阅读
邱锡鹏团队提出SpeechGPT:具有内生跨模态能力的大语言模型

特斯拉人形机器人集体出街!已与FSD算法打通

其核心是神经网络模型:通过对实时传感器(如相机、激光雷达等)获取的数据进行处理和分析,并从中提取有关....
的头像 CVer 发表于 05-18 14:35 675次阅读
特斯拉人形机器人集体出街!已与FSD算法打通

几乎涵盖了图神经网络所有操作

在计算机视觉的应用有根据提供的语义生成图像,如下图所示(引用)。输入是一张语义图,GNN通过对“ma....
的头像 CVer 发表于 05-17 14:20 502次阅读

目标跟踪新的建模方式

现在比较先进的目标跟踪方法采用了“分而治之”的策略,即将跟踪问题解耦成多个子任务,例如中心点预测、前....
的头像 CVer 发表于 05-16 16:00 664次阅读
目标跟踪新的建模方式

GPT-4拿下最难数学推理数据集新SOTA!新型Prompting让大模型推理能力狂升!

结果表明,GP-T-4+PHP 在多个数据集上取得了 SOTA 结果,包括 SVAMP (91.9%....
的头像 CVer 发表于 05-15 15:35 502次阅读
GPT-4拿下最难数学推理数据集新SOTA!新型Prompting让大模型推理能力狂升!

超越YOLOv8!YOLO-NAS:下一代目标检测基础模型

总而言之,YOLO-NAS达成目标检测任务新高度,取得了最佳的精度-延迟均衡。值得一提,YOLO-N....
的头像 CVer 发表于 05-15 15:31 1477次阅读
超越YOLOv8!YOLO-NAS:下一代目标检测基础模型

ImageBind:跨模态之王,将6种模态全部绑定!

最近,很多方法学习与文本、音频等对齐的图像特征。这些方法使用单对模态或者最多几种视觉模态。最终嵌入仅....
的头像 CVer 发表于 05-11 09:30 783次阅读
ImageBind:跨模态之王,将6种模态全部绑定!

一文看尽SLAM创新点的前世今生

很多同学都觉得Slam方向难以入门,也难以学深。但其实相对来讲,不像其他很多方向,很多的东西大家都已....
的头像 CVer 发表于 05-09 14:25 743次阅读
一文看尽SLAM创新点的前世今生

SAM-Adapter:首次让SAM在下游任务适应调优!

在这些基础模型中,Segment Anything Model(SAM)作为一个在大型视觉语料库上训....
的头像 CVer 发表于 04-20 10:13 1258次阅读

从BLIP-2到SAM视觉语义金字塔+ChatGPT

怎么把图片表示成高质量文本一直是个热门的问题。传统的思路Show,and Tell 等 Image ....
的头像 CVer 发表于 04-17 11:03 1970次阅读

马斯克离开OpenAI内幕:大权独揽想法被拒

OpenAI 于 2015 年成立,起初是一家非营利组织,得到了马斯克和里德・霍夫曼(Reid Ho....
的头像 CVer 发表于 04-11 14:16 801次阅读

港中大IDEA开源首个大规模全场景人体数据集Human-Art

然而,现有的计算机视觉任务、训练的数据集等大多只关注到了真实世界的照片,这导致相关模型在更丰富的场景....
的头像 CVer 发表于 04-11 14:13 730次阅读

StrucTexTv2:端到端文档图像理解预训练框架

视觉富文档理解技术例如文档分类、版式分析、表单理解、OCR以及信息提取,逐渐成为文档智能领域一个热门....
的头像 CVer 发表于 04-10 11:29 2190次阅读

清华&美团提出稀疏Pairwise损失函数!ReID任务超已有损失函数!

ReID任务中的由于光照变化、视角改变和遮挡等原因会造成同一类中不同实例的视觉相似度很低(如图2所示....
的头像 CVer 发表于 04-09 10:18 1053次阅读

这款编译器能让Python和C++一样快!

麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员希望通过 Codon 来改变这一现状,....
的头像 CVer 发表于 04-04 14:21 573次阅读

大型语言模型综述全新出炉!从T5到GPT-4最全盘点

LLM 的涌现能力被正式定义为「在小型模型中不存在但在大型模型中出现的能力」,这是 LLM 与以前的....
的头像 CVer 发表于 04-04 14:16 930次阅读

GPT-4的研究路径没有前途?

这场辩论的主题为「Do large language models need sensory gro....
的头像 CVer 发表于 03-29 11:27 708次阅读

DepGraph:任意架构的结构化剪枝,CNN、Transformer、GNN等都适用!

结构化剪枝是一种重要的模型压缩算法,它通过移除神经网络中冗余的结构来减少参数量,从而降低模型推理的时....
的头像 CVer 发表于 03-29 11:23 3402次阅读

Meta提出Make-A-Video3D:一行文本,生成3D动态场景!

具体而言,该方法运用 4D 动态神经辐射场(NeRF),通过查询基于文本到视频(T2V)扩散的模型,....
的头像 CVer 发表于 03-24 10:47 778次阅读

LERF:当CLIP遇见NeRF!让自然语言与3D场景交互更直观

但自然语言不同,自然语言与 3D 场景交互非常直观。我们可以用图 1 中的厨房场景来解释,通过询问餐....
的头像 CVer 发表于 03-24 10:45 862次阅读

基于扩散模型的视频合成新模型,加特效杠杠的!

近日,曾参与创建 Stable Diffusion 的 Runway 公司推出了一个新的人工智能模型....
的头像 CVer 发表于 03-24 10:43 847次阅读

大脑视觉信号被Stable Diffusion复现成图像!

这项研究声称,只需用fMRI(功能磁共振成像技术,相比sMRI更关注功能性信息,如脑皮层激活情况等)....
的头像 CVer 发表于 03-06 10:56 1553次阅读

ChatGPT正式上线对搜索引擎有什么影响

国内外两家搜索巨头急速冲刺,现在却还是投资了OpenAI的微软更快一步。倒也不奇怪,毕竟这种“搜索大....
的头像 CVer 发表于 03-03 15:21 1152次阅读

北京大学等提出HandTrackNet:点云序列中手物交互的位姿追踪与重建

除此之外,我们首次提出了一个基于点云的手部姿势跟踪网络,HandTrackNet,以追踪帧间手部关节....
的头像 CVer 发表于 03-02 13:52 671次阅读

如何度量知识蒸馏中不同数据增强方法的好坏?

知识蒸馏(knowledge distillation,KD)是一种通用神经网络训练方法,它使用大的....
的头像 CVer 发表于 02-25 15:41 652次阅读