CVer-电子说-电子发烧友网

惊！大脑视觉信号被Stable Diffusion复现成视频！

从大脑活动中重建人类视觉任务，尤其是功能磁共振成像技术（fMRI）这种非侵入式方法，一直是受到学界较....

CVer 发表于 06-02 16:51 •1041次阅读

LinK：用线性核实现3D激光雷达感知任务中的large kernel

前文中讨论了大卷积核下稀疏卷积的两大缺陷：开销大以及优化困难。我们首先采用神经网络模块来在线生成权....

CVer 发表于 05-31 14:41 •767次阅读

清华朱军团队提出ProlificDreamer：直接文本生成高质量3D内容

将 Imagen 生成的照片（下图静态图）和 ProlificDreamer（基于 Stable-D....

CVer 发表于 05-29 10:02 •999次阅读

华为诺亚提出VanillaNet：一种新视觉Backbone，极简且强大！

后来，Princeton大学的邓嘉团队提出了深度为12的网络并在ImageNet数据集上达到了80.....

CVer 发表于 05-26 16:13 •2488次阅读

在一个简单的Mean Teacher架构中双向复制粘贴标记和未标记的数据

为了缓解标注数据和未标注数据之间经验不匹配问题，一个成功的设计是鼓励未标注数据从标注数据中学习全面的....

CVer 发表于 05-25 16:49 •2111次阅读

GPT-4推理提升1750%！清华姚班校友提出全新ToT框架

那么，这样一个简单的机制能否足以建立一个通向「解决通用问题的语言模型」？如果不是，哪些问题会挑战当前....

CVer 发表于 05-24 14:39 •450次阅读

第一篇综述！分割一切模型(SAM)的全面调研

SAM 是一个提示型模型，其在 1100 万张图像上训练了超过 10 亿个掩码，实现了强大的零样本泛....

CVer 发表于 05-24 14:36 •1141次阅读

邱锡鹏团队提出SpeechGPT：具有内生跨模态能力的大语言模型

虽然现有的级联方法或口语语言模型能够感知和生成语音，但仍存在一些限制。首先，在级联模型中，LLM 仅....

CVer 发表于 05-22 10:19 •765次阅读

特斯拉人形机器人集体出街！已与FSD算法打通

其核心是神经网络模型：通过对实时传感器（如相机、激光雷达等）获取的数据进行处理和分析，并从中提取有关....

CVer 发表于 05-18 14:35 •844次阅读

几乎涵盖了图神经网络所有操作

在计算机视觉的应用有根据提供的语义生成图像，如下图所示（引用）。输入是一张语义图，GNN通过对“ma....

CVer 发表于 05-17 14:20 •650次阅读

目标跟踪新的建模方式

现在比较先进的目标跟踪方法采用了“分而治之”的策略，即将跟踪问题解耦成多个子任务，例如中心点预测、前....

CVer 发表于 05-16 16:00 •954次阅读

GPT-4拿下最难数学推理数据集新SOTA！新型Prompting让大模型推理能力狂升！

结果表明，GP-T-4+PHP 在多个数据集上取得了 SOTA 结果，包括 SVAMP (91.9%....

CVer 发表于 05-15 15:35 •787次阅读

GPT-4拿下最难数学推理数据集新SOTA！新型Prompting让大模型推理能力狂升！

超越YOLOv8！YOLO-NAS：下一代目标检测基础模型

总而言之，YOLO-NAS达成目标检测任务新高度，取得了最佳的精度-延迟均衡。值得一提，YOLO-N....

CVer 发表于 05-15 15:31 •2054次阅读

ImageBind：跨模态之王，将6种模态全部绑定！

最近，很多方法学习与文本、音频等对齐的图像特征。这些方法使用单对模态或者最多几种视觉模态。最终嵌入仅....

CVer 发表于 05-11 09:30 •1176次阅读

一文看尽SLAM创新点的前世今生

很多同学都觉得Slam方向难以入门，也难以学深。但其实相对来讲，不像其他很多方向，很多的东西大家都已....

CVer 发表于 05-09 14:25 •1029次阅读

SAM-Adapter：首次让SAM在下游任务适应调优！

在这些基础模型中，Segment Anything Model（SAM）作为一个在大型视觉语料库上训....

CVer 发表于 04-20 10:13 •1717次阅读

从BLIP-2到SAM视觉语义金字塔+ChatGPT

怎么把图片表示成高质量文本一直是个热门的问题。传统的思路Show，and Tell 等 Image ....

CVer 发表于 04-17 11:03 •2184次阅读

马斯克离开OpenAI内幕：大权独揽想法被拒

OpenAI 于 2015 年成立，起初是一家非营利组织，得到了马斯克和里德・霍夫曼（Reid Ho....

CVer 发表于 04-11 14:16 •972次阅读

港中大IDEA开源首个大规模全场景人体数据集Human-Art

然而，现有的计算机视觉任务、训练的数据集等大多只关注到了真实世界的照片，这导致相关模型在更丰富的场景....

CVer 发表于 04-11 14:13 •1030次阅读

StrucTexTv2：端到端文档图像理解预训练框架

视觉富文档理解技术例如文档分类、版式分析、表单理解、OCR以及信息提取，逐渐成为文档智能领域一个热门....

CVer 发表于 04-10 11:29 •2551次阅读

清华&美团提出稀疏Pairwise损失函数！ReID任务超已有损失函数！

ReID任务中的由于光照变化、视角改变和遮挡等原因会造成同一类中不同实例的视觉相似度很低（如图2所示....

CVer 发表于 04-09 10:18 •1706次阅读

这款编译器能让Python和C++一样快！

麻省理工学院计算机科学与人工智能实验室（CSAIL）的研究人员希望通过 Codon 来改变这一现状，....

CVer 发表于 04-04 14:21 •794次阅读

大型语言模型综述全新出炉！从T5到GPT-4最全盘点

LLM 的涌现能力被正式定义为「在小型模型中不存在但在大型模型中出现的能力」，这是 LLM 与以前的....

CVer 发表于 04-04 14:16 •1151次阅读

GPT-4的研究路径没有前途？

这场辩论的主题为「Do large language models need sensory gro....

CVer 发表于 03-29 11:27 •897次阅读

DepGraph：任意架构的结构化剪枝，CNN、Transformer、GNN等都适用！

结构化剪枝是一种重要的模型压缩算法，它通过移除神经网络中冗余的结构来减少参数量，从而降低模型推理的时....

CVer 发表于 03-29 11:23 •4562次阅读

Meta提出Make-A-Video3D：一行文本，生成3D动态场景！

具体而言，该方法运用 4D 动态神经辐射场（NeRF），通过查询基于文本到视频（T2V）扩散的模型，....

CVer 发表于 03-24 10:47 •1131次阅读

LERF：当CLIP遇见NeRF！让自然语言与3D场景交互更直观

但自然语言不同，自然语言与 3D 场景交互非常直观。我们可以用图 1 中的厨房场景来解释，通过询问餐....

CVer 发表于 03-24 10:45 •1180次阅读

基于扩散模型的视频合成新模型，加特效杠杠的！

近日，曾参与创建 Stable Diffusion 的 Runway 公司推出了一个新的人工智能模型....

CVer 发表于 03-24 10:43 •1174次阅读

大脑视觉信号被Stable Diffusion复现成图像！

这项研究声称，只需用fMRI（功能磁共振成像技术，相比sMRI更关注功能性信息，如脑皮层激活情况等）....

CVer 发表于 03-06 10:56 •1795次阅读

ChatGPT正式上线对搜索引擎有什么影响

国内外两家搜索巨头急速冲刺，现在却还是投资了OpenAI的微软更快一步。倒也不奇怪，毕竟这种“搜索大....

CVer 发表于 03-03 15:21 •1378次阅读

搜索历史

CVer