CVer-电子说-电子发烧友网

北京大学等提出HandTrackNet：点云序列中手物交互的位姿追踪与重建

除此之外，我们首次提出了一个基于点云的手部姿势跟踪网络，HandTrackNet，以追踪帧间手部关节....

CVer 发表于 03-02 13:52 •1008次阅读

如何度量知识蒸馏中不同数据增强方法的好坏？

知识蒸馏（knowledge distillation，KD）是一种通用神经网络训练方法，它使用大的....

CVer 发表于 02-25 15:41 •1017次阅读

LeCun和马库斯齐喷ChatGPT：大语言模型果然是邪路？

ChatGPT的出场，让一场久违的科技盛宴开席了。全世界的投资人都蠢蠢欲动。微软给OpenAI再投1....

CVer 发表于 02-16 09:24 •971次阅读

开源模型OpenCLIP达成ImageNet里程碑成就！

LAION全称为Large-scale Artificial Intelligence Open N....

CVer 发表于 02-15 09:50 •1337次阅读

怎样让ChatGPT在其内部训练神经网络？

这里特地用{}偷偷告诉它在当前目录生成一个train.py，在里面用Python和Pytorch写一....

CVer 发表于 02-13 16:04 •1571次阅读

用ChatGPT处理Excel问题工作效率狂升

ChatGPT 自去年 11 月 30 日 OpenAI 重磅推出以来，这款 AI 聊天机器人迅速成....

CVer 发表于 02-13 15:43 •2018次阅读

一文梳理缺陷检测的深度学习和传统方法

但由于缺陷多种多样，传统的机器视觉算法很难做到对缺陷特征完整的建模和迁移，所以越来越多的学者和工程人....

CVer 发表于 02-13 15:39 •1344次阅读

利用视觉+语言数据增强视觉特征

传统的多模态预训练方法通常需要"大数据"+"大模型"的组合来同时学习视觉+语言的联合特征。但是关注如....

CVer 发表于 02-13 13:44 •1123次阅读

谷歌新作Dreamix：视频扩散模型是通用视频编辑器，效果惊艳！

可以看到，视频编辑比图像编辑更加具有挑战性，它需要合成新的动作，而不仅仅是修改视觉外观。此外还需要保....

CVer 发表于 02-09 11:21 •1620次阅读

英伟达耗费64个A100训练StyleGAN-T！

有趣的是，2014 年，由 Goodfellow 等人提出的生成对抗网络（GAN），在生成任务中并没....

CVer 发表于 02-07 11:50 •1111次阅读

ChatGPT到底有多会修bug？

虽然ChatGPT并非是为了专门修改bug而生，但自打它问世以来，不少网友们都发现它是具备这项能力的....

CVer 发表于 02-06 10:36 •2026次阅读

SLaK：从稀疏性的角度将卷积核扩展到51×51

在现代计算机视觉任务中，通用视觉模型最早以深而 Kernel 小的 CNN 为主。自从 ViTs 出....

CVer 发表于 02-03 16:28 •1441次阅读

3D UX-Net：超强的医学图像分割新网络

整体来说，这些模型性能是越来越高，在几个主流的 3D 数据基准测试中也实现了大大小小的 SOTA，特....

CVer 发表于 02-01 15:57 •2475次阅读

YOLOv6 v3.0实时目标检测重磅升级

对检测器的Neck部件进行了翻新：引入BiC(Bi-directional Concatenatio....

CVer 发表于 01-30 17:09 •1160次阅读

DALL-E和生成式AI的未来

OpenAI 研究员、DALL-E 的发明者和 DALL-E 2 的联合开发者 Aditya Ram....

CVer 发表于 01-30 15:47 •766次阅读

NanoGPT，最简单最快的库来了！

作者补充道，代码并不难，很容易就能满足大家需求——无论是从头开始训练新模型，还是基于预训练进行微调（....

CVer 发表于 01-30 11:49 •2534次阅读

基于端到端可操作性学习的机器人操纵框架

最近，视觉可操作性（Visual Affordance）学习技术在提供以物体为中心的信息先验和有效的....

CVer 发表于 01-30 09:55 •1309次阅读

谷歌提出PaLI：一种多模态大模型，刷新多个任务SOTA！

PaLI 使用单独 “Image-and-text to text” 接口执行很多图像、语言以及 "....

CVer 发表于 01-29 11:25 •1610次阅读

新型的端到端弱监督篇幅级手写中文文本识别方法PageNet

PageNet与现有方法在MTHv2、SCUT-HCCDoc和JS-SCUT PrintCC数据集上....

CVer 发表于 01-12 14:12 •2238次阅读

视觉新范式！COCs：将图像视为点集

本文作者研究特征提取器 (Feature Extractor)，但是视角不仅仅局限在 ConvNet....

CVer 发表于 01-11 14:31 •939次阅读

一种显著降低Transformer计算量的轻量化方法

然而，transformer的原始公式在输入令牌（token）数量方面具有二次计算复杂度。鉴于这个数....

CVer 发表于 01-10 14:12 •1454次阅读

DALL-E和Flamingo能相互理解吗？

这就会带来一些同语义相关的有趣问题：对于给定的图像，哪种文本描述最准确地描述了图像？同样地，对于给定....

CVer 发表于 01-09 15:46 •512次阅读

谷歌新作Muse：通过掩码生成Transformer进行文本到图像生成

与建立在级联像素空间（pixel-space）扩散模型上的 Imagen (Saharia et a....

CVer 发表于 01-09 10:16 •1034次阅读

阿里达摩院提出ABPN：高清人像美肤模型

其中为了实现皮肤区域的平滑，同时保留图像中的边缘，传统美颜算法首先使用保边滤波器（如双边滤波、导向滤....

CVer 发表于 01-08 09:23 •730次阅读

腾讯优图/浙大/北大提出：重新思考高效神经模型的移动模块

近年来，随着对存储和计算资源受限的移动应用程序需求的增加，涌现了非常多参数少、FLOPs 低的轻量级....

CVer 发表于 01-08 09:16 •930次阅读

LSTM之父最新长文：现代AI和深度学习发展史

实用AI地提出，最早可以追溯到1914年。当时Leonardo Torres y Quevedo构建....

CVer 发表于 01-05 09:44 •804次阅读

基于分割后门训练过程的后门防御方法

后门攻击的目标是通过修改训练数据或者控制训练过程等方法使得模型预测正确干净样本，但是对于带有后门的样....

CVer 发表于 01-05 09:23 •997次阅读

南开/南理工/旷视提出CTKD：动态温度超参蒸馏新方法

一直保持静态固定的温度超参对学生模型来说不是最优的。基于课程学习的思想，人类在学习过程中都是由简单到....

CVer 发表于 01-04 14:49 •923次阅读

GMMSeg：生成式语义分割新范式！可同时处理闭集和开集识别

实验结果表明，GMMSeg 在多种分割网络架构 (segmentation architecture....

CVer 发表于 01-04 10:17 •1308次阅读

一张RTX 2080Ti搞定大模型训练！算力节省136倍！

在自然语言处理（NLP）领域，基于 Transformer 架构的预训练模型已经成为主流，并带来诸多....

CVer 发表于 01-03 11:12 •1512次阅读

搜索历史

CVer