北京大学等提出HandTrackNet:点云序列中手物交互的位姿追踪与重建
除此之外,我们首次提出了一个基于点云的手部姿势跟踪网络,HandTrackNet,以追踪帧间手部关节....
如何度量知识蒸馏中不同数据增强方法的好坏?
知识蒸馏(knowledge distillation,KD)是一种通用神经网络训练方法,它使用大的....
LeCun和马库斯齐喷ChatGPT:大语言模型果然是邪路?
ChatGPT的出场,让一场久违的科技盛宴开席了。全世界的投资人都蠢蠢欲动。微软给OpenAI再投1....
开源模型OpenCLIP达成ImageNet里程碑成就!
LAION全称为Large-scale Artificial Intelligence Open N....
怎样让ChatGPT在其内部训练神经网络?
这里特地用{}偷偷告诉它在当前目录生成一个train.py,在里面用Python和Pytorch写一....
用ChatGPT处理Excel问题工作效率狂升
ChatGPT 自去年 11 月 30 日 OpenAI 重磅推出以来,这款 AI 聊天机器人迅速成....
一文梳理缺陷检测的深度学习和传统方法
但由于缺陷多种多样,传统的机器视觉算法很难做到对缺陷特征完整的建模和迁移,所以越来越多的学者和工程人....
利用视觉+语言数据增强视觉特征
传统的多模态预训练方法通常需要"大数据"+"大模型"的组合来同时学习视觉+语言的联合特征。但是关注如....
谷歌新作Dreamix:视频扩散模型是通用视频编辑器,效果惊艳!
可以看到,视频编辑比图像编辑更加具有挑战性,它需要合成新的动作,而不仅仅是修改视觉外观。此外还需要保....
英伟达耗费64个A100训练StyleGAN-T!
有趣的是,2014 年,由 Goodfellow 等人提出的生成对抗网络(GAN),在生成任务中并没....
SLaK:从稀疏性的角度将卷积核扩展到51×51
在现代计算机视觉任务中,通用视觉模型最早以深而 Kernel 小的 CNN 为主。自从 ViTs 出....
3D UX-Net:超强的医学图像分割新网络
整体来说,这些模型性能是越来越高,在几个主流的 3D 数据基准测试中也实现了大大小小的 SOTA,特....
YOLOv6 v3.0实时目标检测重磅升级
对检测器的Neck部件进行了翻新:引入BiC(Bi-directional Concatenatio....
NanoGPT,最简单最快的库来了!
作者补充道,代码并不难,很容易就能满足大家需求——无论是从头开始训练新模型,还是基于预训练进行微调(....
基于端到端可操作性学习的机器人操纵框架
最近,视觉可操作性(Visual Affordance)学习技术在提供以物体为中心的信息先验和有效的....
谷歌提出PaLI:一种多模态大模型,刷新多个任务SOTA!
PaLI 使用单独 “Image-and-text to text” 接口执行很多图像、语言以及 "....
新型的端到端弱监督篇幅级手写中文文本识别方法PageNet
PageNet与现有方法在MTHv2、SCUT-HCCDoc和JS-SCUT PrintCC数据集上....
视觉新范式!COCs:将图像视为点集
本文作者研究特征提取器 (Feature Extractor),但是视角不仅仅局限在 ConvNet....
一种显著降低Transformer计算量的轻量化方法
然而,transformer的原始公式在输入令牌(token)数量方面具有二次计算复杂度。鉴于这个数....
DALL-E和Flamingo能相互理解吗?
这就会带来一些同语义相关的有趣问题:对于给定的图像,哪种文本描述最准确地描述了图像?同样地,对于给定....
谷歌新作Muse:通过掩码生成Transformer进行文本到图像生成
与建立在级联像素空间(pixel-space)扩散模型上的 Imagen (Saharia et a....
阿里达摩院提出ABPN:高清人像美肤模型
其中为了实现皮肤区域的平滑,同时保留图像中的边缘,传统美颜算法首先使用保边滤波器(如双边滤波、导向滤....
腾讯优图/浙大/北大提出:重新思考高效神经模型的移动模块
近年来,随着对存储和计算资源受限的移动应用程序需求的增加,涌现了非常多参数少、FLOPs 低的轻量级....
LSTM之父最新长文:现代AI和深度学习发展史
实用AI地提出,最早可以追溯到1914年。当时Leonardo Torres y Quevedo构建....
基于分割后门训练过程的后门防御方法
后门攻击的目标是通过修改训练数据或者控制训练过程等方法使得模型预测正确干净样本,但是对于带有后门的样....
南开/南理工/旷视提出CTKD:动态温度超参蒸馏新方法
一直保持静态固定的温度超参对学生模型来说不是最优的。基于课程学习的思想,人类在学习过程中都是由简单到....
GMMSeg:生成式语义分割新范式!可同时处理闭集和开集识别
实验结果表明,GMMSeg 在多种分割网络架构 (segmentation architecture....
一张RTX 2080Ti搞定大模型训练!算力节省136倍!
在自然语言处理(NLP)领域,基于 Transformer 架构的预训练模型已经成为主流,并带来诸多....