0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

CVPR 2018 上10篇最酷论文,渴望进步的人都在看

8g3K_AI_Thinker 来源:电子发烧友网 作者:工程师谭军 2018-07-09 09:07 次阅读

▌前言

作为计算机视觉领域的顶级会议,2018年的计算机视觉和模式识别会议(CVPR) 上周在美国盐湖城举行。今年的 CVPR共收到3300份来稿并接收了其中的979份。超过6500人参加了今年的会议,这间容纳6500人的房间座无虚席,堪称是一届史诗般的盛会:

每年的 CVPR都会吸引众多优秀的人才和他们最新的研究成果,总可以看到学到新的东西。当然还有那些发表了最新并具有突破性成果的论文,为该领域带来很棒的新知识。这些论文经常在计算机视觉的许多子领域形成最新的技术。

最近,我们看到了一些开箱即用且富有创意的论文!随着最近深度学习在计算机视觉领域的突破性进展,我们仍然在探索并发现一切未知的可能性。许多论文展示了深度神经网络在计算机视觉领域中的全新应用。它们可能不是最根本的开创性作品,但就它们从新颖有趣的角度呈现出全新的想法,为相关领域提供了创造性和启发性的视角。总而言之,这些都是非常酷的作品!

在这里,我将展示我认为在本届 CVPR上最酷的10篇论文。我们将看到最近使用深度网络实现的一些新应用,以及如何进一步使用它们。你可以在阅读过程中根据自己的喜好选择性地进行阅读。让我们开始吧!

▌Training Deep Networks with Synthetic Data: Bridging the Reality Gap by Domain Randomization(用合成数据训练深度网络:通过领域随机化来弥合现实差距)

这篇论文出自Nvidia团队的研究,使用合成数据来训练卷积神经网络(CNN)。 他们为虚幻引擎(Unreal Engine 4) 创建了一个插件用于生成合成的训练数据。这项研究的关键在于他们对训练数据进行了随机化,使其能够包含多种变量,包括:

目标的数量和类型

干扰物的数量,类型,颜色和尺度

感兴趣物体的纹理特征及图片的背景

虚拟摄像机相对于场景的位置

相机相对于场景的角度

光点的数量和位置

他们展示了一些非常有前途的实验结果,证明了合成数据预训练的有效性,这是先前研究从未实现过的结果。如果你之前并不了解这个重要知识的话,那么这项研究将会启发你如何生成并使用合成数据。

▌WESPE: Weakly Supervised Photo Enhancer for Digital Cameras(WESPE:用于数码相机的弱监督照片增强器)

这项研究通过训练生成对抗网络(GAN) 来从美学上自动化增强图片。该研究最酷的地方在于以一种弱监督的方式:你不需要输入-输出的图像对。训练网络时,你只需要一组“好看”的图像(用于输出基础事实) 和一组想要增强的“不好看”的图像(用于输入图像)。然后,通过训练GAN产生输入图像的增强版本,通常所生成的图像会极大地增强原图像的颜色和对比度。

由于不需要精确的图像对,因而你能够快捷方便地使用这个图像增强器。我喜欢这项研究的原因主要是因为它是一种弱监督的方法。虽然我们离无监督学习似乎还很遥远,但对计算机视觉的许多子领域而言,弱监督学习似乎是一个充满希望且值得研究的方向。

▌Efficient Interactive Annotation of Segmentation Datasets with Polygon-RNN++(用Polygon-RNN ++对图像分割数据集进行高效地交互式标注)

深度神经网络之所以能够表现出如此强大性能的主要原因之一是大型且完全带标注的可用的数据集。然而,对于许多计算机视觉任务而言,这样的数据既费时又昂贵。特别对于图像分割任务而言,我们需要对图像中的每个像素进行类别标注,你可以想象其中的困难性有多大!

Polygon-RNN ++这项研究允许研究者只需在图像中每个目标周围设置粗糙的多边形点,然后该网络能够自动生成图像分割所需的标注信息!本文研究表明这种方法能够在实际应用中很好地推广,并可以用来为分段任务创建快速简便的数据标注!

▌Creating Capsule Wardrobes from Fashion Images

(从时尚配图中创造自己的衣柜)

“嗯,我今天应该穿什么?”如果有人能够每天早上为你解决这个问题,那将再好不过了。

本文研究中,作者设计了一种模型,基于给定的候选服装和配件清单,模型通过收集一组最小的项目集,提供最全面的服装混合搭配的方案。研究中模型使用目标函数进行训练,这些目标函数旨在捕获视觉兼容性,多功能性及特定用户的偏好等关键要素。有了这种衣柜 (Capsule Wardrobes),你可以轻松从衣橱中挑选最佳的服装搭配。

▌Super SloMo: High Quality Estimation of Multiple Intermediate Frames for Video Interpolation (Super SloMo:视频插值中多个中间帧的高质量估计)

你曾经是否想过以超慢的动作拍摄超级酷炫的东西呢?Nvdia的这项研究 Super SloMo就能帮你实现!研究中他们使用 CNN估计视频的中间帧,并能将标准的30fps视频转换为240fps的慢动作!该模型估计视频中间帧之间的光流信息,并在这些信息中间插入视频帧,使慢动作的视频看起来也能清晰锐利。

▌Who Let The Dogs Out? Modeling Dog Behavior From Visual Data(用视觉数据构建狗的行为模型)

这可能是有史以来最酷的研究论文!这项研究的想法是试图模拟狗的思想和行为。研究人员将许多传感器连接到狗的四肢以收集其运动和行为数据;。此外,他们还在狗的头部安装一个摄像头,以便从狗的视角获取相应的运动信息。然后,将一组CNN特征提取器用于从视频帧获取图像特征,并将其与传感器数据一起传递给一组LSTM模型,以便学习并预测狗的动作和行为。这是一项非常新颖而富有创造性的应用研究,其整体的任务框架及独特的执行方式都是本文的亮点!希望这项研究能够为我们未来收集数据和应用深度学习技术的方式带来更多的创造力。

▌Learning to Segment Every Thing(学习分割一切)

在过去的几年里,何凯明团队 (以前在微软研究院,现就职于 Facebook AI Research) 提出了许多重大的计算机视觉研究成果。他们的研究最棒之处在于将创造力和简单性相结合,诸如将 ResNets和Mask R-CNN相结合的研究,这些都不是最疯狂或最复杂的研究思路,但是它们简单易行,并在实践中非常有效。

该团队最新的研究 Learning to Segment Every Thing是 Mask R-CNN研究的扩展,它使模型准确地分割训练期间未出现的类别目标!这对于获取快速且廉价的分割数据标注是非常有用的。事实上,该研究能够获得一些未知目标的基准分割效果(baseline segment),这对于在自然条件中部署这样的分割模型来说是至关重要的,因为在这样的环境下可能存在许多未知的目标。总的来说,这绝对是我们思考如何充分利用深层神经网络模型的正确方向。

▌Soccer on Your Tabletop(桌上足球)

本文的研究是在FIFA世界杯开幕时正式发表的,理应获得最佳时机奖!这的确是CVPR上在计算机视觉领域的“更酷”应用之一。简而言之,作者训练了一个模型,在给定足球比赛视频的情况下,该模型能够输出相应视频的动态3D重建,这意味着你可以利用增强现实技术在任何地方查看它!

本文最大的亮点是结合使用许多不同类型的信息。使用视频比赛数据训练网络,从而相当容易地提取3D网格信息。在测试时,提取运动员的边界框,姿势及跨越多个帧的运动轨迹以便分割运动员。接着你可以轻松地将这些3D片段投射到任何平面上。在这种情况下,你可以通过制作虚拟的足球场,以便在 AR条件下观看的足球比赛!在我看来,这是一种使用合成数据进行训练的方法。无论如何它都是一个有趣的应用程序!

▌LayoutNet: Reconstructing the 3D Room Layout from a Single RGBImage(LayoutNet:从单个RGB图像重建3D房间布局)

这是一个计算机视觉的应用程序,我们可能曾经想过:使用相机拍摄某些东西,然后用数字3D技术重建它。这也正是本文研究的目的,特别是重建 3D房间布局。研究人员使用全景图像作为网络的输入,以获得房间的完整视图。网络的输出是3D重建后的房间布局,具有相当高的准确性!该模型足够强大,可以推广到不同形状、包含许多不同家具的房间。这是一个有趣而好玩、又不需要投入太多研究人员就能实现的应用程序。

▌Learning Transferable Architectures for Scalable Image Recognition (学习可迁移的结构用于可扩展的图像识别任务)

最后要介绍的是一项许多人都认为是深度学习未来的研究:神经架构搜索(NAS)。NAS背后的基本思想是我们可以使用另一个网络来“搜索”最佳的模型结构,而不需要手动地设计网络结构。结构搜索过程是基于奖励函数进行的,通过奖励模型以使其在验证数据集上有良好的表现。此外,作者在论文中表明,这种模型结构比起手动设计的模型能够获得更高的精度。这将是未来巨大的研究方向,特别是对于设计特定的应用程序而言。因为我们真正关注的是设计好的NAS算法,而不是为我们特定的应用设计特定的网络。精心设计的NAS算法将足够灵活,并能够为任何任务找到良好的网络结构。

▌结束语

希望你能从中学到一些新的、有用的东西,甚至能够为你自己的研究与工作找到一些新的想法!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 3D
    3D
    +关注

    关注

    9

    文章

    2894

    浏览量

    107654
  • 深度学习
    +关注

    关注

    73

    文章

    5507

    浏览量

    121291
  • cnn
    cnn
    +关注

    关注

    3

    文章

    353

    浏览量

    22250

原文标题:CVPR 2018 上10篇最酷论文,圈儿里最Cool的人都在看

文章出处:【微信号:AI_Thinker,微信公众号:人工智能头条】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    进步电机实验

    进步电机实验
    发表于 12-10 15:26 0次下载

    ADS1255无论输入的电压是多少伏,ADC采集到的数据,基本低16位都在波动,为什么?

    硬件使用的是AIN0/AIN1,PGA没有放大,无论输入的电压是多少伏,ADC采集到的数据,基本低16位都在波动,这个是不是程序哪里设置不对啊
    发表于 12-09 06:15

    在macOS Sierra安装Pro Tools 10

    在 macOS Sierra 安装 Pro Tools 10 
    发表于 11-25 14:48 0次下载

    NVIDIA Research在ECCV 2024展示多项创新成果

    在米兰举行的欧洲计算机视觉国际会议 (ECCV) ,NVIDIA Research 展示了多项突破性的创新成果,共发表了 14 论文
    的头像 发表于 11-19 15:07 328次阅读

    TLV3254能不能收听到半径8到10的人说话的声音?

    能不能收听到半径8到10的人说话的声音,信噪比实在太低了,远处的听不清,增益缩小了又听不到的远处的声音?
    发表于 10-24 06:34

    TPS7A63xx-Q1配置可在看门狗时实现长复位脉冲宽度

    电子发烧友网站提供《TPS7A63xx-Q1配置可在看门狗时实现长复位脉冲宽度.pdf》资料免费下载
    发表于 10-09 14:29 0次下载
    TPS7A63xx-Q1配置可<b class='flag-5'>在看</b>门狗时实现长复位脉冲宽度

    苹果承认使用谷歌芯片来训练AI

    苹果公司最近在一技术论文中披露,其先进的人工智能系统Apple Intelligence背后的两个关键AI模型,是在谷歌设计的云端芯片完成预训练的。这一消息标志着在尖端AI训练领域
    的头像 发表于 07-30 17:03 748次阅读

    地平线科研论文入选国际计算机视觉顶会ECCV 2024

    近日,地平线两论文入选国际计算机视觉顶会ECCV 2024,自动驾驶算法技术再有新突破。
    的头像 发表于 07-27 11:10 942次阅读
    地平线科研<b class='flag-5'>论文</b>入选国际计算机视觉顶会ECCV 2024

    芯动力科技论文入选ISCA 2024,与国际巨头同台交流研究成果

    布宜诺斯艾利斯举行的ISCA 2024会议发表演讲,与Intel、AMD等国际知名企业同台交流。 本届ISCA共收到来自全球423高质量论文投稿,经过严谨的评审流程
    的头像 发表于 07-18 11:16 589次阅读
    芯动力科技<b class='flag-5'>论文</b>入选ISCA 2024,与国际巨头同台交流研究成果

    谷歌DeepMind被曝抄袭开源成果,论文还中了顶流会议

    谷歌DeepMind一中了顶流新生代会议CoLM 2024的论文被挂了,瓜主直指其抄袭了一年前就挂在arXiv的一项研究。开源的那种。
    的头像 发表于 07-16 18:29 608次阅读
    谷歌DeepMind被曝抄袭开源成果,<b class='flag-5'>论文</b>还中了顶流会议

    OpenCV携Orbbec 3D相机亮相CVPR 2024,加速AI视觉创新

    在科技发展的浪潮中,一年一度的IEEE国际计算机视觉与模式识别会议(CVPR)无疑是视觉技术领域的一大盛事。今年的CVPR 2024于6月17日至21日在美国西雅图盛大举行,吸引了全球超过1.2万名参会者,这一数字打破了历史记录,让此次盛会成为了“史上最火爆的
    的头像 发表于 06-21 10:15 641次阅读

    OpenCV携奥比中光3D相机亮相CVPR 2024

    6月17日-21日,奥比中光合作伙伴OpenCV携Orbbec 3D相机参展在美国西雅图举办的CVPR 2024(即IEEE国际计算机视觉与模式识别会议),让开发者亲身体验Orbbec 3D相机
    的头像 发表于 06-21 09:38 596次阅读

    【干货】电子工程师都在看的电学公式大全!

    电路功率放大器
    Aigtek安泰电子
    发布于 :2024年04月23日 16:58:07

    Nullmax提出多相机3D目标检测新方法QAF2D

    今天上午,计算机视觉领域顶会CVPR公布了最终的论文接收结果,Nullmax感知部门的3D目标检测研究《Enhancing 3D Object Detection with 2D Detection-Guided Query Anchors》入选
    的头像 发表于 02-27 16:38 1170次阅读
    Nullmax提出多相机3D目标检测新方法QAF2D

    光纤技术的进步方向在哪里?19芯光纤是世界最快的吗?

    光纤技术的进步方向在哪里?高速光通讯牵引力度大。
    的头像 发表于 02-22 10:43 754次阅读