0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

利用2.5GPU年的算力在7个数据集上训练了12000多个模型

nlfO_thejiangme 来源:lq 2019-04-30 09:14 次阅读

基于无监督的方式理解高维数据并将信息浓缩为有用的表示一直是深度学习领域研究的关键问题。其中一种方法是利用非耦合表示(disentangled representations)模型来捕捉场景中独立变化的特征。如果能够实现对于各种独立特征的描述,机器学习系统就可以用于真实环境中的导航,机器人或无人车利用这种方法可以将环境解构成一系列元素,并利用通用的知识去理解先前未见过的场景。



虽然非监督解耦方法已被广泛应用于好奇驱动的探索、抽象推理、视觉概念学习和域适应的强化学习中,但最近进展却无法让我们清晰了解不同方法的性能和方法的局限。为了深入探索这一问题,谷歌的研究人员在ICML2019上发表了一篇大规模深入研究非监督非耦合表示的论文”Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations”,对近年来绝大多数的非监督解耦表示方法进行探索、利用2.5GPU年的算力在7个数据集上训练了12000多个模型。基于大规模的实验结果,研究人员对这一领域的一些假设产生了质疑,并为解耦学习的未来发展方向给出了建议。与此同时,研究人员还同时发布了研究中所使用的代码和上万个预训练模型,并封装了disentanglement_lib供研究者进行实验复现和更深入的探索。

理解非耦合表示

为了更好地理解非耦合表示的本质,让我一起来看看下面动图中每个独立变化的元素。下面的每一张图代表了一个可以被编码到矢量表示中的因子,它可以独立控制图像中每个语义元素的属性。例如第一个可以控制地板的颜色,第二个则控制墙的颜色,最后一个则控制图片的视角。

解耦表示的目标在于建立起一个能够独立捕捉这些特征的模型,并将这些特征编码到一个表示矢量中。下面的10个小图展示了基于FactorVAE方法学习十维表示矢量的模型,图中展示 了每一维对于图像对应信息的捕捉。从各个图中可以看出模型成功地解耦了地板、墙面的颜色,但是左下角的两个图片可以看到物体的颜色和大小的表示却依然相关没有解耦。

大规模研究的发现

在直观地理解了解耦表示之后,让我们来看看科学家在研究中发现了什么。这一领域基于变分自编码器提出了各种各样的非监督方法来学习非耦合表示,同时给出了许多不同的性能度量方法,但却缺乏一个大规模的性能测评和对比研究。为此研究人员构建了一个大规模、公平性、可复现的实验基准,并系统的测试了六种不同的模型(BetaVAE, AnnealedVAE, FactorVAE, DIP-VAE I/II and Beta-TCVAE)和解耦性能度量方法(BetaVAE score, FactorVAE score, MIG, SAP, Modularity and DCI Disentanglement),在7个数据集上进行了12800个模型的训练后,研究人员们有了颠覆过去的发现:首先,是非监督学习的方式。研究人员在大量的实验后发现没有可靠的证据表明模型可以通过无监督的方式学习到有效的解耦表示,随机种子和超参数对于结构的影响甚至超过了模型的选择。换句话说,即使你训练的大量模型中有部分是解耦的,但这些解耦表示在不基于基准标签的情况下是无从确认和识别的。此外好的超参数在不同的数据集上并不一致,这意味着没有归纳偏置(inductive biases)是无法实现非监督解耦学习的(需要把对数据集的假设考虑进模型中)。对于实验中评测的模型和数据集,研究人员表示无法验证解耦对于downstream tasks任务有利的假设(这一假设认为基于解耦表示可以利用更少的标签来进行学习)。下图展示了研究中的一些发现,可以看到随机种子在运行中的影响超过了模型的选择(左)和正则化(右)的强度(更强的正则化并没有带来更多的解耦性能)。这意味着很差超参数作用下的好模型也许比很好超参数作用下的坏模型要好得多。

未来研究方向

基于这些全新的发现和研究结果,研究人员为解耦表示领域提出了四个可能的方向:1.在没有归纳偏置的条件下给出非监督解耦表示学习的理论结果是不可能的,未来的研究应该更多地集中于归纳偏置的研究以及隐式和显示监督在学习中所扮演的角色;2.为横跨多数据集的非监督模型寻找一个有效的归纳偏置将会成为关键的开放问题;3.应该强调解耦学习在各个特定领域所带来的实际应用价值,潜在的应用方向包括机器人、抽象推理和公平性等;4.在各种多样性数据集上的实验应该保证可重复性。

代码和工具包

为了让其他研究人员更好的复现结构,论文同时还发布了 disentanglement_lib工具包,其中包含了实验所需的模型、度量、训练、预测以及可视化代码工具。可以在命令行中用不到四行代码就能复现是论文中所提到的模型,也可以方便地改造来验证新的假设。最后 disentanglement_lib库易于拓展和集成,易于创建新的模型,并用公平的可复现的比较进行检验。由于复现所有的模型训练需要2.5GPU年的算力,所以研究人员同时开放了论文中提到的一万多个预训练模型可以配合前述工具使用。如果想要使用这个工具可以在这里找到源码:

https://github.com/google-research/disentanglement_lib

其中包含了以下内容:模型:BetaVAE, FactorVAE, BetaTCVAE, DIP-VAE度量:BetaVAE score, FactorVAE score, Mutual Information Gap, SAP score, DCI, MCE数据集:dSprites, Color/Noisy/Scream-dSprites, SmallNORB, Cars3D, and Shapes3D预训练模型:10800 pretrained disentanglement models依赖包:TensorFlow, Scipy, Numpy, Scikit-Learn, TFHub and Gin

git clone https://github.com/google-research/disentanglement_lib.git #下载gitcd disentanglement_lib #转到源码目录pip install .[tf_gpu] #安装依赖文件dlib_tests #验证安装

随后下载对应的数据文件:

dlib_download_data#在.bashrc写入路径export DISENTANGLEMENT_LIB_DATA=

随后就可以愉快地复现实验了,其中?是0-12599间的模型序号:dlib_reproduce --model_num=进行评测:dlib_aggregate_results

相信这篇文章的研究结果和代码工具将为接下来的研究提供更为明确的方向和便捷的途径,促进非耦合表示学习领域的发展。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6171

    浏览量

    105466
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4743

    浏览量

    128983
  • 数据集
    +关注

    关注

    4

    文章

    1208

    浏览量

    24717

原文标题:耗时2.5GPU年训练12800个模型,谷歌研究人员揭示非耦合表示的奥秘

文章出处:【微信号:thejiangmen,微信公众号:将门创投】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    AI训练,为什么需要GPU

    随着由ChatGPT引发的人工智能热潮,GPU成为了AI大模型训练平台的基石,甚至是决定性的底座。为什么
    的头像 发表于 04-24 08:05 1075次阅读
    AI<b class='flag-5'>训练</b>,为什么需要<b class='flag-5'>GPU</b>?

    名单公布!【书籍评测活动NO.43】 芯片 | 高性能 CPU/GPU/NPU 微架构分析

    全球范围内,对于推动科技进步、经济发展及社会整体的运作具有至关重要的作用。随着信息技术的高速发展,高性能计算(HPC)和人工智能(AI)等技术多个领域的应用变得日益广泛,芯片
    发表于 09-02 10:09

    【「芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】--全书概览

    GPU、NPU,给我们剖析了芯片的微架构。书中有对芯片方案商处理器的讲解,理论联系实际,使读者能更好理解芯片。 全书共11章,
    发表于 10-15 22:08

    【「芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】--了解芯片GPU

    从而充分利用 GPU的强大计算能力。CUDA编程模型中,GPU的计算资源被组织为线期线程块和线程网格3级。线程是基本的执行单元,线程块是包
    发表于 11-03 12:55

    数据、算法和其实现载体是什么

    背景介绍数据、算法和是人工智能技术的三大要素。其中,体现着人工智能(AI)技术具体实现的能力,实现载体主要有CPU、
    发表于 07-26 06:47

    Ubuntu使用Nvidia GPU训练模型

    问题最近在Ubuntu使用Nvidia GPU训练模型的时候,没有问题,过一会再训练出现非常卡顿,使用nvidia-smi查看发现,显示
    发表于 01-03 08:24

    索尼发布新的方法,ImageNet数据224秒内成功训练了ResNet-50

    近年来,许多研究人员提出了多种方案来解决这两问题(见原文参考文献)。这些工作利用ImageNet/ResNet-50训练来衡量训练效果。ImageNet/ResNet-50分别是最流
    的头像 发表于 11-16 10:01 9824次阅读

    GPU如何训练大批量模型?方法在这里

    深度学习模型数据的规模增长速度已经让 GPU 也开始捉襟见肘,如果你的
    发表于 12-03 17:24 870次阅读

    ICML 2019最佳论文新鲜出炉!

    这是一篇大规模深入研究无监督解耦表示(Disentangled Representation)的论文,对近年来绝大多数的非监督解耦表示方法进行了探索、利用 2.5GPU
    的头像 发表于 06-15 10:02 5255次阅读

    利用ImageNet训练了能降噪、超分和去雨的图像预训练模型

    。但是不同的是,因为IPT是同时训练多个task,因此模型定义了多个head和tail分别对应不同的task。
    的头像 发表于 03-03 16:05 4411次阅读
    <b class='flag-5'>利用</b>ImageNet<b class='flag-5'>训练了</b>一<b class='flag-5'>个</b>能降噪、超分和去雨的图像预<b class='flag-5'>训练</b><b class='flag-5'>模型</b>

    夯实基础 赋能大模型创新发展

    《 国产 GPU的大模型实践 》 的主题演讲 , 全面介绍了天数智芯 通用 GPU产品特色 以及 模型
    的头像 发表于 07-17 22:25 569次阅读
    夯实<b class='flag-5'>算</b><b class='flag-5'>力</b>基础  赋能大<b class='flag-5'>模型</b>创新发展

    模型“狂欢”之下,之困何解?

    打造一AI大模型究竟需要多少算?公开数据显示,ChatGPT初始所需的就是1万块英伟达A
    的头像 发表于 08-23 16:09 768次阅读

    20个数据可以训练神经网络吗

    当然可以,20个数据点对于训练神经网络来说可能非常有限,但这并不意味着它们不能用于训练。实际,神经网络可以
    的头像 发表于 07-11 10:29 935次阅读

    【一文看懂】大白话解释“GPUGPU

    随着大模型的兴起,“GPU”这个词正频繁出现在人工智能、游戏、图形设计等工作场景中,什么是GPU,它与CPU的区别是什么?以及到底什么是
    的头像 发表于 10-29 08:05 702次阅读
    【一文看懂】大白话解释“<b class='flag-5'>GPU</b>与<b class='flag-5'>GPU</b><b class='flag-5'>算</b><b class='flag-5'>力</b>”

    PyTorch GPU 加速训练模型方法

    深度学习领域,GPU加速训练模型已经成为提高训练效率和缩短训练时间的重要手段。PyTorch作
    的头像 发表于 11-05 17:43 571次阅读