0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种新的高效神经架构搜索方法,解决了当前网络变换方法的局限性

DPVg_AI_era 来源:未知 作者:李倩 2018-07-24 10:06 次阅读

利用机器学习技术代替人类专家来自动设计神经网络架构近期成为了一个热门研究话题。上海交大和MIT的研究团队提出一种新的高效神经架构搜索方法,解决了当前网络变换方法的局限性,且在十分有限的GPU算力下,达到了谷歌AutoML搜索神经网络架构的效果。

最近,利用机器学习技术代替人类专家自动设计神经网络架构(即神经架构搜索)成为一个热门话题。但是,目前的资源密集型的方法实际上并不适用于大公司之外的一般研究团队。

来自上海交大APEX数据与知识管理实验室和MIT韩松老师在今年ICML 2018上发表的新研究“Path-Level Network Transformation for Efficient Architecture Search”表明,利用现有的成功的人工设计的架构来设计高效的网络架构会容易得多。通过将现有成功的人工设计的架构与神经架构搜索方法在设计有效的路径拓扑方面的强大能力相结合,可以在有限的计算资源下获得更好的结果。

研究人员表示,他们的方法用更少的GPU达到了谷歌AutoML自动搜索神经网络结构的效果。

对于这一系列工作,上海交通大学APEX实验室和约翰霍普克罗夫特中心的张伟楠助理教授表示:“在当今大型科技公司凭借超高算力持续做出AutoML领域的高质量工作的大背景下,高校团队可以将注意力集中在如何在低成本低算力的限制下巧妙设计AutoML新方法,这样的解决方法其实更加亲民,从而带来更大的影响力和更广泛的使用场景。”

麻省理工大学HAN Lab的韩松助理教授表示,“算力换算法”是当今AutoML系列工作的热点话题。传统AutoML需要上千块GPU的大量算力,然而硬件算力是深度学习的宝贵资源。本文通过提出路径级别的网络变换、树形的架构搜索空间和树形的元控制器,可以在同样性能的情况下将AutoML的硬件算力节省240倍(48,000 GPU-hours v.s. 200 GPU-hours)。在摩尔定律放缓、而数据集却在不断变大的时代,深度学习研究者值得关注算法性能和算力资源的协同优化。

结论和贡献

本研究的贡献包括:

提出路径级变换(path-level transformation),以在神经网络中实现路径拓扑修改;

提出了树形结构的RL元控制器来探索树形结构的架构空间;

在计算资源显著更少的情况下,在CIFAR-10和ImageNet(移动设置)上获得了更好的结果。

从人工设计到自动架构搜索

在应用深度学习技术时,神经网络架构往往是我们需要优化的一个非常重要的部分。传统上,这项工作是由人类专家完成的,但这十分缓慢并且往往是次优的。因此,随着计算资源的增加,研究人员开始使用机器学习工具,例如强化学习和神经网络进化(neuro-evolution)来自动化架构设计的过程,这就是“神经架构搜索”(neural architecture search)。

从头开始进行神经架构搜索

当前的大多数神经架构搜索方法都遵循一种类似的模式,即在验证信号(validation signals)的指导下,从零开始探索给定的架构空间。

一个典型的例子(Google Brain在ICLR 2017发表的“Neural Architecture Search with Reinforcement Learning”)是使用一个随机初始化的自回归递归神经网络(Auto-regressive RNN)来生成与特定网络架构相对应的整个字符串。并通过策略梯度算法来训练这个递归神经网络,以最大化预期验证性能。

谷歌大脑提出的NAS上的Auto-regressive RNN

该模式具有如下优点:

首先,这是一个灵活的框架(可应用于自动化设计神经网络架构、神经优化器、设备配置、数据增强策略等)。

其次,这种方法在CIFAR和ImageNet等基准数据集上取得了当时最佳的结果。

缺点:

首先,这一模式通常依赖于大量的计算资源来取得好的结果(例如,NASNet使用了48000 GPU-hours)。

其次,遵循这一模式的许多方法仍然无法击败人工设计的最佳架构,尤其在计算资源受限的情况下。

基于网络变换( Network Transformation)的神经结构搜索

在这种情况下,一个想法便是:既然我们已经有许多成功的人工设计的架构,现有的神经架构搜索方法都无法轻易超越它们,那么为什么不利用它们呢?

为了实现这点,上交大团队在AAAI 2018大会上发表的工作EAS(“Efficient Architecture Search by Network Transformation”)中提出:可以不从头开始进行神经架构搜索,而是使用现有的网络作为起点,通过网络变换(Network Transformation)的方式来探索架构空间。具体的,他们使用了Net2Net操作(一类 function-preserving的网络变换操作)来探索架构空间。

EAS的Meta-controller

而在之后的ICLR 2018上,来自CMU的研究人员提出了“N2N Learning: Network to Network Compression via Policy Gradient Reinforcement Learning”,即利用网络压缩操作来自动化地压缩一个训练好的网络。

当前网络变换方法的局限性

Net2Net和网络压缩操作的局限性在于他们都是layer-level的操作,例如添加(修剪)过滤器和插入(删除)层。通过应用这些layer-level的操作仅能改变网络的深度和宽度,而不能修改网络的拓扑结构。这意味着在给定一个链式结构的起点时,它们总是会导致链式结构网络。

然而,考虑到当前最先进的人工设计的架构(例如Inception模型、ResNets和DenseNets等)已经超越了简单的链式结构布局,并且显示出精心定制的路径拓扑(path topology)的好处,因此对于这些基于变换的方法来说,这将是一个关键的需要解决的问题。

上交大和MIT的研究人员在ICML 2018发表的“Path-Level Network Transformation for Efficient Architecture Search”的主要目的便是解决这个问题。

路径级网络变换

研究人员提出将网络变换从层级(layer-level)扩展到路径级(path-level)。

解决方案是从一些简单的观察开始。考虑一个卷积层,如果我们把多分支结构( multi-branch structure)中的每一个分支都设为该层的复制,那么给定相同的输入,每个分支必然会产生相同的输出,这些输出的平均值也等于卷积层的输出。

卷积层和等价的multi-branch结构

因此,我们可以构造一个等效的多分支结构(multi-branchstructure),并通过add操作合并卷积层。类似地,为了构造一个通过串联合并的等效多分支结构,可以将卷积层沿着输出通道维度分割为几个部分,并将每个部分分配给相应的分支。这样,它们输出的串联就等于卷积层的输出。

对于其他类型的层,例如 identity 层和深度可分离卷积层(depth-wise separable convolution layer,),可以类似地进行这种等价的替换。

identity层和等价的multi-branch结构

更进一步,通过将这些等价替换与Net2Net操作相结合,就可以任意修改神经网络的路径拓扑。

树形结构的架构空间

在路径级网络变换的基础上,研究人员探索了一个树形的结构空间(即多分支结构的一个简单的扩展)。

形式上,树形结构单元由节点和边组成。在每个节点,定义有一个分配方案,用于确定如何为每个分支分配输入特性映射(feature map);还有一个合并方案,用于确定如何合并分支的输出。节点通过边(edge)连接到每个子节点,而边被定义为一个单元操作(例如卷积、池化、 identity等)。

给定输入特性映射x,节点的输出将基于其子节点的输出递归地定义。首先将输入特性映射分配给每个分支。然后在每个分支上,分配的特征映射由相应的边和子节点处理。最后,合并它们以产生输出。

树形结构的强化学习元控制器(RLMeta-Controller)

为了探索树形结构空间,研究人员使用了一个强化学习元控制器。这里的策略网络包括一个编码器网络,用于将输入架构编码成一个低维向量,以及各种softmax分类器,用于生成相应的网络变换操作。

此外,由于输入架构现在具有树形结构,无法简单用一个字符串序列来表示,因此这里使用了树形结构编码器网络( tree-structured encoder network)。

树形结构的编码器网络

具体来说,除了用于在边上执行隐藏状态变换的普通LSTM单元之外,还引入了两个额外的树结构LSTM单元,以在节点上执行隐藏状态转换。如上图所示,使用这3个LSTM单元,整个过程以自下而上和自上而下的方式进行,使每个节点中的隐藏状态包含架构的所有信息,类似于双向LSTM。

三种不同类型的决策

然后,给定每个节点的隐藏状态,做出三种不同类型的决策。第一种类型是确定是否要将一个节点转换为多个子节点。合并方案和分支数量都是预测的。第二种类型是确定是否插入新节点。第三种类型是用从一组可能的原始操作中选择的层来替换 identity 映射。

实验和结果

以下是论文中提供的受限的计算资源下(大约200 GPU-hours)找到的最好的树形单元(TreeCell-A):

我们可以将这样的树形单元嵌入到已有的人类设计的网络架构(例如DenseNet,PyramidNet)当中,而在CIFAR-10上的结果如下表所示

与原始的DenseNet和PyramidNet相比,树形单元显著提高了参数效率和测试误差结果。与其他从头开始的神经架构搜索方法(NASNet),TreeCell-A可以在大约一半参数的情况下实现更低的测试错误率(2.30% test error with 14.3M parameters versus 2.40% test error with 27.6M parameters)。更重要的是,其所使用的计算资源要比NASNet少得多。

当迁移到ImageNet(移动设置)时,与NASNets相比,树形单元仍然可以获得稍好的结果。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 控制器
    +关注

    关注

    112

    文章

    15546

    浏览量

    173511
  • 神经网络
    +关注

    关注

    42

    文章

    4640

    浏览量

    99479
  • 机器学习
    +关注

    关注

    66

    文章

    8208

    浏览量

    131250

原文标题:算力节省240倍!上交大、MIT新方法低成本达到谷歌AutoML性能

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    34063的局限性

    由34063构成的开关电源虽然价格便宜、应用广泛,但它的局限性也是显而易见的。主要有以下几点:(1)效率偏低。对于降压应用,效率般只有70%左右,输出电压低时效率更低。这就使它不能用在某些对功耗
    发表于 06-12 10:41

    FPGA的优势与局限性

    。减少板级走线,有效降低布局布线难度。当然了,在很多情况下,FPGA不是万能的。FPGA技术也存在着些固有的局限性。从以下这些方面看,选择FPGA技术来实现产品的开发设计有时并不是明智的决定。●在某些
    发表于 12-20 10:07

    一种基于经优化算法优化过的神经网络设计FIR滤波器的方法介绍

    定程度上改善了传统方法局限性,但这些方法自身也存在着些不足。之后,曾喆昭等人提出了一种
    发表于 07-08 07:16

    无线网络有什么局限性

    以无线方式发送数据的方法有很多。从遥控无钥匙进入(RKE)和车库开门装置(GDO)等简单命令和控制方案到WLAN,您有很多种选择。本文主要探讨各种可用的无线网络选项和必须在应用过程中解决的局限性,旨在为设计师提供
    发表于 08-23 06:13

    超声波液位计的局限性及安装要求

    简单方便,且性能可靠、维护量小、不受液体的粘度和密度影响等优点,在水处理、化工、石油、冶金等行业应用广泛。不过,超声波液位计也并非完美无缺,其也有自身所无法克服的局限性,使之在应用中受到定的限制。那么
    发表于 06-19 11:49

    运算放大器的精度局限性是什么

    日益普遍。本文将介绍运算放大器的精度局限性,以及如何选择为数不多的有可能达到 1 ppm 精度的运算放大器。另外,我们还将介绍些针对现有运算放大器局限性的应用改善。
    发表于 03-11 06:10

    基于FPGA的神经网络的性能评估及局限性

    FPGA实现神经网络关键问题分析基于FPGA的ANN实现方法基于FPGA的神经网络的性能评估及局限性
    发表于 04-30 06:58

    一种基于高效采样算法的时序图神经网络系统介绍

    成为了非常重要的问题。 基于以上问题,本文提出了一种基于高效采样算法的时序图神经网络系统 。首先我们介绍用于时序图神经网络采样的高效采样
    发表于 09-28 10:34

    一种基于BP网络的信号动态检测方法

    本文阐述了BP 网络在信号处理领域的基本原理、方法和模型。文中指出了传统信号检测方法局限性,并利用BP 网络强大的学习、并行运算能力和非线
    发表于 08-06 08:51 19次下载

    平台ASIC架构突破传统ASIC设计局限性

    平台ASIC架构突破传统ASIC设计局限性 采用先进半导体工艺,结构化ASIC平台可以提供更多经预定义、预验证和预扩散的金属层,并支持各种存储器接口,能简化接口设计
    发表于 12-27 13:33 1207次阅读
    平台ASIC<b class='flag-5'>架构</b>突破传统ASIC设计<b class='flag-5'>局限性</b>

    基于EPON在广电网络中的局限性

    广电网络发展的潜力在于增值业务的开展,这就要求必须对有线电视网络进行双向改造。目前广电行业普遍认可EPON技术是广电网络双向改造的最佳宽带接入技术,分析了EPON的技术特点和当前广电
    发表于 09-20 14:01 11次下载
    基于EPON在广电<b class='flag-5'>网络</b>中的<b class='flag-5'>局限性</b>

    一种改进的深度神经网络结构搜索方法

    为提升网络结构的寻优能力,提岀一种改进的深度神经网络结构搜索方法。针对网络结构间距难以度量的问题
    发表于 03-16 14:05 3次下载
    <b class='flag-5'>一种</b>改进的深度<b class='flag-5'>神经网络</b>结构<b class='flag-5'>搜索</b><b class='flag-5'>方法</b>

    以进化算法为搜索策略实现神经架构搜索方法

    自动化深度学习是目前深度学习领域的研究热点,神经架构搜索算法是实现自动化深度学习的主要方法之一,该类算法可以通过对搜索空间、
    发表于 03-22 14:37 15次下载
    以进化算法为<b class='flag-5'>搜索</b>策略实现<b class='flag-5'>神经</b><b class='flag-5'>架构</b><b class='flag-5'>搜索</b>的<b class='flag-5'>方法</b>

    WSN中LEACH协议局限性的分析与改进

    WSN中LEACH协议局限性的分析与改进(电源技术答案)-WSN中LEACH协议局限性的分析与改进               
    发表于 09-15 11:12 3次下载
    WSN中LEACH协议<b class='flag-5'>局限性</b>的分析与改进

    千兆光模块存在哪些局限性

    千兆光模块,作为网络设备中常用的一个配件,在实际应用中,由于其存在一定的局限性,可能会对网络传输速度、信号接收等方面产生影响。本文将就千兆光模块的局限性进行探讨,并提供一些可能的解决方
    的头像 发表于 10-16 12:10 397次阅读