0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

告别调参炼丹,使用随机共享权重足矣!

2E1k_gh_baf5b3c 来源:陈年丽 2019-08-28 17:21 次阅读

谷歌大脑备受关注的“权重无关神经网络”终于开源了!其关键思想是通过不再强调权重来搜索网络结构,仅使用随机共享的权重,也可以执行各种任务的神经网络。终于可以不用调参炼丹了吗?快来复现看看!

神经网络训练中 “权重” 有多重要不言而喻。但谷歌前段时间发表的研究表明,即使抛弃神经网络权重训练,使用随机共享权重,也可以执行各种任务。

他们提出一种新的神经网络结构的搜索方法——权重无关神经网络(Weight Agnostic Neural Networks,WANN),其关键思想是通过不再强调权重来搜索网络结构。

今天,该研究的两位作者、谷歌大脑学生研究员 Adam Gaier和研究科学家David Ha在Google AI博客上撰文,介绍了该研究的核心思想和重要细节,并宣布WANN的代码已经在GitHub上开源,以便让广泛的研究社区重现WANN实验。

告别调参炼丹,使用随机共享权重足矣!

当训练神经网络完成一项给定任务时,无论是图像分类还是强化学习,通常都需要调优与网络中每个连接相关的一组权重。另一种已经取得实质性进展的成功的神经网络创建方法是神经架构搜索,它利用人工设计的组件(如卷积网络组件或transformer blocks)来构建神经网络架构。

研究表明,利用这些组件构建的神经网络结构,如深度卷积网络,对图像处理任务具有很强的归纳偏差,甚至可以在权重随机初始化的情况下执行。虽然神经架构搜索提供了一些新的方法,可以为当前的任务域安排具有已知归纳偏差的手工工程组件,但在自动发现具有此类归纳偏差的新神经网络架构(用于不同的任务域)方面几乎没有进展。

我们可以用一个先天和后天的例子作为类比。正如生物学中某些从出生起就具有反捕食行为的物种一样,他们无需学习就能执行复杂的运动和感官任务,或许我们可以构建一个不需要训练就能很好地完成任务的神经网络。当然,这些自然物种(作为类比,人工神经网络)通过训练可以得到进一步的改善,但它们即使不学习也能执行任务的能力表明,它们包含使它们非常适合于这些任务的偏差。

在“权重无关神经网络”(WANN)论文中,我们提出了搜索具有这类偏差的网络的第一步:即使使用随机共享的权重,也可以执行各种任务的神经网络架构。

我们在这项工作中的动机是,在不学习任何权重参数的情况下,仅神经网络架构能在多大程度上编码给定任务的解决方案。通过探索这样的神经网络架构,我们提出了一种无需学习权重参数就能在其环境中运行良好的智能体。

此外,为了促进该领域的进步,我们还开放了源代码,以便更广泛的研究社区重现我们的WANN实验。

左图:一个手工设计的、完全连接的深度神经网络,有2760个权重连接。利用一种学习算法,我们可以求解2760个权重参数的集合,使该网络能够执行一个双足步行任务(BipedalWalker-v2)。

右图:一个权重无关的神经网络架构,只有44个连接,但同样能够执行双足步行任务。与完全连接网络不同的是, WANN仍然可以执行任务,而不需要训练每个连接的权重参数。实际上,为了简化训练,WANN被设计成在每个权重连接的值相同或共享时执行,甚至就算共享权重参数是随机采样的,也会起作用。

搜索权重无关神经网络

我们从一组最小的神经网络架构候选对象开始,每个候选对象只有很少的连接,并使用一个完善的拓扑搜索算法(NEAT),通过逐个地添加单个连接和单个节点来演化架构。

WANN背后的关键思想是通过不再强调权重来搜索架构。与传统的神经架构搜索方法不同,新架构的所有权重参数都需要使用学习算法进行训练,我们采用了一种更简单、更有效的方法。

在搜索过程中,首先在每次迭代中为所有候选架构分配一个共享权重值,然后进行优化,以便在更宽的共享权重值范围内执行良好。

用于搜索网络拓扑空间的运算符

左:一个最小的网络拓扑结构,输入和输出仅部分连接。

中间:网络的改变有三种方式:

(1)插入节点:通过分割现有连接插入新节点。

(2)添加连接:通过连接两个先前未连接的节点来添加一个新连接。

(3)更改激活:重新分配隐藏节点的激活函数。

右:可能的激活函数(线性,阶跃,正弦, 余弦,高斯,tanh, sigmoid,inverse,绝对值,ReLU)

除了探索一系列与权重无关的神经网络之外,重要的是还要寻找只需要复杂到它们所需的程度的网络架构。我们利用多目标优化技术( multi-objective optimization),同时对网络的性能和复杂度进行优化。

权重无关神经网络搜索的概述,及其相应的网络拓扑空间搜索算子。

训练WANN架构

与传统网络不同的是,我们可以通过简单地找到最佳的单个共享权重参数来训练WANN,从而最大限度地提高其性能。在下面的例子中,可以看到我们的架构(在某种程度上)使用恒定的权重来完成一个 swing-up cartpole 任务:

WANN在不同的权重参数下执行 swing-up cartpole 任务,也使用微调的权重参数。

正如我们在上面的图中看到的,虽然WANN可以使用一系列共享权重参数来执行其任务,但是其性能仍然无法与学习每个连接的权重的网络相比较。

如果我们想进一步提高它的性能,我们可以使用WANN架构和最佳共享权重作为起点,使用学习算法微调每个连接的权重,就像通常训练神经网络的方法一样。以网络架构的权重无关特性为出发点,通过学习微调网络的性能,可能有助于为理解动物如何学习提供有洞察力的类比。

通过在性能和网络简单性方面的多目标优化,我们的方法找到了一个简单的WANN,用于赛车任务,它不需要显式地训练网络的权重。

使用随机权重的网络架构不仅易于训练,还具有其他优势。例如,通过使用相同WANN架构的副本,但是为WANN的每个副本都分配不同的权重值,我们可以为同一任务创建多个不同模型的集合。这种集合通常比单个模型能获得更好的性能。下面是一个MNIST分类器处理随机权重的例子,可以说明这一点:

MNIST分类器进化为处理随机权重。

具有随机初始化的传统网络在 MNIST 上的精度约为 10%,但这种随机权重的特殊网络架构在 MNIST 上的精度 (》 80%) 明显优于随机初始化网络。当使用一组WANNs,为每个WANN分配一个不同的共享权重时,精度提高到 》 90%。

即使不使用集成方法,也可以将网络中的权重值压缩到一个网络,从而使网络能够快速调整。快速调整权重的能力可能在持续的终身学习(lifelong learning)中很有用,在这种学习中,agent在整个生命周期中获得、适应和转移技能。这使得WANN特别适合利用 Baldwin效应, Baldwin效应是一种进化压力,即奖励那些倾向于学习有用行为的个体,而不会陷入“learning to learn”这个昂贵的计算陷阱。

结论

我们希望这项工作可以作为一个垫脚石,帮助发现新的基础神经网络组件,如卷积网络,其发现和应用已经在深度学习领域取得了令人难以置信的进展。自卷积神经网络被发现以来,研究界可用的计算资源显著增加。如果我们将这些资源投入到自动发现神经网络架构中,并希望实现网络架构的突破性改进,那么我们相信,使用新的构建块来搜索也是值得的。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6142

    浏览量

    105106
  • 神经网络
    +关注

    关注

    42

    文章

    4763

    浏览量

    100541

原文标题:“互联网 + 海关”背景下,企业关务系统的选择和应用以及与合规内控的结合

文章出处:【微信号:gh_baf5b3c5005b,微信公众号:通关机器人】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    循环神经网络的常见技巧

    循环神经网络(Recurrent Neural Networks,简称RNN)是一种用于处理序列数据的深度学习模型,它能够捕捉时间序列中的动态特征。然而,RNN的训练往往比传统的前馈神经网络更具挑战性。 1. 选择合适的RNN变体 Vanilla RNN :最基本的RNN结构,但容易遇到梯度消失或梯度爆炸的问题。 LSTM(Long Short-Term Memory) :通过门控机制解决了梯度消失的问题,适合处理长序列。 GRU(Gated Recurrent Unit) :LSTM的简化版本,参数更少,训练更快,但在某些情况下可能不如LSTM表现
    的头像 发表于 11-15 10:13 124次阅读

    LSTM神经网络的技巧

    长短时记忆网络(Long Short-Term Memory, LSTM)是一种特殊的循环神经网络(RNN),它能够学习长期依赖信息。在实际应用中,LSTM网络的是一个复杂且关键的过程,直接影响
    的头像 发表于 11-13 10:01 309次阅读

    在用机器人与未来机器人并行推进的权重关系

    在用机器人与未来机器人并行推进的权重关系
    的头像 发表于 08-01 08:14 457次阅读
    在用机器人与未来机器人并行推进的<b class='flag-5'>权重</b>关系

    深度学习中的模型权重

    在深度学习这一充满无限可能性的领域中,模型权重(Weights)作为其核心组成部分,扮演着至关重要的角色。它们不仅是模型学习的基石,更是模型智能的源泉。本文将从模型权重的定义、作用、优化、管理以及应用等多个方面,深入探讨深度学习中的模型
    的头像 发表于 07-04 11:49 948次阅读

    bp神经网络算法的基本流程包括哪些

    。 初始化网络参数 在BP神经网络算法中,首先需要初始化网络的参数,包括权重和偏置。权重是连接神经元之间的系数,偏置是神经元的阈值。权重和偏置的初始值通常设置为小的随机数,以避免对称性
    的头像 发表于 07-04 09:47 492次阅读

    手把手教学!HLK-LD2410B/C新手必看攻略!测试教程、模块一文详解~

    HLK-LD2410B/C接线教程、参数解析、APP教程、上位机教程、常见异常情况自检等等内容,一文汇总。 不管是萌新小白还是资深玩家,都可以快速入门。
    的头像 发表于 05-31 14:48 4562次阅读
    手把手教学!HLK-LD2410B/C新手必看攻略!测试教程、模块<b class='flag-5'>调</b><b class='flag-5'>参</b>一文详解~

    欧姆表机械零和欧姆零是什么意思

    欧姆表是一种用于测量电阻的电子测试仪器,其测量原理基于欧姆定律。在使用欧姆表测量电阻之前,通常需要进行两种零操作:机械零和欧姆零。这
    的头像 发表于 05-13 17:34 7781次阅读

    电费清单中的力电费是什么

    电费清单中的力电费是什么?很多人在收到电费清单时会发现一个奇怪的费用,即力电费。那么,力电费到底是什么呢?
    的头像 发表于 04-11 10:35 6362次阅读
    电费清单中的力<b class='flag-5'>调</b>电费是什么

    中科曙光凭借技术优势以及实践经验获颁“核心编单位”证书

    近日,中国人工智能产业发展联盟面向编单位颁发证书。中科曙光凭借技术优势以及实践经验,全程编《面向训练任务的人工智能通用技术要求》标准(以下简称“标准”),获颁“核心编单位”证书。
    的头像 发表于 03-25 11:05 580次阅读

    机器学习8大技巧

    今天给大家一篇关于机器学习技巧的文章。超参数优是机器学习例程中的基本步骤之一。该方法也称为超参数优化,需要搜索超参数的最佳配置以实现最佳性能。机器学习算法需要用户定义的输入来实现准确性和通用性之间的平衡。这个过程称为超参数
    的头像 发表于 03-23 08:26 565次阅读
    机器学习8大<b class='flag-5'>调</b><b class='flag-5'>参</b>技巧

    什么是随机森林?随机森林的工作原理

    随机森林使用名为“bagging”的技术,通过数据集和特征的随机自助抽样样本并行构建完整的决策树。虽然决策树基于一组固定的特征,而且经常过拟合,但随机性对森林的成功至关重要。
    发表于 03-18 14:27 3403次阅读
    什么是<b class='flag-5'>随机</b>森林?<b class='flag-5'>随机</b>森林的工作原理

    鸿蒙开发实战:【性能优组件】

    性能优组件包含系统和应用优框架,旨在为开发者提供一套性能优平台,可以用来分析内存、性能等问题
    的头像 发表于 03-13 15:12 396次阅读
    鸿蒙开发实战:【性能<b class='flag-5'>调</b>优组件】

    vivo申请随机接入、配置方法及相关设备专利

    该专利摘要详细阐述了这是一种应用于通讯技术领域的新发明。其创新之处在于,通过对目标随机接入过程中所需的目标信息(如物理上行共享信道PUSC)进行重复传输,从而提升终端在PUSC上行覆盖的能力,有效缩短目标随机接入过程的时间延迟。
    的头像 发表于 01-29 09:50 425次阅读
    vivo申请<b class='flag-5'>随机</b>接入、配置方法及相关设备专利

    无刷电机谐波怎么 无刷电机为什么要电

    无刷电机谐波怎么 无刷电机为什么要电  无刷电机谐波调节原理详解 无刷电机是一种通过电子调速器来控制电机转速的电机。它由三个电子组成:无刷电器、无刷电机和相应的传感器。 无刷电机可以通过改变
    的头像 发表于 12-20 16:00 1864次阅读

    jvm优主要是哪里

    JVM优主要涉及内存管理、垃圾回收、线程管理与锁优化等方面。下面将详细介绍每个方面的优技术和策略以及如何进行优化。 内存管理 JVM的内存管理主要包括堆内存、栈内存和非堆内存。堆内存存储对象实例
    的头像 发表于 12-05 11:37 1528次阅读