0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

PEMN:参数集约型掩码网络

CVer 来源:CVer 作者:CVer 2022-12-15 14:09 次阅读

NeurIPS 2022 | Parameter-Efficient Masking Networks,美国东北大学,罗切斯特理工等,提出参数集约型掩码网络,探索有限数量随机数的表征能力并提升神经网络储存和传输效率。

为了处理更复杂的任务,近年来神经网络的规模也在不断变大,如何高效的储存和传输神经网络变得十分重要。另一方面,随着彩票假说(Lottery Ticket Hypothesis (LTH))的提出,随机稀疏神经网络最近展现出很强的潜力,如何利用这种潜力来提高网络的存储和传输效率也很值得探索。

来自美国东北大学和罗切斯特理工的研究者提出参数集约型掩码网络(Parameter-Efficient Masking Networks (PEMN))。作者首先探索了有限数量随机数生成的随机网络的表征能力。实验表明,即使网络由有限数量的随机数生成,通过选择不同的子网络结构,其依然具有很好的表征能力。通过这种探索性实验,作者自然地提出使用一组有限数量随机数作为prototype,结合一组mask来表达一个神经网络。因为有限数量的随机数和二值的mask占用很少的储存空间,作者以此来提出一种新的思路来进行网络压缩。文章已被NeurIPS 2022 接受。代码已开源。

1a33b5fe-7c3d-11ed-8abf-dac502259ad0.png

Parameter-Efficient Masking Networks

论文地址: https://arxiv.org/abs/2210.06699

论文代码: https://github.com/yueb17/PEMN

1. 相关研究

MIT研究人员提出彩票假说 Lottery Ticket Hypothesis (ICLR’19):在一个随机初始化网络中,存在一个彩票子网络(winning ticket)在被单独训练的情况下达到很好的效果。彩票假说探索了随机稀疏网络的可训练性。Uber研究人员提出Supermask (NeurIPS’19):在一个随机初始化网络中,存在一个子网络,可以直接用来做推断而不需要训练。Supermask探索了随机稀疏网络的可用性。华盛顿大学研究人员提出Edge-Popup (CVPR’20):通过反向传播学习子网络的mask,大幅提升了随机稀疏网络的可用性。

2. 研究动机/流程

以上相关研究从不同角度探索了随机稀疏网络的潜力,如可训练性和可用性,其中可用性也可以理解为表征能力。在此工作中,作者感兴趣的是由随机数生成的神经网络在不训练权重的情况下有多强的表征能力。随着对该问题的探索,作者提出了Parameter-Efficient Masking Networks (PEMN)。自然地,作者运用PEMN为网络压缩提供了一种新的思路,并作为一个例子对PEMN的潜在应用场景进行探索。

3. 探索随机数构成的神经网络的表征能力

给定一个随机网络,作者选择Edge-Popup算法在其中选择子网络来探索其表征能力。不同的是,相对于对整个网络进行随机初始化,作者提出了三种参数集约型的网络生成策略来使用一个prototype构建随机网络。

One-layer: 选择网络中重复结构的权重作为prototype来填充其他的与之结构相同的网络层。

Max-layer padding (MP): 选择参数量最多的网络层作为prototype并且截断相应的参数量来填充其他网络层。

Random vector padding (RP): 选择一定长度的随机向量作为prototype并对其进行复制来填充整个网络。

1a5d0a6c-7c3d-11ed-8abf-dac502259ad0.png

三种不同的随机网络生成策略把网络中不重复参数值(unique values)的数量逐步变小,我们基于不同策略得到的随机网络来选择子网络,从而探索了有限数量随机数生成的随机网络的表征潜力。

1a86ae1c-7c3d-11ed-8abf-dac502259ad0.png

上图展示了使用ConvMixer 和 ViT 网络CIFAR10图像分类的实验结果。Y轴为准确率,X轴为使用不同策略得到的随机网络。随之X轴的变大,随机网络中不重复随机数数量逐渐变小 (RP后的数字表示相比较于MP,RP中不重复随机数数量的比例)。根据实验结果,我们观察到即使随机网络只有非常有限的不重复随机数(比如PR_1e-3),依然可以很好的维持选择出来的子网络的表征能力。至此,作者通过不同的随机网络生成策略,探索了有限数量随机数构成的神经网络的表征能力并观察到即使不重复随机数非常有限,其对应的随机网络依然可以很好地对数据进行表征。同时作者基于这些随机网络生成策略,结合所得到的子网络掩码,提出了Parameter-Efficient Masking Networks(PEMN)这种新的神经网络类型。

4. 一种新的网络压缩思路

本文选择了神经网路压缩为例来拓展PEMN的潜在应用。具体来说,文中所提出的不同随机网络生成策略可以高效的使用prototype来代表完整的随机网络,尤其是最细粒度的random vector padding (RP)策略。作者使用RP策略中的随机向量prototype和与之对应的一组子网络掩码来表示一个随机网络。在其中prototype需要保存浮点数格式,而掩码只需要保存成二值格式。因为RP中的prototype长度可以很短(因为有限数量的不重复随机数仍有很强的表征能力),所以表示一个神经网络的开销会变得很小,即储存一个长度有限的浮点数格式的随机向量和一组二值格式的掩码。相比较于传统的稀疏网络储存子网络的浮点值,本文提出了一种新的网络压缩思路用来高效的储存和传输神经网络。

1aa0ec96-7c3d-11ed-8abf-dac502259ad0.png

在上图中,作者使用PEMN对网络进行压缩并与传统的网络剪枝方法进行对比。实验使用ResNet网络在CIFAR数据集做图像分类任务。我们观察到,新的压缩方案表现普遍优于传统的网络剪枝,尤其是在很高的压缩率下,PEMN仍然可以维持较好的准确率。

5. 结论

本文受近来随机网络展现出来的潜力所启发,提出不同种参数集约策略来构建随机神经网络,进而探索了在只有有限的不重复随机数的情况下所生成的随机神经网络的表征潜力,并提出参数集约型掩码网络Parameter-Efficient Masking Networks (PEMN)。作者将PEMN应用到网络压缩的场景中探索了其在实际应用方面的潜力并且为网络压缩提供了一种新的思路。作者提供了广泛的实验,表明了即使随机网络中只有非常有限的不重复随机数,通过子网络的选择,其依然有较好的表征能力。此外,相比较于传统剪枝算法,实验表明新提出的方法可以取得更好的网络压缩效果,验证了PEMN在该场景下的应用潜力。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4656

    浏览量

    99489
  • 算法
    +关注

    关注

    23

    文章

    4484

    浏览量

    91353

原文标题:NeurIPS 2022 | PEMN:参数集约型掩码网络

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于掩码模型的LiDAR感知模型预训练策略

    对于每个被掩码的网格,计算此网格中的点云数量,并通过将点云数量除以其在3D空间中的占用体积来得到对应的密度真值。
    发表于 04-06 04:33 207次阅读
    基于<b class='flag-5'>掩码</b>模型的LiDAR感知模型预训练策略

    请问如何在XMC4108中设置掩码值和标识符值?

    如何设置掩码值和标识符值? 其实我确实掩盖了值但是没有收到 RTR 消息。 我还是很困惑。 关于掩码值和 id 值。
    发表于 01-18 08:02

    什么是子网掩码?如何根据掩码来确定ip地址网段?

    什么是子网掩码?如何根据掩码来确定ip地址网段?如何判断两个IP地址是否在同一个网段? 子网掩码是用于划分网络中主机和网络地址的一个32位二
    的头像 发表于 12-07 09:40 1487次阅读

    【ELF 1开发板试用】+ 4.0 ELF1 网络连接

    Linux开发板学习社区 - Powered by Discuz! 科普部分: (本文仅科普的在配置过程中出现的参数,没有涉猎的地方还请继续学习): 网络基础知识:IP地址,子网掩码,网关; 凡是我们需要联网
    发表于 12-06 16:08

    VLSM可变长子网掩码解析

    VLSM让我们能够在同一个分类地址空间(A类,B类,C类)中使用不同的子网掩码
    的头像 发表于 11-28 14:05 397次阅读

    linux手动设置网络参数

    Linux 是一种广泛使用的操作系统,提供了丰富的网络配置选项,允许用户手动设置网络参数,以满足各种网络需求。本文将详尽、详实、细致地介绍 Linux 中手动设置
    的头像 发表于 11-27 15:20 428次阅读

    晶体管混合π参数与Y参数的关系

    电子发烧友网站提供《晶体管混合π参数与Y参数的关系.rar》资料免费下载
    发表于 11-20 09:57 0次下载
    晶体管混合π<b class='flag-5'>型</b><b class='flag-5'>参数</b>与Y<b class='flag-5'>参数</b>的关系

    linux配置网卡的ip及相关网络参数

    在Linux系统中,配置网络参数包括配置网卡的IP地址、子网掩码、网关、DNS等。本文将以详尽、详实、细致的方式介绍Linux系统中配置网卡的IP及相关网络
    的头像 发表于 11-17 10:55 1064次阅读

    吴汉明院士:浙江大学已打造高校唯一的集成电路大生产制造试验线

    据浙江发布消息,吴汉明表示,浙江省先进的制造集群包括输出、电子设计自动化(eda)、设备、零部件、材料等各个领域,在长江三角洲地区的差别化发展中具有独特优势。他指出,集成电路是需要技术和资金持续高投入的集约型产业,需要保持战略支持,营造良好的产业氛围和集成效果。
    的头像 发表于 11-01 10:25 909次阅读

    阻抗匹配网络有L、派、T,各有什么优缺点?

    阻抗匹配网络有L、派、T,各有什么优缺点? 阻抗匹配网络有L、派
    的头像 发表于 10-22 14:25 5391次阅读

    如何使用位操作符实现低级别的位掩码

    在本文中,我们来看看如何使用位操作符实现低级别的位掩码。我们将看到我们如何将一个单一的 int 变量作为一个单独的数据容器。 位掩码掩码允许我们在一个数字变量中存储多个值。我们不再把这个变量看作
    的头像 发表于 10-07 16:52 294次阅读

    英特尔推新型封装材料,满足大模型时代应用

    根据英特尔的正式介绍,玻璃与现在的有机基板相比,具有非常低的平面图、更好的热性能和机械稳定性等独特的性质,从而在基板上实现更高的相互连接密度。这将使芯片设计者能够制作高密度高性能芯片包,以满足人工智能等数据集约型工作量。
    的头像 发表于 09-19 09:46 325次阅读

    农田连片,农业灌溉一体化泵房助农增产

    在中国,农业耕地分散,并不利于实现集约型灌溉系统的打造,淡水资源匮乏且分布不均的矛盾日益凸显,为解决这一问题,政府提出了“打造高标准农田灌溉项目”的建设项目,将农业耕地连成片,这对于大规模的集中灌溉系统提出了更高的要求,农业灌溉一体化泵房应运而生。
    的头像 发表于 08-29 16:13 352次阅读
    农田连片,农业灌溉一体化泵房助农增产

    显示装备国产替代订单增长 联得装备上半年净利润同比增长174.25%

    半导体显示器设备行业是技术集约型行业,企业的技术储备和技术开发能力是企业生存和发展的基础。公司坚持顾客需求方向,不断推陈出新,打破技术壁垒,持续自主研发创新,在半导体显示器设备领域走在业界前列。
    的头像 发表于 08-25 10:51 523次阅读

    详细介绍​注意力机制中的掩码

    注意力机制的掩码允许我们发送不同长度的批次数据一次性的发送到transformer中。在代码中是通过将所有序列填充到相同的长度,然后使用“attention_mask”张量来识别哪些令牌是填充的来做到这一点,本文将详细介绍这个掩码的原理和机制。
    的头像 发表于 07-17 16:46 535次阅读
    详细介绍​注意力机制中的<b class='flag-5'>掩码</b>