PEMN：参数集约型掩码网络-电子发烧友网

NeurIPS 2022 | Parameter-Efficient Masking Networks，美国东北大学，罗切斯特理工等，提出参数集约型掩码网络，探索有限数量随机数的表征能力并提升神经网络储存和传输效率。

为了处理更复杂的任务，近年来神经网络的规模也在不断变大，如何高效的储存和传输神经网络变得十分重要。另一方面，随着彩票假说（Lottery Ticket Hypothesis (LTH)）的提出，随机稀疏神经网络最近展现出很强的潜力，如何利用这种潜力来提高网络的存储和传输效率也很值得探索。

来自美国东北大学和罗切斯特理工的研究者提出参数集约型掩码网络（Parameter-Efficient Masking Networks (PEMN)）。作者首先探索了有限数量随机数生成的随机网络的表征能力。实验表明，即使网络由有限数量的随机数生成，通过选择不同的子网络结构，其依然具有很好的表征能力。通过这种探索性实验，作者自然地提出使用一组有限数量随机数作为prototype，结合一组mask来表达一个神经网络。因为有限数量的随机数和二值的mask占用很少的储存空间，作者以此来提出一种新的思路来进行网络压缩。文章已被NeurIPS 2022 接受。代码已开源。

Parameter-Efficient Masking Networks

论文地址: https://arxiv.org/abs/2210.06699

论文代码: https://github.com/yueb17/PEMN

1. 相关研究

MIT研究人员提出彩票假说 Lottery Ticket Hypothesis (ICLR’19)：在一个随机初始化网络中，存在一个彩票子网络（winning ticket）在被单独训练的情况下达到很好的效果。彩票假说探索了随机稀疏网络的可训练性。Uber研究人员提出Supermask (NeurIPS’19)：在一个随机初始化网络中，存在一个子网络，可以直接用来做推断而不需要训练。Supermask探索了随机稀疏网络的可用性。华盛顿大学研究人员提出Edge-Popup (CVPR’20)：通过反向传播学习子网络的mask，大幅提升了随机稀疏网络的可用性。

2. 研究动机/流程

以上相关研究从不同角度探索了随机稀疏网络的潜力，如可训练性和可用性，其中可用性也可以理解为表征能力。在此工作中，作者感兴趣的是由随机数生成的神经网络在不训练权重的情况下有多强的表征能力。随着对该问题的探索，作者提出了Parameter-Efficient Masking Networks (PEMN)。自然地，作者运用PEMN为网络压缩提供了一种新的思路，并作为一个例子对PEMN的潜在应用场景进行探索。

3. 探索随机数构成的神经网络的表征能力

给定一个随机网络，作者选择Edge-Popup算法在其中选择子网络来探索其表征能力。不同的是，相对于对整个网络进行随机初始化，作者提出了三种参数集约型的网络生成策略来使用一个prototype构建随机网络。

One-layer: 选择网络中重复结构的权重作为prototype来填充其他的与之结构相同的网络层。

Max-layer padding (MP): 选择参数量最多的网络层作为prototype并且截断相应的参数量来填充其他网络层。

Random vector padding (RP): 选择一定长度的随机向量作为prototype并对其进行复制来填充整个网络。

三种不同的随机网络生成策略把网络中不重复参数值（unique values）的数量逐步变小，我们基于不同策略得到的随机网络来选择子网络，从而探索了有限数量随机数生成的随机网络的表征潜力。

上图展示了使用ConvMixer 和 ViT 网络CIFAR10图像分类的实验结果。Y轴为准确率，X轴为使用不同策略得到的随机网络。随之X轴的变大，随机网络中不重复随机数数量逐渐变小（RP后的数字表示相比较于MP，RP中不重复随机数数量的比例）。根据实验结果，我们观察到即使随机网络只有非常有限的不重复随机数（比如PR_1e-3），依然可以很好的维持选择出来的子网络的表征能力。至此，作者通过不同的随机网络生成策略，探索了有限数量随机数构成的神经网络的表征能力并观察到即使不重复随机数非常有限，其对应的随机网络依然可以很好地对数据进行表征。同时作者基于这些随机网络生成策略，结合所得到的子网络掩码，提出了Parameter-Efficient Masking Networks（PEMN）这种新的神经网络类型。

4. 一种新的网络压缩思路

本文选择了神经网路压缩为例来拓展PEMN的潜在应用。具体来说，文中所提出的不同随机网络生成策略可以高效的使用prototype来代表完整的随机网络，尤其是最细粒度的random vector padding （RP）策略。作者使用RP策略中的随机向量prototype和与之对应的一组子网络掩码来表示一个随机网络。在其中prototype需要保存浮点数格式，而掩码只需要保存成二值格式。因为RP中的prototype长度可以很短（因为有限数量的不重复随机数仍有很强的表征能力），所以表示一个神经网络的开销会变得很小，即储存一个长度有限的浮点数格式的随机向量和一组二值格式的掩码。相比较于传统的稀疏网络储存子网络的浮点值，本文提出了一种新的网络压缩思路用来高效的储存和传输神经网络。

在上图中，作者使用PEMN对网络进行压缩并与传统的网络剪枝方法进行对比。实验使用ResNet网络在CIFAR数据集做图像分类任务。我们观察到，新的压缩方案表现普遍优于传统的网络剪枝，尤其是在很高的压缩率下，PEMN仍然可以维持较好的准确率。

5. 结论

本文受近来随机网络展现出来的潜力所启发，提出不同种参数集约策略来构建随机神经网络，进而探索了在只有有限的不重复随机数的情况下所生成的随机神经网络的表征潜力，并提出参数集约型掩码网络Parameter-Efficient Masking Networks (PEMN)。作者将PEMN应用到网络压缩的场景中探索了其在实际应用方面的潜力并且为网络压缩提供了一种新的思路。作者提供了广泛的实验，表明了即使随机网络中只有非常有限的不重复随机数，通过子网络的选择，其依然有较好的表征能力。此外，相比较于传统剪枝算法，实验表明新提出的方法可以取得更好的网络压缩效果，验证了PEMN在该场景下的应用潜力。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4773

浏览量
100882
算法

算法

+关注

关注
23

文章
4619

浏览量
93039

原文标题：NeurIPS 2022 | PEMN：参数集约型掩码网络

文章出处：【微信号：CVer，微信公众号：CVer】欢迎添加关注！文章转载请注明出处。

子网掩码反运算的步骤和应用

32位地址，主要用来区分IP地址中的网络部分和主机部分。它是由一串连续的1和连续的0组成，其中的1表示网络部分，0用来表示主机部分。子网掩码与IP地址一起使用，用于确定IP地址的所属网络

发表于 12-09 09:27 •141次阅读

一文分清IP地址、子网和子网掩码的关系

大家在进行IPv4地址配置时都看到过“子网掩码”这样的参数名，许多小伙伴都会疑惑这是个啥？有什么用呢？下面带领大家认识认识子网掩码以及跟其密不可分的子网！ 1 IP地址、子网和子网掩码

发表于 12-07 10:20 •998次阅读

什么是小水电集约化管理？小水电集约化管理实现的价值

小水电集约化管理，是指在集控运行中心通过网络通道实现远程对小水电站集群进行远程控制、统一规范运行。以区域、流域为单元，集中相关资源和业务，专业化分工，实现区域、流域内水电站群集控运维、专业化的统一运营管理。

发表于 11-12 14:26 •297次阅读

Linux ifconfig网络参数详解

ifconfig 主要是可以手动启动、观察与修改网络接口的相关参数。

发表于 10-24 17:31 •586次阅读

日本东京ip和子网掩码

日本东京的IP地址和子网掩码是紧密相连的，它们共同决定了网络中设备的通信方式。下面rak小编将详细介绍日本东京的IP地址和子网掩码。

发表于 10-12 10:13 •328次阅读

电流反馈型运放与电压反馈型运放

，选择具有适当增益带宽积（GBW）、转换速率（SR）和输入/输出阻抗等参数的CFA器件。（2）设计输入和输出网络：根据所需的增益、带宽和稳定性等要求，设计合适的输入和输出网络。这可能包括电阻、电容和电感

发表于 09-10 09:47

嵌入式学习-常见的shell命令之网络相关命令

配给任何主机，仅用作广播地址（三）IP地址127.0.0.1为回环结构，用于本地进行软件测试4）子网掩码子网掩码是一个32位的二进制地址，用来屏蔽原来网络地址的划分情况，从而获得一个范围小的，可以实际使用

发表于 08-21 09:41

常见的shell命令之网络相关命令

配给任何主机，仅用作广播地址（三）IP地址127.0.0.1为回环结构，用于本地进行软件测试4）子网掩码子网掩码是一个32位的二进制地址，用来屏蔽原来网络地址的划分情况，从而获得一个范围小的，可以实际使用

发表于 08-20 09:50

神经网络各个网络参数的设定原则

神经网络各个网络参数的设定原则是一个复杂而关键的过程，它直接影响到网络的性能和学习效果。以下将从网络节点、初始权值、训练速率、动态

发表于 07-11 17:03 •1086次阅读

矢量网络分析仪怎么测量S参数？

矢量网络分析仪（VNA）是一种用于测量射频（RF）和微波网络的散射参数（S参数）的高精度仪器。

发表于 05-17 16:25 •2312次阅读

LED显示屏控制软件参数配置方法

基本参数是户外LED屏的基础参数，如果设置不正确，则不能通信或不显示以及显示不正常。基本参数包括显示屏宽高度、控制卡地址、波特率、IP地址、端口号、MAC地址、子网掩码、网关、刷新频率

发表于 04-09 09:33 •1509次阅读

基于掩码模型的LiDAR感知模型预训练策略

对于每个被掩码的网格，计算此网格中的点云数量，并通过将点云数量除以其在3D空间中的占用体积来得到对应的密度真值。

发表于 04-06 04:33 •626次阅读

除了S参数，还有哪些网络参数呢？

对于射频人员来讲，最熟悉的可能就是S参数了。但是除了S参数之外，其实还有其他很多网络参数。

发表于 02-27 16:35 •1385次阅读

G10指令可以对参数进行赋值，位型参数可以吗？

G10指令可以对参数进行赋值，位型参数可以吗？ G10指令是用于在加工程序中进行参数赋值的指令。它可以用于指定数值型

发表于 02-18 10:49 •893次阅读

请问如何在XMC4108中设置掩码值和标识符值？

如何设置掩码值和标识符值？其实我确实掩盖了值但是没有收到 RTR 消息。我还是很困惑。关于掩码值和 id 值。

发表于 01-18 08:02