Dynamic ReLU：根据输入动态确定的ReLU-电子发烧友网

这是我最近才看到的一篇论文，它提出了动态ReLU (Dynamic ReLU, DY-ReLU)，可以将全局上下文编码为超函数，并相应地调整分段线性激活函数。

与传统的ReLU相比，DY-ReLU的额外计算成本可以忽略不计，但表示能力明显增强，并且实现简单，所以可以非常简单的对我们现有的模型进行修改。

Dynamic ReLU (DY-ReLU)

对于给定的输入向量(或张量)x，DY-ReLU被定义为具有可学习参数θ(x)的函数fθ(x)(x)，该参数适应于输入x，它包括两个功能:

超函数θ(x):用于计算激活函数的参数。

激活函数fθ(x)(x):使用参数θ(x)生成所有通道的激活。

1、函数定义

设传统的或静态的ReLU为y = max(x, 0)。ReLU可以推广为每个通道c的参数分段线性函数。

其中coeffcients ( akc , bkc )是超函数(x)的输出，如下:

其中K是函数的个数，C是通道的个数。论文中K=2。

2、超函数θ(x)的实现

使用轻量级网络对超函数进行建模，这个超函数类似于SENet中的SE模块(稍后会介绍)。

输出有2KC个元素，对应于a和b的残差。2σ(x)-1用于对-1到1之间的残差进行归一化，其中σ(x)表示s型函数。最终输出计算为初始化和残差之和，如下所示:

其中λ是标量，这个公式也就是我们上面的图

3、与先前研究的关系

可以看到DY-ReLU的三种特殊情况相当于ReLU、Leaky ReLU和PReLU。

4、DY-ReLU的变体

DY-ReLU-A:激活函数是空间和通道共享的。

DY-ReLU-B:激活函数是空间共享和通道相关的。

DY-ReLU-C:激活的是空间和通道分开的。

结果展示

1、消融研究

所有三种变化都比基线有所改善，但通道分开的DY-ReLU(变化B和C)明显优于通道共享的DY-ReLU(变化A)。

所以根据上面结果，使用DY-ReLU-B进行ImageNet分类，使用DY-ReLU-C进行COCO关键点检测。

2、ImageNet分类

使用MobileNetV2 (×0.35和×1.0)，用不同的激活函数代替ReLU。所提出的方法明显优于所有先前的工作，包括具有更多计算成本的Maxout。这表明DY-ReLU不仅具有更强的表示能力，而且计算效率高。

上图绘制了5万张验证图像在不同区块(从低到高)的DY-ReLU输入输出值。可以看到学习到的DY-ReLU在特征上是动态的，因为对于给定的输入x，激活值(y)在一个范围内(蓝点覆盖的范围)变化。

下图分析DY-ReLU中两段之间的夹角(即斜率差|a1c-a2c|)。激活函数在较高水平上具有较低的弯曲。

3、COCO关键点估计

当使用MobileNetV3作为骨干时，删除SENet模块，使用DY-ReLU替代ReLU和h-Swish后，结果也有提高。

总结

可以看到，只是使用DY-ReLU替换现有的激活函数，模型的表现明显优于基线模型。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

编码器

编码器

+关注

关注
45

文章
3645

浏览量
134568

AI模型部署边缘设备的奇妙之旅：目标检测模型

连接层的一种替代方案，某些架构尝试使用稀疏连接来减少参数数量并提高效率，比如通过只连接特定模式下的神经元。动态架构调整：现代的一些研究探索了动态改变网络结构的可能性，例如根据输入样本

发表于 12-19 14:33

caffe源码解读《十三》relu

编程语言行业芯事经验分享

蒙特卡洛家的树

发布于 :2022年03月09日 13:41:01

【NanoPi K1 Plus试用体验】深度学习---快速开始序贯（Sequential）模型

('relu'),Dense(10),Activation('softmax'),])也可以通过.add()方法一个个的将layer加入模型中：model = Sequential()model.add

发表于 07-20 15:55

Keras可视化神经网络架构的4种方法

Boards 要求用户在架构可视化之前根据准确的数据训练模型。在开始进行可视化之前，我们先需要安装相应的包：pip install visualkeras pip install ann_visualizer

发表于 11-02 14:55

bottom-up多层规约图融合策略资料介绍

（例如Conv+ReLU）则受限于供应商API的支持程度。　　随着AI模型在各领域的发展、成熟和落地，模型推理在具体设备上的性能变得越发重要，17年到18年，业界出现了大量面向DL模型推理的计算框架，算子

发表于 11-09 17:33

深度学习在医学图像分割与病变识别中的应用实战

): inputs = Input(input_shape) # 编码器部分 conv1 = Conv2D(32, (3, 3), activation=\'relu\', padding

发表于 09-04 11:11

【KV260视觉入门套件试用体验】Vitis AI 通过迁移学习训练自定义模型

是ResNet系列中最简单的一个模型，共有18层，其中包括：一个7×7的卷积层，输出通道数为64，步幅为2，后接批量归一化（Batch Normalization）和ReLU激活函数。一个3×3的最大池

发表于 10-16 15:03

技嘉主板Dynamic Energy Saver动态节能工

技嘉主板Dynamic Energy Saver动态节能工具B8.0128.1版.zip

发表于 01-27 14:27 •15次下载

深度ReLU网络的训练动态过程及其对泛化能力的影响

基于这个框架，我们试图用统一的观点来解释这些令人费解的经验现象。本文使用师生设置，其中给过度参数化的深度学生ReLU网络的标签，是具有相同深度和未知权重的固定教师ReLU网络的输出（图1（a））。在这个角度来看，隐藏的学生节点将随机初始化为不同的激活区域。（图2（a））

发表于 06-15 10:48 •3354次阅读

深度<b class='flag-5'>ReLU</b>网络的训练<b class='flag-5'>动态</b>过程及其对泛化能力的影响

ngx_dynamic_limit_req_module IP动态锁定工具

./oschina_soft/ngx_dynamic_limit_req_module.zip

发表于 05-07 09:29 •0次下载

ngx_<b class='flag-5'>dynamic</b>_limit_req_module IP<b class='flag-5'>动态</b>锁定工具

在PyTorch中使用ReLU激活函数的例子

PyTorch已为我们实现了大多数常用的非线性激活函数，我们可以像使用任何其他的层那样使用它们。让我们快速看一个在PyTorch中使用ReLU激活函数的例子：

发表于 07-06 15:27 •2548次阅读

RPN：Region Proposal Networks (区域候选网络)

图片在输入网络后，依次经过一系列卷积+ReLU得到的51×39×256维feature map，准备后续用来选取proposal。

发表于 01-11 16:55 •1405次阅读

Relu算子的介绍

Relu是一种非线性激活函数，它的特点有运算简单，不会在梯度处出现梯度消失的情况，而且它在一定程度上能够防止深度学习模型在训练中发生的过拟合现象。

发表于 01-11 17:07 •1548次阅读

结合卷积层来创建一个完整的推理函数

首先输入一张1x28x28的图片，然后两次通过Conv2d -> ReLU -> MaxPool2d提取特征，最后转为linear，> ReLU -> Linear为10阶向量值。

发表于 03-13 09:22 •730次阅读

深度ReLU网络的对应浅层网络

只要你用了ReLU，我们就是好朋就是“浅度学习”。最近有研究证明，所有基于ReLU的深度神经网络都可以重写为功能相同的3层神经网络。基于这个证明，伦敦国王学院的研究团队还提出一种为任意

发表于 07-03 14:13 •565次阅读

搜索历史

Dynamic ReLU：根据输入动态确定的ReLU