论文地址：https://arxiv.org/pdf/1901.01660.pdf

摘要

目前在孪生网络追踪器中使用的主干网络相对较浅，例AlexNet。本文研究如何利用更深和更广的卷积神经网络来增强跟踪的鲁棒性和准确性。使用改进后的网络直接替换，例如ResNet和Inception，并没有带来改进。主要原因是 1）神经元感受野的大幅增加导致特征可辨性和定位精度降低; 2）卷积的网络 padding 在学习中引起位置偏差。

为了解决这些问题，我们提出了新的残差模块，以消除padding的负面影响，并进一步设计使用这些模块的新架构，具有受控的感受野大小和步长。设计的架构应用于SiamFC+和SiamRPN时保证了实时跟踪速度。实验表明，仅仅由于所提出的网络架构，我们的 SiamFC+和 SiamRPN+分别在OTB-15，VOT-16和VOT-17数据集上，相对于原始版本获得了高达9.8％/ 5.7％（AUC），23.3％/ 8.8％（EAO）和 24.4％/ 25.0％（EAO）的相对改进。

1.介绍

1.1 相关研究

RPN详细介绍：https://mp.weixin.qq.com/s/VXgbJPVoZKjcaZjuNwgh-A

SiamFC详细介绍：https://mp.weixin.qq.com/s/kS9osb2JBXbgb_WGU_3mcQ

SiamRPN详细介绍：https://mp.weixin.qq.com/s/pmnip3LQtQIIm_9Po2SndA

1.2 本文介绍

我们用更深更广的网络取代VGG，Inception和ResNet等网络的浅层主干网。但这种简单的替换并没有带来太大的改进，甚至可能在网络深度或宽度增加时导致性能大幅下降，如图1所示。

图1：成功图的AUC与网络深度和宽度。宽度width是指模块中分支的数量。通过对 OTB-13 的评估，使用具有不同主干网络的 SiamFC获得了这个结果。

分析了Siamese网络架构，确定神经元的感受野大小、卷积步长、padding是影响跟踪精度的三个重要因素。感受野确定用于计算特征的图像区域。较大的感受野提供更大的图像上下文，而较小的感受野可能无法捕捉目标对象的结构。stride影响定位精度，同时控制输出特征图的大小。padding在模型训练中引起潜在的位置偏差。

在本文中，我们通过设计新的残差模块和网络架构来解决这些问题。首先，我们提出了一组基于“瓶颈（bottleneck）”的残差块的内部裁剪（cropping-inside residual，CIR）单元。CIR单元在块内部裁剪出受填充 padding 影响的特征（即接收填充信号的特征），从而防止卷积滤波器学习位置偏差。其次，我们通过堆叠 CIR单元设计了两种网络架构，即更深和更宽的网络。为了提高定位精度，我们设计了特定的步幅和感受野。

2. 性能退化分析

性能下降可以直接归因于网络结构，是图1实验中唯一改变的设置。因此，我们首先确定这些网络架构之间的结构差异。如表格2所示，除了深度和宽度之外，网络中还有其他几个不同的内部网络因素，包括步幅（STR），填充（PAD），最后一层神经元的感受野（RF）和输出特征尺寸（OFS）。

我们修改了 AlexNet，VGG，Inception 和 ResNet 的结构，并揭示了内部因素的影响。如表格1所示，Siamese更喜欢中级特征（步幅4或8），这些特征在物体定位方面比高级特征更精确（步幅≥16）。对于感受野（RF），最佳感受野大小覆盖输入样本图像z的约60％~80％。对于输出特征尺寸，观察到小尺寸（OFS≤3）不利于跟踪精度。

表1：AlexNet，VGG 10，Inception -22和ResNet-33上的网络内部因素分析。数字①- ⑩代表不同的版本，其中修改卷积内核大小，下采样层和填充以显示趋势。由于空间有限，补充材料中给出了有关修改的详细信息。

1.为了更好地显示趋势，我们将±0表示为网络的原始RF大小。+和-表示相对于原来的增大和减小尺寸。Max（127）表示最大有效RF，其与示例图像的大小相同，即127x127像素。

2.对于Inception网络，其RF大小位于一个范围内。这里我们只列出理论上的最大尺寸，与ResNet对齐进行比较。

表2：不同网络的内部因素：最后一层网络中的神经元的感受野（RF），步幅（STR），输出特征尺寸（OFS），填充（PAD）和宽度（W）。由于Inception在一个块中包含多个分支，因此其 RF位于一个范围内。

Siamese 框架将中心裁剪的图像对作为训练数据传入，其中目标对象始终存在于图像中心。如果输出单元的感受野延伸超出图像边界（受padding影响），网络模型学习位置产生偏差。图2给出了测试阶段中这种学习偏差的可视化示例。它显示当目标对象移动到图像边界时，其峰值不能精确指示目标的位置。这是由跟踪器漂移引起的常见情况。

图2：模型中学习的位置偏差的可视化

3. 方针

1.将步幅设定为4或8。

2.最佳感受野大小覆盖输入样本图像 z的约 60％~80％

3.在设计网络架构时，应将stride，感受野和输出特征尺寸视为一个整体。这三个因素并不是彼此独立的。如果一个改变，其他人将相应改变。将它们结合在一起可以帮助设计的网络在Siamese框架中提取更多的有判别力的特征。

4.对于全卷积的Siamese网络，删除padding操作重要。padding引起的位置偏差会降低孪生跟踪器的准确性和鲁棒性。

4. 内部裁剪残差（CIR）单元

残差单元（residual unit）是网络架构设计中的关键模块。它由3个堆叠的卷积层和绕过它们的快捷连接（shortcut connection）组成，如图3（a）所示。这三层是1×1，3×3和1×1个卷积，其中1×1层负责减少或恢复尺寸，使3×3层成为具有较小输入和输出尺寸的瓶颈（bottleneck）。此瓶颈卷积包括大小为1的zero-padding，以确保在添加之前兼容的输出大小。

图3：拟议的内部残余单位。（a）和（b）是残差单元和下采样单元（down sampling unit），而（a‘）和（b’）是我们提出的单位。（c）和（d）是建议的宽残差单元。灰色箭头表示便于信息传播的shortcut paths，而蓝色方框则突出显示与原始单位的差异。字母'p'和's'分别表示padding大小和步长。

CIR单元。如第3节所述，padding可能会在Siamese框架中引入位置偏差。为此我们增加残差单位进行裁剪操作，如图 3（a’）所示。裁剪操作会删除计算受zero-padding信号影响的特征，消除了残差单元中的padding影响特征。

下采样CIR（CIR-D）单元。它用于减少特征图的空间大小，同时使特征通道的数量加倍。下采样单元包含padding操作，如图 3（b）所示。因此，我们还修改其结构以消除由padding引起的负面影响。如图 3（b’）所示，我们在瓶颈层和shortcut connection中将卷积步幅从2改为1。插入裁剪以移除受padding影响的特征。最后，使用最大池化层来执行特征图的空间下采样。这些修改的关键思想是确保仅删除受填充影响的特征，同时保持内部块结构不变。

CIR-Inception和CIR-NeXt单元。根据Inception和ResNeXt，通过多个特征变换扩展CIR单元，生成CIR-Inception和CIR-NeXt 模块，如图 3（c-d）所示。具体来说，在CIR-Inception结构中，我们在shortcut connection中插入一个1x1卷积，并合并两个分支的特征。在CIR-ResNeXt中，我们将瓶颈层拆分为32个转换分支，并通过添加进行聚合。此外，对于CIR-Inception 和CIR-NeXt的下采样单元，修改与CIR-D（图 3（b’））中的修改相同，其中卷积步幅减小并且增加了最大池化层。

5. 网络架构 Network Architectures

通过堆叠上述CIR单元，我们构建了更深更宽的网络。首先确定stride，步幅8用于构建3级网络，而步幅4用于构建2级网络。然后，我们堆叠CIR单位。我们控制每个阶段的unit数量和下采样unit的位置。 目标是确保最后一层神经元的感受野大小位于有效范围内 ，即样本图像大小的 60％-80％。另外，当网络深度增加时，感受野可能超过该范围。因此，我们将步幅减半，以控制感受野。

更深的网络 。我们使用CIR和CIR-D单元构建更深的网络。这些结构类似于ResNet，但具有不同的stride，感受野和结构单元（building blocks）。

CIResNet-22有3个部分（stride=8），22个卷积层。除了第一个7×7卷积，其他都是CIR单位。在7×7卷积之后进行裁剪操作（大小为2）以移除受padding影响的特征。前两个阶段的特征下采样是通过原来ResNet的卷积和步幅2的最大池化来执行的。在第三阶段，通过所提出的CIR-D单元执行下采样，该CIR-D单元位于该阶段的第一个块（共四个）。当feature map大小被下采样时，卷积核的数量加倍以增加特征可辨别性。输出feature map大小是5×5，每个feature感受野的相应大小93×93。

构建CIResNet-43时进一步将网络深度增加到43层，设计为2个阶段，在 CIResNet-43的第二阶段，有14个块，其中第四个块具有用于特征下采样的 CIR-D 单元。

更宽的网络 。我们分别使用CIR-Inception和CIR-NeXt单元构建两种类型的宽网络体系结构。我们提供一个22层结构作为示例。正如表3所示，CIResInception-22和CIResNeXt-22具有与CIResNet-22类似的结构。但是通过多分支构建块，网络宽度分别增加了2倍和32倍。而且，由于多分支级联，在CIResInception-22中感受野大小变得多样化（即13~93）。

表3：用于连体跟踪器的设计骨干网络的架构。CIResNet-43中CIR-D位于'conv3'阶段的第四个块中，其他网络用于第一个块。

6. 实验

我们首先将我们更深更宽的网络与SiamFC和SiamRPN中的主干AlexNet进行比较。正如表4中所示，在OTB-13，OTB-15和VOT-17数据集上，我们提出的网络优于基线AlexNet。特别是，配备CIResIncep-22网络的 SiamFC 分别在OTB-2013和VOT-1上获得了比原始AlexNet高9.5％（AUC）和14.3％（EAO）的相对改进。同时，配备CIResNet-22的SiamRPN实现了4.4％和23.3％的相对改善。这验证了我们设计的体系结构解决了图1中所示的性能下降问题。此外，它还显示了我们提出的CIR单元对于连体网络的有效性。

学习更多编程知识，请关注我的公众号：

[代码的路]

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4771

浏览量
100723
图像处理

图像处理

+关注

关注
27

文章
1289

浏览量
56726
CIR

CIR

+关注

关注
0

文章
2

浏览量
7023

数字孪生与物联网的结合

联网则是通过传感器、设备和网络连接，实现物理世界与数字世界的无缝连接。当这两个技术结合时，它们可以为制造业、医疗、城市基础设施和其他行业带来革命性的变化。数字孪生与物联网的结合 1. 概念简介数字孪生：数字

发表于 10-25 14:36 •349次阅读

恩智浦Real-Time Edge软件的优势特性

今天的工业边缘应用在受益于复杂的操作系统的同时，也越来越需要实时处理响应，这导致了系统设计复杂性的增加。

发表于 10-12 11:38 •499次阅读

恩智浦携手RTI推动SDV应用的实现

恩智浦携手Real-Time Innovations (RTI) 为软件定义汽车 (SDV) 带来了一套强大的集成解决方案。他们展示了如何推动未来的汽车连接，为SDV和智能交通系统铺平了道路。

发表于 08-27 09:20 •1449次阅读

RTOS与Linux有什么区别

RTOS（Real-Time Operating System，实时操作系统）与Linux是两种在不同应用场景下发挥重要作用的操作系统，它们在设计理念、功能特性、应用场景以及性能表现等方面存在显著差异。以下是对RTOS与Linux区别的详细分析。

发表于 08-20 16:05 •3473次阅读

年度分析显示工业网络市场稳步增长 - HMS Networks最新发布2024年工业网络市场份额报告

每年，HMS Networks都会对工业网络市场进行全面分析，旨在估计工厂自动化中按类型和协议划分的新连接节点的分布情况。最新研究表明，工业网络市场继续扩张，预计2024年将增长7%。值得注意

发表于 06-28 18:20 •352次阅读

年度分析显示工业<b class='flag-5'>网络</b>市场稳步增长 - HMS <b class='flag-5'>Networks</b>最新发布2024年工业<b class='flag-5'>网络</b>市场份额报告

什么是数字孪生

近年来，数字孪生这个词不断出现在公众视野中，尤其是随着物联网技术的发展，数字孪生不断出现在各行各业。乍一看，这个概念还是比较生僻的。什么是数字孪生？首先，我们来看一下数字孪生的定义，

发表于 06-05 15:45 •919次阅读

DW01-A（锂电保护IC）

发表于 05-22 22:23 •8次下载

Palo Alto Networks与IBM携手，深化网络安全合作

网络安全领域的两大巨头Palo Alto Networks和IBM近日宣布建立全面合作伙伴关系，共同推动网络安全领域的创新发展。根据协议，Palo Alto Networks将收购IB

发表于 05-22 09:40 •596次阅读

微内核实时操作系统的介绍

微内核实时操作系统（Microkernel Real-Time Operating System, μRTOS）是一种专为实时设计的操作系统。它采用微内核架构，以提高系统的可靠性、安全性和可扩展性。以下是关于微内核实时操作系统的一些关键特点：

发表于 05-11 17:13 •499次阅读

protues出现Real Time Simulation failed to start.

加器件之前正常，但是加了器件之后就报这个错误：Real Time Simulation failed to start. 加的器件时候两幅图里的（一个MAX232，一个是加热或加湿的模拟装置，通过

发表于 04-29 21:52

PXIe-8108网口连接至电脑后，NI-max搜索不到远程设备

已经确定现在有一个PXIe-8108的控制器，是real-time驱动的，按照之前的说明设置完成电脑的IP协议之后，还是在NI-max里面搜索不到该远程设备，请问大家知道如何解决吗？

发表于 04-15 13:00

网络攻防模拟与城市安全演练 | 数字孪生

在数字化浪潮的推动下，网络攻防模拟和城市安全演练成为维护社会稳定的不可或缺的环节。基于数字孪生技术我们能够在虚拟环境中进行高度真实的网络攻防模拟，为安全专业人员提供实战经验，从而提升应对网络

发表于 02-04 10:48 •664次阅读

恩智浦Real-time Edge v2.7正式发布！

Real-time Edge软件是恩智浦提供的针对工业和物联网应用的一套软件集，面对工业和物联网垂直领域的具体需求，提供了针对性的实时系统, 工业实时网络和丰富的工业协议支持。

发表于 01-26 09:19 •625次阅读

浅谈基于数字孪生的配电室关键技术研究

的各种数据是实现数字孪生的前提和依据，需要在机房内设置相应的设备，使机房内的主要物性参数尽可能完整，并保证获取的及时性以及具大的存储空间，以便存储机房整个生命周期内的数据。采集装置、网络通道要稳定

发表于 01-09 15:49

rt-thead和frertos区别

： RT-Thread（Real-Time Thread，以下简称RTT）的设计理念是以“实时性”为核心，追求极致的实时性能。它提供了轻量级的线程模型和可裁剪的内核，可以在资源受限的嵌入式系统中高效运行

发表于 01-08 14:56 •6188次阅读

搜索历史

DW-Siam：Deeper and Wider Siamese Networks for Real-Time Visual Tracking 更宽更深的孪生网络

摘要