0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

南开大学提出LSKNet:遥感旋转目标检测新SOTA!

CVer 来源:CVer 2023-07-18 16:57 次阅读

Abstract

最近关于遥感物体检测的研究主要集中在改进旋转包围框的表示方法上,但忽略了遥感场景中出现的独特的先验知识。这种先验知识是非常重要的,因为微小的遥感物体可能会在没有参考足够长距离背景的情况下被错误地检测出来,而不同类型的物体所要求的长距离背景可能会有所不同。在本文中,我们将这些先验因素考虑在内,并提出了Large Selective Kernel Network(LSKNet)。LSKNet可以动态地调整其大空间感受野,以更好地建模遥感场景中各种物体的测距的场景。据我们所知,这是首次在遥感物体检测领域探索大选择性卷积核机制的工作。在没有任何附加条件的情况下,我们LSKNet比主流检测器轻量的多,而且在多个数据集上刷新了SOTA!HRSC2016(98.46% mAP)、DOTA-v1.0(81.64% mAP)和FAIR1M-v1.0(47.87% mAP)。

Introduction

近期很少有工作考虑到遥感图像中存在的强大的先验知识。航空图像通常是以高分辨率的鸟瞰视角拍摄的。特别是,航空图像中的大多数物体可能是小尺寸的,仅凭其外观很难识别。相反,这些物体的成功识别往往依赖于它们的背景,因为周围的环境可以提供关于它们的形状、方向和其他特征的宝贵线索。根据对主流遥感数据集的分析,我们确定了两个重要的前提条件:

4f32ea0a-24bb-11ee-962d-dac502259ad0.jpg

图1. 成功地检测遥感目标需要使用广泛的背景信息。感受野有限的探测器可能很容易导致错误的探测结果。CT :Context

(1)准确检测遥感图像中的物体往往需要广泛的背景信息。

如图1(a)所示,遥感图像中的物体检测器所使用的有限范围的背景往往会导致错误的分类。例如,在上层图像中,由于其典型特征,检测器可能将T子路口归类为十字路口,但实际上,它不是一个十字交路口。同样,在下图中,由于大树的存在,检测器可能将十字路口归类为非路口,但这也是不正确的。这些错误的发生是因为检测器只考虑了物体附近的有限的上下文信息。在图1(b)中的船舶和车辆的例子中也可以看到类似的情况。

4f446f32-24bb-11ee-962d-dac502259ad0.jpg

图2. 按照人类的标准,不同的物体类型所需要的背景信息范围非常不同。红框是目标GT标注。

(2) 不同类型的物体所需的上下文信息的范围非常不同。如图2所示,在遥感图像中进行准确的物体检测所需的背景信息量会因被检测物体的类型而有很大不同。例如,足球场可能需要相对较少的额外环境信息,因为它有独特的可区分的球场边界线。相比之下,环岛可能需要更大范围的上下文信息,以区分花园和环形建筑。交叉口,特别是那些部分被树木覆盖的交叉口,由于相交道路之间的长距离依赖性,往往需要一个非常大的感受野。这是因为树木和其他障碍物的存在会使人们难以仅仅根据外观来识别道路和交叉口本身。其他物体类别,如桥梁、车辆和船舶,也可能需要不同规模的感受野,以便被准确检测和分类。

因为这些图像往往需要广泛和动态的背景信息,我们提出了一种新的方法,称为Large Selective Kernel Network(LSKNet)。我们的方法包括动态调整特征提取骨干的感受野,以便更有效地处理被检测物体的不同的广泛背景。这是通过一个空间选择机制来实现的,该机制对一连串的大depth-wise卷积核所处理的特征进行有效加权,然后在空间上将它们合并。这些核的权重是根据输入动态确定的,允许该模型自适应地使用不同的大核,并根据需要调整空间中每个目标的感受野。据我们所知,我们提出的LSKNet是第一个研究和讨论在遥感物体探测中使用大的和有选择性的卷积核的模型。尽管我们的模型很简单,但在三个流行的数据集上实现了最先进的性能。HRSC2016(98.46% mAP)、DOTA-v1.0(81.64% mAP)和FAIR1M-v1.0(47.87% mAP),超过了之前公布的结果。此外,我们实验证明了我们模型的行为与上述两个先验假设的一致性。

Method

4f61a660-24bb-11ee-962d-dac502259ad0.jpg

图3. LSK Block 图示

4f76eb74-24bb-11ee-962d-dac502259ad0.jpg

图4. LSK Module 的概念图。

LSKNet Architecture

图3展示了一个LSKNet Bolck的图示,是主干网中的一个重复块,其灵感来自ConvNeXt, PVT-v2, VAN, Conv2Former 和 MetaFormer。每个LSKNet块由两个剩余子块组成:大核选择(LK Selection)子块和前馈网络(FFN)子块。LK选择子块根据需要动态地调整网络的感受野。前馈网络子块用于通道混合和特征细化,由一个全连接层、一个深度卷积、一个GELU激活和第二个全连接层组成的序列。核心模块LSK Module(图4)被嵌入到LK选择子块中。它由一连串的大内核卷积和一个空间内核选择机制组成。

Large Kernel Convolutions & Spatial Kernel Selection

根据Introduction中所说的先验(2),建议对一系列的多个尺度的背景进行建模,以进行适应性选择。因此,我们建议通过明确地将其分解为一连串具有大的卷积核和不断扩张的depth-wise卷积来构建一个更大感受野的网络。其序列中第i个深度卷积的核大小k、扩张率d和感受野RF的扩展定义如下:

4f913146-24bb-11ee-962d-dac502259ad0.png

核的大小和扩张率的增加确保了感受野有足够快的扩展。我们对扩张率设定了一个上限,以保证扩张卷积不会在特征图之间引入空隙。

所提出的设计有两个优点。第一,它明确地产生了具有各种大感受野的多个特征,这使得后来的内核选择更加容易。第二,顺序分解比简单地应用一个较大的核更有效更高效。为了提高网络关注检测目标的最相关的空间背景区域的能力,我们使用了一种空间选择机制,从不同尺度的大卷积核中空间选择特征图。图4显示了LSK模块的详细概念图,在这里我们直观地展示了大选择核是如何通过自适应地收集不同物体的相应大感受野而发挥作用的。

LSK Module 的pytorch代码如下:

class LSKmodule(nn.Module):
    def __init__(self, dim):
        super().__init__()
        self.conv0 = nn.Conv2d(dim, dim, 5, padding=2, groups=dim)
        self.convl = nn.Conv2d(dim, dim, 7, stride=1, padding=9, groups=dim, dilation=3)
        self.conv0_s = nn.Conv2d(dim, dim//2, 1)
        self.conv1_s = nn.Conv2d(dim, dim//2, 1)
        self.conv_squeeze = nn.Conv2d(2, 2, 7, padding=3)
        self.conv_m = nn.Conv2d(dim//2, dim, 1)

    def forward(self, x):   
        attn1 = self.conv0(x)
        attn2 = self.convl(attn1)

        attn1 = self.conv0_s(attn1)
        attn2 = self.conv1_s(attn2)
        
        attn = torch.cat([attn1, attn2], dim=1)
        avg_attn = torch.mean(attn, dim=1, keepdim=True)
        max_attn, _ = torch.max(attn, dim=1, keepdim=True)
        agg = torch.cat([avg_attn, max_attn], dim=1)
        sig = self.conv_squeeze(agg).sigmoid()
        attn = attn1 * sig[:,0,:,:].unsqueeze(1) + attn2 * sig[:,1,:,:].unsqueeze(1)
        attn = self.conv_m (attn)
        return x * attn

Results

在我们的实验中,我们报告了HRSC2016、DOTA-v1.0和FAIR1M-v1.0数据集上的检测模型结果。为了保证公平性,我们遵循与其他主流方法相同的数据集处理方法和训练方式(如S2A-Net, Oriented RCNN, R3Det...)。

4f9c6d72-24bb-11ee-962d-dac502259ad0.jpg

表1. LSKNet-T和ResNet-18作为骨干网在DOTA-v1.0上的不同检测框架的比较。LSKNet-T骨干网在ImageNet上进行了100次预训练。与ResNet-18相比,轻量级的LSKNet-T在各种框架中取得了明显更高的mAP。

在不同检测框架下,使用我们的LSKNet骨干,模型更轻量,对检测模型性能提升巨大!(表1)

4fab049a-24bb-11ee-962d-dac502259ad0.jpg

表2. 在DOTA-v1.0的O-RCNN框架下,LSKNet-S和其他(大核/选择性注意)骨干的比较,除了Prev Best是在RTMDet下。所有骨干网都在ImageNet上进行了100次预训练。我们的LSKNet在类似的复杂度预算下实现了最佳的mAP,同时超过了之前的最佳公开记录。

在相同检测框架的不同骨干网络(大卷积核和选择性机制的骨干网络)中,在相似模型复杂的的前提下,我们的LSKNet骨干mAP更强!(表2)

4fbe35c4-24bb-11ee-962d-dac502259ad0.png

表3. 在HRSC2016数据集上与最先进的方法比较。

在HRSC2016数据集上,性能超越之前所有的方法!(表3)

4fe0157c-24bb-11ee-962d-dac502259ad0.png

表4. 在多尺度训练和测试的DOTA-v1.0数据集上与最先进的方法进行比较

在DOTA-v1.0数据集上,性能超越之前所有的方法!(表4)在此数据集上,(近期的方法在性能上近乎饱和,最近的SOTA方法RVSA用了极为重量的模型和在庞大的数据集上做预训练才勉强突破0.81的mAP,RTMDet则是在COCO预训练,36epoch加EMA的微调方式,而其他主流方法都是ImageNet预训练和12epoch w/o EMA微调,才达到81.33的性能。)我们的方法在模型参数量和计算复杂度全面小于其他方法的前提下,性能刷新了新的SOTA!

5005e59a-24bb-11ee-962d-dac502259ad0.png

表5. 在FAIR1M-v1.0数据集上与最先进的方法比较。*: 结果参考了FAIR1M论文[51]。

在近期中国空天院提出的FAIR1M-v1.0数据集上,我们也刷新了mAP。

Ablation Study

消融实验部分,为了提高实验效率,我们采用LSKNet-T骨架在ImageNet上做100个epoch的骨干预训练。

5021b608-24bb-11ee-962d-dac502259ad0.jpg

表6. 分解的大核的数量对推理的FPS和mAP的影响,给定的理论感受野是29。将大核分解成两个深度方向的核,实现了速度和精度的最佳表现。

502d56de-24bb-11ee-962d-dac502259ad0.jpg

表7. 当大卷积被分解成两个连续的depth-wise卷积时,LSKNet的关键设计组件的有效性。CS:通道选择(类似于SKNet);SS:空间选择(我们的)。LSKNet在使用一个合理的大的感受野和空间选择时取得了最佳性能。

50448dae-24bb-11ee-962d-dac502259ad0.jpg

表8. 对我们提出的LSK模块的空间选择中的最大和平均池化的有效性进行消融实验。在同时使用最大和平均池化时,获得了最好的结果。

Analysis

5052b6b8-24bb-11ee-962d-dac502259ad0.jpg

图5. 使用ResNet-50和LSKNet-S的O-RCNN检测框架的Eigen-CAM可视化。我们提出的LSKNet可以对长范围的上下文信息进行建模,从而在各种困难的情况下获得更好的性能。

图5所示,LSKNet-S可以捕捉到更多与检测到的目标相关的背景信息,从而在各种困难情况下有更好的表现,这证明了我们的先验(1)。

506e8118-24bb-11ee-962d-dac502259ad0.jpg

图6. DOTA-v1.0中物体类别的预期感受野和GT框面积的比率:Rc。不同物体类别所需的相对范围有很大的不同。

为了研究每个物体类别的感受野范围,我们定义物体类别预期感受野和GT框面积的比率:Rc。此数值越大,说明目标需要的额外感受野越大。图6中结果表明,与其他类别相比,桥梁类别需要更多的额外上下文信息,这主要是由于它与道路的特征相似,并且需要语境线索来确定它是否被水所包围。相反,球场类别,如足球场,由于其独特的纹理属性,特别是球场边界线,需要最少的上下文信息。这与我们的常识相吻合,并进一步支持先前的观点(2),即不同的物体类别所需的上下文信息的相对范围有很大不同。

508996d8-24bb-11ee-962d-dac502259ad0.jpg

图7. DOTA-v1.0中物体类别的感受野激活,其中激活图来自我们训好的LSKNet模型根据主论文公式(8)(即空间激活)得出。物体类别按照从左上到右下的顺序,据预期感受野面积和GT框面积之比递减排列(及图6中的数值顺序)

我们进一步研究我们的LSKNet中的大核选择倾向性行为。我们定义了Kernel Selection Difference(较大的感受野卷积核特征图激活值 - 较小的感受野卷积核特征图激活值)。

5098759a-24bb-11ee-962d-dac502259ad0.jpg

图8. 桥梁、环岛和足球场的LSKNet-T块中的大卷积核选择差异。B i j代表第i阶段的第j个LSK Block,数值越大,表明检测时更倾向于选择有更大感受野的卷积核,对更大范围的背景的依赖性也越大。

在图8中,我们展示了三个典型类别的所有图像的归一化Kernel Selection Difference:桥梁、环形路和足球场,以及每个LSKNet-T块的情况。正如预期的那样,Bridge的所有块的大核的参与度高于Roundabout,而Roundabout则高于Soccer-ball-field。这与常识一致,即Soccer-ball-field确实不需要大量的上下文,因为它本身的纹理特征已经足够明显和具有鉴别性。我们还出人意料地发现了LSKNet在网络深度上的另一种选择模式。LSKNet通常在其浅层利用较大感受野的卷积核,而在较高的层次利用较小的。这表明,网络倾向于在网络浅层迅速扩大感受野捕捉信息,以便高层次的语义学能够包含足够的感受野,从而获得更好的辨别力。


	


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 检测器
    +关注

    关注

    1

    文章

    857

    浏览量

    47615
  • 图像
    +关注

    关注

    2

    文章

    1078

    浏览量

    40364
  • 遥感
    +关注

    关注

    0

    文章

    241

    浏览量

    16771
  • 数据集
    +关注

    关注

    4

    文章

    1200

    浏览量

    24608

原文标题:ICCV 2023 | 南开大学提出LSKNet:遥感旋转目标检测新SOTA!

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    TINA-TI 9与TINA8对同一个电路图仿真结果不同是怎么回事?

    TINA-TI-9中的电路图及AC仿真结果如下: TINA-8中的电路图及仿真结果如下: 电路图源自《模拟电路基础》P419页码, PID放大器 ,作者:秦世才、贾香鸾;南开大学出版社。
    发表于 09-25 06:03

    南开大学origin使用指南

    发表于 10-14 22:36

    南开大学量子力学考研试题

    南开大学量子力学考研试题
    发表于 11-25 16:10 0次下载

    南开大学提出了高性能太赫兹隐身材料设计的新思路

    南开大学团队在石墨烯功能材料及其隐身应用方面开展了深入的研究工作。针对传统隐身材料无法有效对抗太赫兹波探测的挑战,提出了高性能太赫兹隐身材料设计的新思路。
    的头像 发表于 12-29 15:27 4990次阅读

    南开大学决定成立人工智能学院

    据最新消息,南开大学办公室在5月11日印发中共南开大学委员会文件,决定成立南开大学人工智能学院。
    的头像 发表于 05-17 09:04 5798次阅读
    <b class='flag-5'>南开大学</b>决定成立人工智能学院

    南开大学提出最新边缘检测和图像过分割被 IEEE PAMI 录用

    数据会随着图像尺度和纵横比进行变化。在本文中,我们提出了一种使用更丰富的卷积特征(Richer convolution features, RCF)的精准边缘检测方法。
    的头像 发表于 11-06 09:52 6662次阅读

    南开大学开发出一种具有超高容量的锂离子电池有机正极材料

    近日,中国科学院院士、南开大学化学学院教授陈军团队设计合成了一种具有超高容量的锂离子电池有机正极材料:环己六酮,该材料包含地球丰富的碳、氢、氧元素,且此类有机正极材料展现了锂离子电池目前所报道的最高容量值,刷新了锂离子电池有机正极材料容量的世界纪录。
    发表于 05-17 15:27 1053次阅读

    南开团队大数据预测疫情传播

    该项目利用国家卫健委公布的确诊病例总数数据链,以应用传播动力学为方法,以黄森忠教授建构的普适SEIR模型作为模型理论,通过“南开大学智英健康数据研究中心”开发的程序EpiSIX,分析新冠病毒肺炎疫情有关数据
    的头像 发表于 02-19 07:55 2307次阅读
    <b class='flag-5'>南开</b>团队大数据预测疫情传播

    南开大学孙军教授:逆流而上,为光电材料尽一份力

    孙军教授就是南开大学铌酸锂晶体研究团队中的一员。从1999年本科毕业进入905厂开始从事铌酸锂晶体研究,到去南开大学攻读硕博学位继续探索,再到今天,孙军一直在铌酸锂晶体领域里专注了二十余年。
    的头像 发表于 06-04 09:40 5175次阅读

    “人工智能+机器人”高端论坛在南开大学举行

    南开新闻网讯(通讯员周璐)10月10日,由人工智能学院、计算机学院、网络空间安全学院、电子信息与光学工程学院、软件学院联合主办的人工智能+机器人高端论坛在南开大学津南新校区举行。 本次论坛以人工智能
    的头像 发表于 10-21 15:37 2038次阅读

    综述:基于柔性致动器的跳跃运动

    近日,南开大学刘遵峰教授等人近期在Advanced Functional Materials期刊上发表题为“Recent Development of Jumping Motions Based
    的头像 发表于 05-24 15:36 455次阅读
    综述:基于柔性致动器的跳跃运动

    南开大学OpenHarmony技术俱乐部揭牌成立

    3月7日,由OpenAtom OpenHarmony(以下简称“OpenHarmony”)项目群技术指导委员会与南开大学共同举办的“南开大学OpenHarmony技术俱乐部成立大会”在津南校区综合
    的头像 发表于 03-08 08:37 354次阅读
    <b class='flag-5'>南开大学</b>OpenHarmony技术俱乐部揭牌成立

    南开大学和字节跳动联合开发一款StoryDiffusion模型

    近日,南开大学和字节跳动联合开发的 StoryDiffusion 模型解决了扩散模型生成连贯图像与视频的难题。
    的头像 发表于 05-07 14:46 1133次阅读

    火山引擎与南开大学深化合作签约,携手共建“AI+教育”新生态

    近日,在2024春季火山引擎FORCE原动力大会实体产业及教科研专场上,南开大学与火山引擎成功举办了深度合作签约仪式。此次合作标志着双方将携手共筑“AI+教育”的新篇章,共同推动教育行业数字化转型。
    的头像 发表于 05-20 11:16 554次阅读

    南开大学携手华为发布“人工智能赋能人才培养行动计划”

    为进一步推动人工智能与教育的深度融合,促进教育变革创新,培养智能时代公能兼备的高层次创新型人才,南开大学依托自身优势,紧紧围绕立德树人根本任务,制定推出涵盖教育教学、技术设施、管理服务三个篇章的“人工智能赋能人才培养行动计划”(以下简称“行动计划”)。
    的头像 发表于 05-22 11:51 600次阅读
    <b class='flag-5'>南开大学</b>携手华为发布“人工智能赋能人才培养行动计划”