0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

TPAMI 2023 | 用于视觉识别的相互对比学习在线知识蒸馏

智能感知与物联网技术研究所 来源:未知 2023-09-19 10:00 次阅读

本次文章介绍我们于 TPAMI-2023 发表的一项用于视觉识别的相互对比学习在线知识蒸馏(Online Knowledge Distillation via Mutual Contrastive Learning for Visual Recognition)工作,该工作是我们发表在 AAAI-2022 论文 Mutual contrastive learning for visual representation learning [1] 的扩展版本,论文讲解链接为:

https://zhuanlan.zhihu.com/p/574701719 摘要:无需教师的在线知识蒸馏联合地训练多个学生模型并且相互地蒸馏知识。虽然现有的在线知识蒸馏方法获得了很好的性能,但是这些方法通常关注类别概率作为核心知识类型,忽略了有价值的特征表达信息 本文展示了一个相互对比学习(Mutual Contrastive Learning,MCL)框架用于在线知识蒸馏。MCL 的核心思想是在一个网络群体中利用在线的方式进行对比分布的交互和迁移。MCL 可以聚合跨网络的嵌入向量信息,同时最大化两个网络互信息的下界。这种做法可以使得每一个网络可以从其他网络中学习到额外的对比知识,从而有利于学习到更好的特征表达,提升视觉识别任务的性能。 相比于会议版本,期刊版本将 MCL 扩展到中间特征层并且使用元优化来训练自适应的层匹配机制。除了最后一层,MCL 也在中间层进行特征对比学习,因此新方法命名为 Layer-wise MCL(L-MCL)。在图像分类和其他视觉识别任务上展示了 L-MCL 相比于先进在线知识蒸馏方法获得了一致的提升。此优势表明了 L-MCL 引导网络产生了更好的特征表达。wKgZomUKAUeABfUfAAJfiDQnJmM755.png

论文地址:

https://arxiv.org/pdf/2207.11518.pdf

代码地址:

https://github.com/winycg/L-MCL

wKgZomUKAUeAboOzAAAl6LOgh3c565.png

引言

传统的离线知识蒸馏需要预训练的教师模型对学生模型进行监督。在线知识蒸馏在无需教师的情况下同时联合训练两个以上的学生模型。深度相互学习(Deep Mutual Learning,DML)[2]表明了模型群体可以从相互学习类别概率分布(图像分类任务最后的输出预测)中获益。每一个模型在同伴教授的模式下相比传统的单独训练效果更好。 现有的在线知识蒸馏方法通常仅仅关注结果驱动的蒸馏,但是忽略了在线蒸馏特征方面的应用。虽然先前的 AFD [3]尝试通过在线的方式在多个网络间对齐中间特征图,Zhang 等人[2]指出这种做法会减少群体多样性,降低相互学习能力。为了学习更有意义的特征嵌入,我们认为一个更好的方式是从视觉表征学习角度的对比学习。

wKgaomUOseuAHCKqAAM2USl54_8152.png

▲ 图1. 相互对比学习基本思想示意图 图中, 分别表示两个不同的网络, 是推理来自网络 和输入样本 产生的特征向量。虚线和箭头代表要逼近或者远离的方向。从图中可以看出,MCL 包含了朴素对比学习(Vanilla Contrastive Learning,VCL)和交互式对比学习(Interactive Contrastive Learning,ICL)。 相比于传统的 VCL,提出的 ICL 从两个不同网络间建模对比相似度分布。本文证明 ICL 的误差函数等价于最大化两个网络互信息的下界,这可以被理解为一个网络可以学习到另外网络额外的知识。 MCL 主要是发表于 AAAI-2022 的方法,期刊版本将 MCL 从卷积网络的最后一层扩展到多个模型的中间特征层,命名为 Layer-wise MCL。此外,传统的中间特征层蒸馏使用手工的匹配,本文则提出一个自适应的层匹配机制,然后通过元优化来训练该机制。

wKgZomUKAUiAUx54AAAuhh9-KLM583.png

方法

2.1. 相互对比学习MCL(AAAI-2022)

wKgaomUOsneANvyiAANja2j-FVo357.png

▲ 图2. 相互对比学习整体示意图

2.1.1 传统对比学习(Vanilla Contrastive Learning,VCL) 为了便于描述,本方法将 anchor 样本向量表示为 , 正样本向量表示为 个负样本向量表达 表示向量产生自网络 。这里,特征向量通过 标准化进行预处理。使用基于 InfoNCE 的交叉熵作为对比误差:wKgZomUKAUiAfLcVAABApOxJsHE674.png  对于总共 个网络来说,所有的对比误差表示为:

wKgZomUKAUiAKCIQAAArDByt5ss241.png

2.1.2 交互式对比学习(Interactive Contrastive Learning,ICL) VCL 不能建模跨网络的关系来进行联合学习,因为对比分布来自于网络自身的嵌入空间。ICL 的 anchor 样本与对比样本产生自不同的网络,但在误差形式上依旧与传统的对比学习误差相同:

wKgZomUKAUmAeXmWAABDzUNsmsE873.png

对于总共 个网络来说,所有的对比误差表示为:wKgZomUKAUmAHottAAA6ziYm6K4293.png理论分析: 相比于误差 ,最小化 等价于最大化网络 互信息 的下界:

wKgZomUKAUmAJPTeAAAyml4f5m0589.png

直觉上,当来自 的 anchor 特征向量已知时,互信息 衡量了来自 对比特征向量的不确定性,这可以理解为每一个网络可以从其他网络中学习到对比知识,从而更有利于表征学习。

2.1.3 基于在线相互迁移的软对比学习 收到深度相互学习(Deep Mutual Learning,DML)[1] 的启发,本方法利用 KL 散度来对齐网络间的对比分布,根据本文提出的两种对比学习方法 VCL 和 ICL 来进行对比分布的双向迁移:

2.1.3.1 Soft VCL: 对于产生 的分布 来说,其监督信号是其他网络产生的分利用 KL 散度使得 与其他分布接近:

wKgZomUKAUmATx-zAAA3kjsNkMY187.png

2.1.3.2 Soft ICL 给定两个网络 ,可以得到两个ICL对应的对比分布 ,使用 KL 散度的形式使得两个分布尽可能接近。对于 个网络来说,每两个网络进行对比分布的迁移:

wKgZomUKAUmARWnNAAA9miXxmxg021.png

2.1.4 MCL的整体误差 为了尽可能利用联合学习的优势,本方法将所有的对比误差项作为一个整体的误差训练 个网络:

wKgZomUKAUmAUCrKAABBz-kLkaA478.png

2.2 逐层的相互对比学习(Layer-wise MCL)

wKgZomUOspuAVn9JAAFqZvww3EU238.png

▲ 图3. 一对一匹配和加权的多对多匹配示意图 2.2.1 基础框架 给定网络群每一个网络具有 个阶段,原始的 MCL 在最后的特征嵌进行学习。Layer-wise MCL(L-MCL)进一步扩展相互对比学习到中间特征层和最后特征层,并且采用跨层的方式。wKgZomUKAUqAFi2ZAAA-leMt4VM032.png下一个章节,本文展示如何利用元网络 来优化匹配权重

2.2.2 训练元网络 2.2.2.1 交叉熵任务误差 使用交叉熵误差训练 个网络:wKgZomUKAUqAcww5AABCUHA4NyM973.png  将基础的任务误差和 L-MCL 误差相加作为总误差来进行特征层面的在线蒸馏误差:

wKgZomUKAUqAcLFWAABDIeiIkp4346.png

2.2.2.2 元优化 受到元学习的启发,本文采用交替优化的方式来训练学生网络和元网络: (1)更新 次最小化 (2)更新 来一次最小化 (3)衡量 并且更新 来最小化它。

2.2.2.3 元网络 结构元网络包含了两个线性转换 来对输入的特征向量 进行转换。转换之后,特征向量通过 正则化 来进行标准化。受到自注意力机制的启发,本文利用点乘得到匹配特征的相似性,从而衡量匹配层的相关性,然后引入 sigmoid 激活函数 来将输出值缩放到 作为层匹配权重 。整体的过程被规则化为:

wKgZomUKAUqAdFh7AABLnhROiyo613.png

wKgZomUKAUuAAB5HAAAtJ0fTuoM713.png

实验

在 ImageNet 上的实验结果如下所示,表 1 和表 2 分别展示了两个同构和异构网络利用相互对比学习的实验结果。

wKgZomUKAUuAIbuWAAUoQv-V7W8394.png

▲ 表1. 两个同构网络利用相互对比学习的实验结果wKgZomUKAUuAWyzaAAct8aoAeQw188.png▲表2. 两个异构网络利用相互对比学习的实验结果 实验结果表明本文提出的 L-MCL 相比于 baseline 以及先前流行的在线知识蒸馏方法都获得了显著的性能提升,表明在多个网络之间使用特征层面的对比学习蒸馏相比概率分布效果更好。在下游的目标检测和实例分割实验上表明了该方法相比先前的蒸馏方法引导网络学习到了更好的视觉表征,从而提升了视觉识别效果。

wKgZomUKAUyABytXAAD3uYhd4hI895.png

▲ 表3. 通过在线蒸馏的预训练网络迁移到下游的目标检测和与实例分割的实验

wKgZomUKAUyAHFsxAAAC0jQz1zo003.jpg

参考文献

wKgZomUKAUyAHFsxAAAC0jQz1zo003.jpg  [1] Yang C, An Z, Cai L, et al. Mutual contrastive learning for visual representation learning[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2022, 36(3): 3045-3053.[2] Zhang Y, Xiang T, Hospedales T M, et al. Deep mutual learning[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 4320-4328.[3] Chung I, Park S U, Kim J, et al. Feature-map-level online adversarial knowledge distillation[C]//International Conference on Machine Learning. PMLR, 2020: 2006-2015. ·


原文标题:TPAMI 2023 | 用于视觉识别的相互对比学习在线知识蒸馏

文章出处:【微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 物联网
    +关注

    关注

    2900

    文章

    44036

    浏览量

    370052

原文标题:TPAMI 2023 | 用于视觉识别的相互对比学习在线知识蒸馏

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    使用 TMP1826 嵌入式 EEPROM 替换用于模块识别的外部存储器

    电子发烧友网站提供《使用 TMP1826 嵌入式 EEPROM 替换用于模块识别的外部存储器.pdf》资料免费下载
    发表于 09-09 09:44 0次下载
    使用 TMP1826 嵌入式 EEPROM 替换<b class='flag-5'>用于</b>模块<b class='flag-5'>识别的</b>外部存储器

    什么是离线语音识别芯片?与在线语音识别的区别

    离线语音识别芯片适用于智能家电等,特点为小词汇量、低成本、安全性高、响应快,无需联网。在线语音识别功能更广泛、识别准确率高,但依赖稳定网络。
    的头像 发表于 07-22 11:33 342次阅读

    目标检测识别主要应用于哪些方面

    目标检测识别是计算机视觉领域的一个重要研究方向,它主要关注于从图像或视频中识别和定位目标物体。随着计算机视觉技术的不断发展,目标检测识别已经
    的头像 发表于 07-17 09:34 863次阅读

    如何设计人脸识别的神经网络

    人脸识别技术是一种基于人脸特征信息进行身份识别的技术,广泛应用于安全监控、身份认证、智能门禁等领域。神经网络是实现人脸识别的关键技术之一,本文将介绍如何设计人脸
    的头像 发表于 07-04 09:20 494次阅读

    人脸检测和人脸识别的区别是什么

    人脸检测和人脸识别是计算机视觉领域的两个重要技术,它们在许多应用场景中都有广泛的应用,如安全监控、身份验证、社交媒体等。尽管它们在某些方面有相似之处,但它们之间存在一些关键的区别。本文将详细介绍人
    的头像 发表于 07-03 14:49 821次阅读

    人脸检测与识别的方法有哪些

    人脸检测与识别是计算机视觉领域中的一个重要研究方向,具有广泛的应用前景,如安全监控、身份认证、智能视频分析等。本文将详细介绍人脸检测与识别的方法。 引言 人脸检测与识别技术在现代社会中
    的头像 发表于 07-03 14:45 594次阅读

    图像检测和图像识别的区别是什么

    详细的比较和分析。 定义和概念 图像检测(Image Detection)是指利用计算机视觉技术对图像中的特定目标进行定位和识别的过程。它通常包括目标的检测、分类和定位三个步骤。图像检测的目标可以是人、车、动物等任何具有特定特征
    的头像 发表于 07-03 14:41 723次阅读

    语音识别的技术历程及工作原理

    语音识别的本质是一种基于语音特征参数的模式识别,即通过学习,系统能够把输入的语音按一定模式进行分类,进而依据判定准则找出最佳匹配结果。
    的头像 发表于 03-22 16:58 2670次阅读
    语音<b class='flag-5'>识别的</b>技术历程及工作原理

    机器视觉的图像目标识别方法综述

    机器视觉代替传统的人工视觉,能够更好的满足危险作业基本需求。机器视觉的图像目标识别的重要性图像目标识别是机器
    的头像 发表于 02-23 08:26 658次阅读
    机器<b class='flag-5'>视觉</b>的图像目标<b class='flag-5'>识别</b>方法综述

    机器视觉的图像目标识别方法操作要点

    通过加强图像分割,能够提高机器视觉的图像目标识别的自动化水平,使得图像目标识别效果更加显著。图像分割的方法有很多种,不同方法分别适用于不同领域,这里重点介绍以下3种分割方法。
    发表于 01-15 12:17 374次阅读

    如何使用Python进行图像识别的自动学习自动训练?

    如何使用Python进行图像识别的自动学习自动训练? 使用Python进行图像识别的自动学习和自动训练需要掌握一些重要的概念和技术。在本文中,我们将介绍如何使用Python中的一些常用
    的头像 发表于 01-12 16:06 516次阅读

    情感语音识别的应用与挑战

    一、引言 情感语音识别是一种通过分析人类语音中的情感信息实现智能化和个性化人机交互的技术。本文将探讨情感语音识别的应用领域、优势以及所面临的挑战。 二、情感语音识别的应用领域 娱乐产业:在娱乐产业中
    的头像 发表于 11-30 10:40 598次阅读

    AI视觉识别有哪些工业应用

    AI视觉识别涵盖多种应用,如人脸识别、目标检测和识别、图像分割、行为识别、视频分析等。本篇就简单介绍一下AI
    的头像 发表于 11-27 18:05 1141次阅读
    AI<b class='flag-5'>视觉</b><b class='flag-5'>识别</b>有哪些工业应用

    情感语音识别的研究方法与实践

    一、引言 情感语音识别是指通过计算机技术和人工智能算法自动识别和理解人类语音中的情感信息。为了提高情感语音识别的准确性,本文将探讨情感语音识别的研究方法与实践。 二、情感语音
    的头像 发表于 11-16 16:26 800次阅读

    情感语音识别的前世今生

    的支持。本文将探讨情感语音识别的前世今生,包括其发展历程、应用场景、面临的挑战以及未来发展趋势。 二、情感语音识别的发展历程 起步阶段:早期的情感语音识别技术主要依赖于声谱分析、特征提取等传统信号处理方法,但这
    的头像 发表于 11-12 17:33 599次阅读