本次文章介绍我们于 TPAMI-2023 发表的一项用于视觉识别的相互对比学习在线知识蒸馏(Online Knowledge Distillation via Mutual Contrastive Learning for Visual Recognition)工作,该工作是我们发表在 AAAI-2022 论文 Mutual contrastive learning for visual representation learning [1] 的扩展版本,论文讲解链接为:
https://zhuanlan.zhihu.com/p/574701719 摘要:无需教师的在线知识蒸馏联合地训练多个学生模型并且相互地蒸馏知识。虽然现有的在线知识蒸馏方法获得了很好的性能,但是这些方法通常关注类别概率作为核心知识类型,忽略了有价值的特征表达信息。 本文展示了一个相互对比学习(Mutual Contrastive Learning,MCL)框架用于在线知识蒸馏。MCL 的核心思想是在一个网络群体中利用在线的方式进行对比分布的交互和迁移。MCL 可以聚合跨网络的嵌入向量信息,同时最大化两个网络互信息的下界。这种做法可以使得每一个网络可以从其他网络中学习到额外的对比知识,从而有利于学习到更好的特征表达,提升视觉识别任务的性能。 相比于会议版本,期刊版本将 MCL 扩展到中间特征层并且使用元优化来训练自适应的层匹配机制。除了最后一层,MCL 也在中间层进行特征对比学习,因此新方法命名为 Layer-wise MCL(L-MCL)。在图像分类和其他视觉识别任务上展示了 L-MCL 相比于先进在线知识蒸馏方法获得了一致的提升。此优势表明了 L-MCL 引导网络产生了更好的特征表达。
论文地址:
https://arxiv.org/pdf/2207.11518.pdf
代码地址:https://github.com/winycg/L-MCL
引言
传统的离线知识蒸馏需要预训练的教师模型对学生模型进行监督。在线知识蒸馏在无需教师的情况下同时联合训练两个以上的学生模型。深度相互学习(Deep Mutual Learning,DML)[2]表明了模型群体可以从相互学习类别概率分布(图像分类任务最后的输出预测)中获益。每一个模型在同伴教授的模式下相比传统的单独训练效果更好。 现有的在线知识蒸馏方法通常仅仅关注结果驱动的蒸馏,但是忽略了在线蒸馏特征方面的应用。虽然先前的 AFD [3]尝试通过在线的方式在多个网络间对齐中间特征图,Zhang 等人[2]指出这种做法会减少群体多样性,降低相互学习能力。为了学习更有意义的特征嵌入,我们认为一个更好的方式是从视觉表征学习角度的对比学习。
方法
2.1. 相互对比学习MCL(AAAI-2022)

▲ 图2. 相互对比学习整体示意图
2.1.1 传统对比学习(Vanilla Contrastive Learning,VCL) 为了便于描述,本方法将 anchor 样本向量表示为 , 正样本向量表示为 和 个负样本向量表达为。 表示向量产生自网络 。这里,特征向量通过 标准化进行预处理。使用基于 InfoNCE 的交叉熵作为对比误差:


2.1.3 基于在线相互迁移的软对比学习 收到深度相互学习(Deep Mutual Learning,DML)[1] 的启发,本方法利用 KL 散度来对齐网络间的对比分布,根据本文提出的两种对比学习方法 VCL 和 ICL 来进行对比分布的双向迁移:
2.1.3.1 Soft VCL: 对于产生 的分布 来说,其监督信号是其他网络产生的分布,利用 KL 散度使得 与其他分布接近:

2.2.2 训练元网络 2.2.2.1 交叉熵任务误差 使用交叉熵误差训练 个网络:

2.2.2.3 元网络 结构元网络包含了两个线性转换层 和 ,来对输入的特征向量 进行转换。转换之后,特征向量通过 正则化 来进行标准化。受到自注意力机制的启发,本文利用点乘得到匹配特征的相似性,从而衡量匹配层的相关性,然后引入 sigmoid 激活函数 来将输出值缩放到 作为层匹配权重 。整体的过程被规则化为:

实验
在 ImageNet 上的实验结果如下所示,表 1 和表 2 分别展示了两个同构和异构网络利用相互对比学习的实验结果。

▲ 表3. 通过在线蒸馏的预训练网络迁移到下游的目标检测和与实例分割的实验

参考文献

-
物联网
+关注
关注
2920文章
45450浏览量
382115
原文标题:TPAMI 2023 | 用于视觉识别的相互对比学习在线知识蒸馏
文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
大连理工提出基于Wasserstein距离(WD)的知识蒸馏方法
开源项目 ! 利用边缘计算打造便携式视觉识别系统
适用于机器视觉应用的智能机器视觉控制平台

ASR与传统语音识别的区别
使用 TMP1826 嵌入式 EEPROM 替换用于模块识别的外部存储器

评论