一篇解决表示学习坍塌问题的工作报告-电子发烧友网

1 表示学习中的坍塌问题

在表示学习中，一种很常见的做法是利用孪生网络的结构，让同一个样本的不同数据增强后的表示相似。比如对于一张图像，使用翻转、裁剪等方法生成另一个增强图像，两个图像分别经过两个共享参数的编码器，得到表示，模型的优化目标是让这两个表示的距离近。

这种方法一个比较大的挑战在于，模型在训练过程中容易出现坍塌问题。模型可以把所有样本的表示都学成完全相同的常数向量（比如每个样本模型的输出都是全0向量），这样就能满足上述两个表示距离近的要求了。

2 解决坍塌问题的方法

业内有很多解决坍塌问题的方法，主要可以分为4种类型：

对比学习方法：在训练一对正样本对时，同时采样大量的负样本，让正样本之间离得近，负样本之间离得远，避免模型偷懒把所有样本的表示都学成一样的。

聚类方法：在训练过程中增加一个聚类过程，将样本分配给不同的类簇，然后在类簇级别进行对比学习。

基于蒸馏的方法：通过模型结构的角度避免坍塌问题，学习一个student network来预测te acher network的表示，teacher network是student network参数的滑动平均，teacher network不通过反向传播更新参数。

信息最大化方法：让生成的embedding中每一维的向量相互正交，使其信息量最大化，这样可以避免各个维度的值信息过于冗余，防止坍塌问题。

目前常用的负样本采样方法，一个比较大的问题是计算开销大，取得好的效果往往需要大量负样本，因此有了MoCo等对比学习框架。本文提出的方法基于信息最大化的思路，能够只使用正样本对实现表示学习的同时，防止坍现象的发生。关于对比学习的常用经典方法，可以参考这篇文章：对比学习中的4种经典训练模式。

3 信息最大化方法历史工作

基于信息最大化的方法典型的工作有两篇ICLM 2021的文章，分别是Whitening for Self-Supervised Representation Learning（ICML 2021，W-MSE）和Barlow twins: Self-supervised learning via redundancy reduction（ICML 2021）。下面介绍一下这两篇文章的整体思路，Facebook的这篇论文也是基于这个思路设计的。

W-MSE的整体网络结构如上图，模型中输入一对互为正样本的样本对（例如一个图像的不同增强形式），使用共享参数Encoder分别编码后，增加一个whitening模块，对每个batch内的所有embedding进行白化，让embedding的各个维度变量线性无关，后面再接norm处理。下图形式化表明了W-MSE的用途，通过白化+norm让样本形成一个球形分布，正样本之间距离近，每个样本需要调整自己在圆周上的位置拉进正样本之间的距离，形成最终的簇。

Barlow twins方法也是同样的思路，只是做法不同。在得到一对正样本的两个embedding后，计算两个向量各个变量之间的相关性矩阵，优化这个矩阵接近对角矩阵，以此实现embedding中各个变量之间线性无关。

4 VICREG

Facebook团队提出的VICREG是上述基于信息最大化表示学习方法的一个扩展，损失函数主要包括variance、invariance、covariance三个部分。模型的主体结构如下，仍然是一个孪生网络结构，输入一个样本的不同view互为正样本。

variance部分主要是让batch内每个样本embedding向量的每一维变量之间的方差不小于一个值，这样可以有效防止每个样本的向量都对应同一个点的情况，防止坍塌的发生。

invariance部分即让正样本对的表示embedding距离尽可能小，是正常的表示学习loss。

covariance借鉴了Barlow twins中的思路，让batch内的embedding非对角线元素尽可能为0，即让表示向量各个维度变量线性无关。

最终的表示学习loss是由上述3个loss的加和：

5 实验结果

作者进行了一些实验验证VICREG表示学习方法的效果。在ImageNet数据集上，使用不同方法预训练的表示接一个线性层进行分类，或者基于预训练的表示使用部分数据进行finetune，对比图像分类效果，实验结果如下：

作者也对比了在不同方法上是否采用variance或covariance等loss的效果变化：

6 总结

本文介绍了Facebook AI团队在2022年ICLR的一篇解决表示学习坍塌问题的工作，顺带介绍了基于信息最大化的防坍塌工作，有助于帮助我们更深层次理解表示学习的原理，以及如何解决实际应用表示学习、对比学习时遇到的坍塌问题。

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

矩阵

矩阵

+关注

关注
0

文章
425

浏览量
34691
Network

Network

+关注

关注
0

文章
64

浏览量
29695

原文标题：ICLR2022 | Facebook AI提出解决表示学习坍塌问题新方法

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

一篇解决表示学习坍塌问题的工作报告

评论

2025年，多地筹谋集成电路产业

广电计量新年首篇深度研究报告出炉

中国发展报告：我国是无人机第一大技术来源国

广电计量助力第二届低空科技发展大会区顺利举办

维智科技入选中国数据要素X行业应用图谱

时空引导下的时间序列自监督学习框架

杰和科技携新品受邀参加深圳计算机行业协会会员大会

罗德与施瓦茨发布城市空中交通eVTOL测试解决方案

深视智能参编《2024智能检测装备产业发展研究报告：机器视觉篇》

【《大语言模型应用指南》阅读体验】+ 基础篇

基于Python和深度学习的CNN原理详解

两会过后，来CMIMS 2024看新能源汽车产业稳中提质

中科曙光推出一种半实物实时仿真系统计算平台及国产化方案

飒特红外2023年售后服务工作报告

从政府工作报告看磁元件2024年机遇