0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一篇解决表示学习坍塌问题的工作报告

深度学习自然语言处理 来源:圆圆的算法笔记 作者:Fareise 2022-08-31 11:12 次阅读

1 表示学习中的坍塌问题

在表示学习中,一种很常见的做法是利用孪生网络的结构,让同一个样本的不同数据增强后的表示相似。比如对于一张图像,使用翻转、裁剪等方法生成另一个增强图像,两个图像分别经过两个共享参数编码器,得到表示,模型的优化目标是让这两个表示的距离近。

这种方法一个比较大的挑战在于,模型在训练过程中容易出现坍塌问题。模型可以把所有样本的表示都学成完全相同的常数向量(比如每个样本模型的输出都是全0向量),这样就能满足上述两个表示距离近的要求了。

2 解决坍塌问题的方法

业内有很多解决坍塌问题的方法,主要可以分为4种类型:

对比学习方法:在训练一对正样本对时,同时采样大量的负样本,让正样本之间离得近,负样本之间离得远,避免模型偷懒把所有样本的表示都学成一样的。

聚类方法:在训练过程中增加一个聚类过程,将样本分配给不同的类簇,然后在类簇级别进行对比学习。

基于蒸馏的方法:通过模型结构的角度避免坍塌问题,学习一个student network来预测teacher network的表示,teacher network是student network参数的滑动平均,teacher network不通过反向传播更新参数。

信息最大化方法:让生成的embedding中每一维的向量相互正交,使其信息量最大化,这样可以避免各个维度的值信息过于冗余,防止坍塌问题。

目前常用的负样本采样方法,一个比较大的问题是计算开销大,取得好的效果往往需要大量负样本,因此有了MoCo等对比学习框架。本文提出的方法基于信息最大化的思路,能够只使用正样本对实现表示学习的同时,防止坍现象的发生。关于对比学习的常用经典方法,可以参考这篇文章:对比学习中的4种经典训练模式

3 信息最大化方法历史工作

基于信息最大化的方法典型的工作有两篇ICLM 2021的文章,分别是Whitening for Self-Supervised Representation Learning(ICML 2021,W-MSE)Barlow twins: Self-supervised learning via redundancy reduction(ICML 2021)。下面介绍一下这两篇文章的整体思路,Facebook的这篇论文也是基于这个思路设计的。

d3146b2a-284d-11ed-ba43-dac502259ad0.png

W-MSE的整体网络结构如上图,模型中输入一对互为正样本的样本对(例如一个图像的不同增强形式),使用共享参数Encoder分别编码后,增加一个whitening模块,对每个batch内的所有embedding进行白化,让embedding的各个维度变量线性无关,后面再接norm处理。下图形式化表明了W-MSE的用途,通过白化+norm让样本形成一个球形分布,正样本之间距离近,每个样本需要调整自己在圆周上的位置拉进正样本之间的距离,形成最终的簇。

d33098f4-284d-11ed-ba43-dac502259ad0.png


Barlow twins方法也是同样的思路,只是做法不同。在得到一对正样本的两个embedding后,计算两个向量各个变量之间的相关性矩阵,优化这个矩阵接近对角矩阵,以此实现embedding中各个变量之间线性无关。

d3550ca2-284d-11ed-ba43-dac502259ad0.png

4 VICREG

Facebook团队提出的VICREG是上述基于信息最大化表示学习方法的一个扩展,损失函数主要包括variance、invariance、covariance三个部分。模型的主体结构如下,仍然是一个孪生网络结构,输入一个样本的不同view互为正样本。

d370b272-284d-11ed-ba43-dac502259ad0.png

variance部分主要是让batch内每个样本embedding向量的每一维变量之间的方差不小于一个值,这样可以有效防止每个样本的向量都对应同一个点的情况,防止坍塌的发生。

invariance部分即让正样本对的表示embedding距离尽可能小,是正常的表示学习loss。

covariance借鉴了Barlow twins中的思路,让batch内的embedding非对角线元素尽可能为0,即让表示向量各个维度变量线性无关。

最终的表示学习loss是由上述3个loss的加和:

d3817d8c-284d-11ed-ba43-dac502259ad0.png

5 实验结果

作者进行了一些实验验证VICREG表示学习方法的效果。在ImageNet数据集上,使用不同方法预训练的表示接一个线性层进行分类,或者基于预训练的表示使用部分数据进行finetune,对比图像分类效果,实验结果如下:

d38f8f9e-284d-11ed-ba43-dac502259ad0.png

作者也对比了在不同方法上是否采用variance或covariance等loss的效果变化:

d3a9c04e-284d-11ed-ba43-dac502259ad0.png

6 总结

本文介绍了Facebook AI团队在2022年ICLR的一篇解决表示学习坍塌问题的工作,顺带介绍了基于信息最大化的防坍塌工作,有助于帮助我们更深层次理解表示学习的原理,以及如何解决实际应用表示学习、对比学习时遇到的坍塌问题。



审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 矩阵
    +关注

    关注

    0

    文章

    423

    浏览量

    34535
  • Network
    +关注

    关注

    0

    文章

    64

    浏览量

    29636

原文标题:ICLR2022 | Facebook AI提出解决表示学习坍塌问题新方法

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    广电计量助力第二届低空科技发展大会区顺利举办

    低空经济是新质生产力的典型代表,也将是中国经济新的增长点,其战略意义重大,发展前景广阔。今年年初低空经济在全国两会上作为“新增长引擎”写入政府工作报告。2024年伊始,低空经济被写入陕西省政府工作报告,陕西低空经济发展迎来全新机遇。
    的头像 发表于 12-24 11:23 147次阅读

    维智科技入选中国数据要素X行业应用图谱

    自2014年“大数据”首次写入政府工作报告以来,战略重心逐步由“互联网+”、“大数据战略”、“数字化升级”向“培育数据要素市场”倾斜。
    的头像 发表于 12-05 10:16 154次阅读

    时空引导下的时间序列自监督学习框架

    【导读】最近,香港科技大学、上海AI Lab等多个组织联合发布了时间序列无监督预训练的文章,相比原来的TS2Vec等时间序列表示学习工作
    的头像 发表于 11-15 11:41 246次阅读
    时空引导下的时间序列自监督<b class='flag-5'>学习</b>框架

    杰和科技携新品受邀参加深圳计算机行业协会会员大会

    2024年8月23日杰和科技携新品受邀参加深圳计算机行业协会会员大会2024年8月23日,深圳计算机行业协会举行了第十一届第次会员大会,杰和科技受邀参加此次活动,审议第十届理事会工作报告、监事会
    的头像 发表于 09-12 08:12 261次阅读
    杰和科技携新品受邀参加深圳计算机行业协会会员大会

    罗德与施瓦茨发布城市空中交通eVTOL测试解决方案

    2024年政府工作报告提出,“积极打造生物制造、商业航天、低空经济等新增长引擎”。这是低空经济首次被写入政府工作报告。低空经济依托于1000米以内的低空空域,以各种有人驾驶和无人驾驶航空器的各类低空飞行活动为牵引,辐射带动相关领域融合发展。
    的头像 发表于 08-16 16:30 472次阅读

    AI入门之深度学习:基本概念

    1、什么是深度学习 1.1、机器学习    图1:计算机有效工作的常用方法:程序员编写规则(程序),计算机遵循这些规则将输入数据转换为适当的答案。这方法被称为符号主义人工智能,适
    的头像 发表于 08-08 11:24 1933次阅读
    AI入门之深度<b class='flag-5'>学习</b>:基本概念<b class='flag-5'>篇</b>

    深视智能参编《2024智能检测装备产业发展研究报告:机器视觉

    为全面了解机器视觉检测装备产业发展情况,中国电子技术标准化研究院联合业内龙头企业、科研院所和产业联盟等(参编单位名单见附件),共同编制了《智能检测装备产业发展研究报告:机器视觉》。《智能检测装备
    的头像 发表于 08-05 08:38 295次阅读
    深视智能参编《2024智能检测装备产业发展研究<b class='flag-5'>报告</b>:机器视觉<b class='flag-5'>篇</b>》

    【《大语言模型应用指南》阅读体验】+ 基础

    今天开始学习《大语言模型应用指南》第一篇——基础,对于人工智能相关专业技术人员应该可以轻松加愉快的完成此阅读,但对于我还是有许多的知识点、专业术语比较陌生,需要网上搜索
    发表于 07-25 14:33

    基于Python和深度学习的CNN原理详解

    卷积神经网络 (CNN) 由各种类型的层组成,这些层协同工作以从输入数据中学习分层表示。每个层在整体架构中都发挥着独特的作用。
    的头像 发表于 04-06 05:51 2104次阅读
    基于Python和深度<b class='flag-5'>学习</b>的CNN原理详解

    两会过后,来CMIMS 2024看新能源汽车产业稳中提质

    政府工作报告时,被多次提及的关键词汇。 政府工作报告中汇报了上年我国在新能源汽车中取得的显著成绩,首先是我国新能源汽车产销量占全球比重超过60%,另外,我国电动汽车、锂电池、光伏产品“新三样”在去年出口增长了近30%。
    的头像 发表于 03-20 11:52 388次阅读
    两会过后,来CMIMS 2024看新能源汽车产业稳中提质

    中科曙光推出种半实物实时仿真系统计算平台及国产化方案

    随着各地新春第会陆续召开,已有31省、自治区、直辖市发布政府工作报告,对新年数字经济发展做出详实规划,尤其对装备制造、工业仿真软件等做出具体部署。
    的头像 发表于 03-19 09:42 660次阅读

    飒特红外2023年售后服务工作报告

    这是飒特红外投身红外热像仪研制生产的第33个年头,这是飒特红外售后服务工作与合作伙伴共庆的第33个315。
    的头像 发表于 03-15 09:20 370次阅读
    飒特红外2023年售后服务<b class='flag-5'>工作报告</b>

    从政府工作报告看磁元件2024年机遇

    字越少,事越大!政府工作报告提到的2024年重点工作,对行业来说有哪些机会? 2024年3月5日,十四届全国人大二次会议在人民大会堂开幕,国务院总理李强作政府工作报告。 政府工作报告
    的头像 发表于 03-11 15:13 305次阅读

    快看!各地政府工作报告,重点提及这些MEMS传感器及芯片项目!

    近日,多个省市发布2024年工作报告,回顾年取得的成绩并展望2024年工作安排。 近年来,半导体产业(集成电路芯片、智能传感器)等受到国家和各省市的高度重视,包括广东重庆浙江等省市2024年
    的头像 发表于 02-20 08:41 401次阅读
    快看!各地政府<b class='flag-5'>工作报告</b>,重点提及这些MEMS传感器及芯片项目!

    盛思达荣获创新发展单位/2023年度推荐获评企业

    2023年度深圳市教育装备行业协会工作,研究部署2024年度协会各项工作,审议第届理事会工作报告、财务报告、第
    的头像 发表于 12-29 08:02 341次阅读
    盛思达荣获创新发展单位/2023年度推荐获评企业