0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

为什么不同模态的embedding在表征空间中形成不同的簇

深度学习自然语言处理 来源:圆圆的算法笔记 作者:Fareise 2022-12-05 14:06 次阅读

本文介绍的是斯坦福大学在ICLR 2022发表的一篇多模态模型分析文章。这篇文章研究的是一个多模态对比学习模型中常见的问题:为什么不同模态的embedding在表征空间中形成不同的簇,以及这种gap对最终预训练多模态模型在下游任务中效果的影响。文中分析的一些现象是我们在实验中经常遇到的,例如为什么深度学习模型输出的embedding对的cosine往往是大于0的数,并且做了很多有趣的实验进行了分析和验证。

文中将一些经典的多模态对比学习模型中两个模态的embedding,通过降维等方法映射到二维坐标系中。从下图可以看出,不论是哪种模型,两个模态的表征都会出现gap(形成独立的簇)。并且无论是预训练好的模型,还是随机初始化的模型,都存在这个问题。

2056fbf2-7455-11ed-8abf-dac502259ad0.png

那么为什么会出现这种现象呢?文中从两个角度进行了分析,一个是深度学习模型本身的cone effect会带来gap,另一个是对比学习损失倾向于保持这种gap

1 Core Effect的影响

Core effect在文中的定义可以理解为,使用深度学习模型得到的embedding,会分布在一个狭小的锥形空间里,不论模型的参数是训练好的还是随机的。同时,不同的随机初始化最终产出的embedding会分布在不同的锥形区域。而多模态模型中,一般是两个模态的模型分别随机初始化,这就导致两个模态会随机生成两个锥形区域,从而导致不同模态之间的表示空间存在gap。下面详细介绍一下文中的分析过程

文中通过模型产出的任意两个embedding的cosine相似度分布来验证这个问题。从模型中获取5000个embedding,然后计算两两embedding的cosine相似度,求出平均cosine和最小cosine。通过下图可以发现,各类模型的cosine值基本都是偏高的,并且很少有负数的cosine值。这表明,模型输出的embedding并不是散落在整个空间中的,而是形成一个从坐标远点向外扩展的狭小锥形中,才会出现cosine取值分布偏大的现象。

2075938c-7455-11ed-8abf-dac502259ad0.png

那么为什么深度学习模型会出现cone effect现象呢?文中对比了不同激活函数、不同网络层数的模型形成的cosine均值,发现层数越深cosine均值越高,并且当没有激活函数的时候就不会出现cosine均值大于0的情况(如下图所示)。这说明激活函数和网络层数的加深是cone effect现象形成的主要原因。

20830fd0-7455-11ed-8abf-dac502259ad0.png

接下来,文中又对比了不同随机初始化对形成的锥形区域的影响。文中对多个模型进行了25次随机初始化,并绘制了每次随机初始化的embedding区域。可以看到每次随机初始化的锥形区域都是不同的,这说明不同的随机初始化会导致生成的embedding分布在不同的锥形区域

209026d4-7455-11ed-8abf-dac502259ad0.png

结合以上的信息就可以推倒出多模态模型两个模态表征存在gap的原因:多模态对比学习一般是双塔结构,一个模态一个塔,每个塔进行随机参数初始化后,导致每个塔有一个自己的锥形区域,并且初始化的随机性导致两个塔的锥形区域不同

2 对比学习loss的影响

第二个造成多模态表征存在gap的原因是对比学习loss。文中通过一些实验验证了对比学习loss会倾向于保持这种模态之间的gap。为了分析这个问题,文中设计了embedding shift实验和构造mismatch数据实验。

在embedding shift实验中,会在一个训练好的CLIP模型基础上,计算两个模态embedding质心之间的距离。并且不断的让两个模态的embedding进行靠近,再计算不同temperature参数下的对比学习loss。实验结果如下图,CLIP模型训练好后,两个模态embedding的距离为0.82,随着距离的拉近或远离,基本都会带来loss的上升。而当temperature=1时,最小loss则出现在两个模态embedding距离更近的位置,这表明对比学习损失对gap的影响是和temperature相关的。

20a6a3fa-7455-11ed-8abf-dac502259ad0.png

在构造mismatch数据实验中,作者会构造一些mismatch数据(如下图中I0和T0是正样本,I1和T1是正样本,但是I0和T1更接近,I1和T0更接近),然后让文本表示逐渐向图像表示靠近。并绘制不同temperature下的loss曲线,可以看到和之前类似的效果,距离为0时loss最大,并且temperature为1时这种现象并不明显。同时,如果删除mismatch的数据,这个现象就消失了,这说明mismatch数据是导致对比学习loss倾向于保持多模态表征gap的关键因素。

20cbf97a-7455-11ed-8abf-dac502259ad0.png

3 Gap和模型效果

那么多模态表征的gap对模型效果有什么影响呢?首先作者对比了预训练CLIP在zero-shot任务的效果。下表表示的是如何通过增大或缩小多模态表征gap来提升模型的效果。从下表可以看出,在各类数据集下,通过增大或减小多模态表征的gap,是可以对下游任务产生比较显著的效果影响的。

21045158-7455-11ed-8abf-dac502259ad0.png

4 总结

这篇文章从一个多模态表征存在gap的现象出发,详细分析了这个现象产生的原因,设计了丰富的实验进行分析和验证,并最终得到如何通过修改表征gap影响模型效果的方法。此外,文中的附录还有大量的补充实验,感兴趣的同学可以进一步深入阅读。






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Clip
    +关注

    关注

    0

    文章

    31

    浏览量

    6664
  • 深度学习
    +关注

    关注

    73

    文章

    5500

    浏览量

    121111

原文标题:多模态预训练常见问题:为什么不同模态表征存在gap?

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    使用TLE9893_2QKW62S进行EEPROM仿真,为什么无法代码空间中找到寄存器?

    文档,将这些信息映射到我所使用的控制器时遇到了许多困惑,例如无法代码空间中找到的寄存器(如:SYS_STRTUP_STS)。
    发表于 05-20 06:03

    如何在KEIL软件中将变量定义特定的RAM空间中

    _____________________________________________________________如何在KEIL软件中将变量定义特定的RAM空间中
    发表于 10-16 22:47

    如何在vision空间中添加xy标尺

    哪位大神知道如何在labview的vision的图片显示空间中添加标尺?就像正常的labview的图片控件里的标尺
    发表于 08-27 15:13

    怎么测量空间中某点的电磁功率(功率密度)?

    怎么测量天线辐射下空间中某点的电磁功率(功率密度)?
    发表于 10-16 16:32

    请问一首MP3格式的歌sd卡中是占用1空间吗?

    一首MP3格式的歌sd卡中是不是占用1空间
    发表于 02-20 22:00

    怎么代码与数据空间中放置常量

    嗨,相当新的PIC24&XC16和我正在实验中放置数据常量代码与数据空间。我注意到,程序代码大小根据我放置常数的位置而变化;当放置数据段时,程序空间使用较少,这让我感到惊讶。存储
    发表于 06-10 12:04

    可不可以同一个内存空间中存储不同的数据类型呢

    一、什么是联合体?C语言中,变量的定义是分配存储空间的过程。一般的,每个变量都具有其独有的存储空间,那么可不可以同一个内存空间中存储不同
    发表于 02-28 08:00

    Hilbert空间中κ-严格伪压缩的强收敛定理

    Hilbert空间中κ-严格伪压缩的强收敛定理:无穷维Hilbert 空间中,即使对非扩张映像Mann,迭代算法仅有弱收敛。为了得到强收敛定理,该文利用Hilbert 空间中闭凸子集
    发表于 10-21 07:59 6次下载

    Banach空间中非扩张非自映象不动点的粘滞迭代逼近

    Banach空间中非扩张非自映象不动点的粘滞迭代逼近:具有弱序列连续对偶映象的自反Banach 空间中利用太阳非扩张收缩映象研究了非扩张非自映象不动点的粘滞迭代逼近. 证明了此映
    发表于 10-25 12:16 10次下载

    本体个人数据空间中的应用研究

    随着科学技术的发展和个人信息量的增大,个人信息管理越来越重要。为了实现个人信息的有效管理,把本体引入到个人数据空间中,介绍了描述个人数据空间中个人信息资源的
    发表于 01-22 13:47 11次下载

    从one-hot、word embedding、rnn、seq2seq、transformer一步步逼近bert

    word embedding的一个基本思路就是,我们把一个词映射到语义空间的一个点,把一个词映射到低维的稠密空间,这样的映射使得语义上比较相似的词,他语义
    的头像 发表于 07-18 14:10 7158次阅读
    从one-hot、word <b class='flag-5'>embedding</b>、rnn、seq2seq、transformer一步步逼近bert

    覆盖近似空间中的核及性质综述

    文中覆盖近似空间中,提出核的概念,研究核的存在性与唯一性以及覆盖块、邻域和核之间的关系;基于核和约简提出协调覆盖的概念,揭示约简、核和协调覆盖之间的关联;最后,给出覆盖产生的邻域族等于覆盖本身的充要条件。
    发表于 06-17 16:05 11次下载

    关于Flash程序空间中的数据访问的实验

    关于Flash程序空间中的数据访问的实验(物联网嵌入式开发)-关于Flash程序空间中的数据访问的实验,适合感兴趣的学习者学习,可以提高自己的能力,大家可以多交流哈
    发表于 08-04 11:56 3次下载
    关于Flash程序<b class='flag-5'>空间中</b>的数据访问的实验

    KUKA系统函数FORWARD()是如何计算空间中笛卡尔位置的

    功能 FORWARD 从机器人和附加轴的轴角度中计算空间中的笛卡尔位置 (基坐标系)。
    的头像 发表于 10-26 09:47 1948次阅读

    VR虚拟空间中的3D 技术

    随着科技的飞速发展,虚拟空间已成为元宇宙的重要呈现方式。从游戏到工业设计,从电子商务到文旅体验,3D相关技术虚拟空间中发挥着举足轻重的作用,决定着用户们能否真正能体会到VR的沉浸式体验。 虚拟
    的头像 发表于 04-29 09:36 1532次阅读
    VR虚拟<b class='flag-5'>空间中</b>的3D 技术