0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Transformer在下一个token预测任务上的SGD训练动态

CVer 来源:CVer 2023-06-12 10:11 次阅读

【导读】AI理论再进一步,破解ChatGPT指日可待?

Transformer架构已经横扫了包括自然语言处理、计算机视觉、语音、多模态等多个领域,不过目前只是实验效果非常惊艳,对Transformer工作原理的相关研究仍然十分有限。

其中最大谜团在于,Transformer为什么仅依靠一个「简单的预测损失」就能从梯度训练动态(gradient training dynamics)中涌现出高效的表征?

最近田渊栋博士公布了团队的最新研究成果,以数学严格方式,分析了1层Transformer(一个自注意力层加一个解码器层)在下一个token预测任务上的SGD训练动态。

aca984de-0871-11ee-962d-dac502259ad0.png

论文链接:https://arxiv.org/abs/2305.16380

这篇论文打开了自注意力层如何组合输入token动态过程的黑盒子,并揭示了潜在的归纳偏见的性质。

具体来说,在没有位置编码、长输入序列、以及解码器层比自注意力层学习更快的假设下,研究人员证明了自注意力就是一个判别式扫描算法(discriminative scanning algorithm):

从均匀分布的注意力(uniform attention)开始,对于要预测的特定下一个token,模型逐渐关注不同的key token,而较少关注那些出现在多个next token窗口中的常见token

对于不同的token,模型会逐渐降低注意力权重,遵循训练集中的key token和query token之间从低到高共现的顺序。

有趣的是,这个过程不会导致赢家通吃,而是由两层学习率控制的相变而减速,最后变成(几乎)固定的token组合,在合成和真实世界的数据上也验证了这种动态。

田渊栋博士是Meta人工智能研究院研究员、研究经理,围棋AI项目负责人,其研究方向为深度增强学习及其在游戏中的应用,以及深度学习模型的理论分析。先后于2005年及2008年获得上海交通大学本硕学位,2013年获得美国卡耐基梅隆大学机器人研究所博士学位。

曾获得2013年国际计算机视觉大会(ICCV)马尔奖提名(Marr Prize Honorable Mentions),ICML2021杰出论文荣誉提名奖。

曾在博士毕业后发布《博士五年总结》系列,从研究方向选择、阅读积累、时间管理、工作态度、收入和可持续的职业发展等方面对博士生涯总结心得和体会。

揭秘1层Transformer

基于Transformer架构的预训练模型通常只包括非常简单的监督任务,比如预测下一个单词、填空等,但却可以为下游任务提供非常丰富的表征,实在是令人费解。

之前的工作虽然已经证明了Transformer本质上就是一个通用近似器(universal approximator),但之前常用的机器学习模型,比如kNN、核SVM、多层感知机等其实也是通用近似器,这种理论无法解释这两类模型在性能上的巨大差距。

acc68cbe-0871-11ee-962d-dac502259ad0.png

研究人员认为,了解Transformer的训练动态(training dynamics)是很重要的,也就是说,在训练过程中,可学习参数是如何随时间变化的。

文章首先以严谨数学定义的方式,形式化描述了1层无位置编码Transformer的SGD在下一个token预测(GPT系列模型常用的训练范式)上的训练动态。

1层的Transformer包含一个softmax自注意力层和预测下一个token的解码器层。

acd4ddfa-0871-11ee-962d-dac502259ad0.png

在假设序列很长,而且解码器的学习速度比自注意力层快的情况下,证明了训练期间自注意力的动态行为:

1. 频率偏差Frequency Bias

模型会逐渐关注那些与query token大量共现的key token,而对那些共现较少的token降低注意力。

2. 判别偏差Discrimitive Bias

模型更关注那些在下一个要预测的token中唯一出现的独特token,而对那些在多个下一个token中出现的通用token失去兴趣。

这两个特性表明,自注意力隐式地运行着一种判别式扫描(discriminative scanning)的算法,并存在归纳偏差(inductive bias),即偏向于经常与query token共同出现的独特的key token

此外,虽然自注意力层在训练过程中趋向于变得更加稀疏,但正如频率偏差所暗示的,模型因为训练动态中的相变(phase transition),所以不会崩溃为独热(one hot)。

acdf2b84-0871-11ee-962d-dac502259ad0.png

学习的最后阶段并没有收敛到任何梯度为零的鞍点,而是进入了一个注意力变化缓慢的区域(即随时间变化的对数),并出现参数冻结和学会(learned)。

研究结果进一步表明,相变的开始是由学习率控制的:大的学习率会产生稀疏的注意力模式,而在固定的自注意力学习率下,大的解码器学习率会导致更快的相变和密集的注意力模式。

研究人员将工作中发现的SGD动态命名为扫描(scan)和snap:

扫描阶段:自注意力集中在key tokens上,即不同的、经常与下一个预测token同时出现的token;其他所有token的注意力都下降。

snap阶段:注意力全中几乎冻结,token组合固定。

aceebd7e-0871-11ee-962d-dac502259ad0.png

这一现象在简单的真实世界数据实验中也得到验证,使用SGD在WikiText上训练的1层和3层Transformer的最低自注意力层进行观察,可以发现即使在整个训练过程中学习率保持不变,注意力也会在训练过程中的某一时刻冻结,并变得稀疏。
责任编辑:彭菁

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Transformer
    +关注

    关注

    0

    文章

    145

    浏览量

    6036
  • 自然语言
    +关注

    关注

    1

    文章

    291

    浏览量

    13387
  • ChatGPT
    +关注

    关注

    29

    文章

    1566

    浏览量

    7988

原文标题:田渊栋新作:打开1层Transformer黑盒,注意力机制没那么神秘!

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    阿里CEO:下一个增长引擎定是IoT

    张勇说,下一个布局、下一个热点、下一个增长的引擎定是来自于万物互联的时代,来自于围绕着万物互联。我们希望在万物互联网时代能够和所有的合作伙伴形成
    发表于 09-10 11:25 832次阅读

    EMC如何成为下一个设计工程的成功因素

    EMC如何成为下一个设计工程的成功因素?
    的头像 发表于 08-23 11:32 767次阅读
    EMC如何成为<b class='flag-5'>下一个</b>设计工程的成功因素

    如何在下一个设计中成功集成USB 3.2 IP

    如何影响使用USB Type-C连接器和电缆速度。此外,还讨论了USB 3.2的实现,USB 3.2的新功能以及设计人员如何在下一个设计中成功集成USB 3.2 IP。 、USB 3.2应用 许多应用都存在
    的头像 发表于 03-24 17:23 4923次阅读

    请问ucosii任务调度当任务运行完后是如何跳转到下一个任务的?

    1.当任务运行完后是如何跳转到下一个任务的?2.第一个
    发表于 05-10 06:06

    你了解在单GPU就可以运行的Transformer模型吗

    LSH最近邻搜索的简化动画,两点在不同的桶这里我们有两点,它们投影到单位圆,并随机旋转3次,角度不同。我们可以观察到,它们不太可
    发表于 11-02 15:19

    2013年存储行业预测Top10:大数据席卷而来,下一个大事?

    12月19消息,据InfoStor杂志对存储行业专家进行的调查,大数据席卷而来,专家对此提出了2013年存储行业的10大预测下一个大事是什么?
    发表于 12-19 08:57 1826次阅读

    VR体验的下一个飞跃是什么?

    对虚拟现实的兴奋不在图表之列,但目前这代VR游戏还是很无聊吗? VR的下一个重大飞跃是什么?开发人员如何利用这些新功能?
    的头像 发表于 11-13 06:31 2599次阅读

    苹果或成下一个诺基亚?

    iPhone11泄露,还有中国特供版!网友:下一个诺基亚
    的头像 发表于 08-23 11:51 3628次阅读

    下一个十年物联网产业发展市场预测

    为了“仰望星空”,也为了“脚踏实地”,聚焦下一个十年物联网产业发展。我们引用了全球行业主流研究院、研究咨询公司以及大型企业的权威数据,作为对产业航向的预测,希望可以帮助行业伙伴更深的了解行业,并
    的头像 发表于 01-10 10:36 2796次阅读

    苹果改变IoT江湖的下一个大招是什么?

    市值2万亿美元的苹果公司下一个大招是什么?传言了三年的追踪器“AirTag”最有可能成为下一个像TWS耳机那样的爆品。
    的头像 发表于 01-29 10:41 2635次阅读

    在下一个十年,谁将成为云战争的赢家?

    2010年的春天,在中国第二届IT领袖峰会的分论坛,数字中国联合会常务理事刘二飞抛出“云计算”话题,称这是互联网行业下一个必争之地,请李彦宏和马化腾讲
    的头像 发表于 03-03 11:37 3181次阅读

    从预训练语言模型看MLM预测任务

    为了解决这问题,本文主要从预训练语言模型看MLM预测任务、引入prompt_template的MLM预测
    的头像 发表于 11-14 14:56 3188次阅读

    汽车软件开发的下一个阶段是什么样的?

    过去,软件开发遵循僵化、缓慢的瀑布方法,并使用高度分散的工具链。开发将经历离散的阶段,每个阶段都在下一个阶段开始之前完成。许多开发过程是手动的,从工具链的部分到下一个部分的切换也是
    的头像 发表于 11-22 10:44 821次阅读

    在下一个物联网设计中实现无缝互操作性

    指导视频:在下一个物联网设计中实现无缝互操作性
    的头像 发表于 12-26 10:16 792次阅读
    <b class='flag-5'>在下一个</b>物联网设计中实现无缝互操作性

    晶体管的下一个25年

    晶体管的下一个25年
    的头像 发表于 11-27 17:08 671次阅读
    晶体管的<b class='flag-5'>下一个</b>25年