0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

In-Context-Learning在更大的语言模型上表现不同

深度学习自然语言处理 来源:机器翻译学堂 2023-06-12 14:35 次阅读

最近,在语言模型领域取得了巨大的进展,部分是因为它们可以通过In-Context- Learning ( ICL)来完 成各种复杂的任务。在ICL中,模型在执行未见过的用例之前,会首先接收一些输入-标签对的示例。一 般来说,ICL对模型的增强,有以下原因:

按照上下文示例的格式,利用预训练阶段得到的语义先验知识来预测标签(例如,当看到带有“正面情感”和“负面情感”标签的电影评论示例,使用先验知识来做情感分析)。

从给的上下文示例中学习输入-标签的映射(例如,正面评论应该映射到一个标签,负面评论应该映射到另一个标签的模式)。

在本文中,我们旨在了解这两个因素(语义先验知识和输入-标签映射)在ICL的影响,尤其是当语言模 型的规模发生变化时。我们通过2种实验方法来对这两个因素进行研究,实验方法分别为:翻转标签的 ICL (flipped-label ICL)和语义无关标签的ICL ( SUL- ICL)。

在翻转标签的ICL中,上下文示例的标签的语义被翻转(例如原先的标签为“Negative”,被反转为 “Positive”),使得语义先验知识和输入-标签映射不匹配。

ps:可以理解为,语义先验知识中与该上下文示例相似的标签都是“Negative”的,但是此处通过“翻转标签”方法,变为“Positive”后,先验知识与当前的上下文示例的输入-标签映射产生了不匹配。

在SUL- ICL中,上下文示例的标签被替换为与上下文中所呈现的任务在语义上无关的词语(例如,原 先的标签“Positive”,被替换为"Foo")。

ps:例如,原先的标签为影评领域的,现在替换为美食或者其他领域的词

我们发现,覆盖先验知识是随着模型规模的增大而涌现的一种能力(ps:覆盖先验知识可以理解为,从上 下文示例中学习,而不是预训练阶段的先验知识),从语义无关标签的上下文中学习的能力也是如此。我们还发现,指令微调(Instruct-tuning)对学习先验知识能力的加强上要超过对学习输入-标签映射的 增强。(下图为普通ICL,翻转标签ICL和语义无关ICL的示例)

wKgaomSGvN6AMWlZAAE8xuVcMYQ976.jpg

实验设计

我们在七个广泛使用的自然语言处理(NLP)任务上进行了实验:情感分析、主/客观分类、问题分类、 重复问题识别、蕴含关系识别、金融情感分析和仇恨言论检测。我们在5种LLM上进行测试:PaLM、Flan- PaLM、GPT-InstructGPT和Codex。

翻转标签(Flipped Labels-ICL)

在这个实验中,上下文示例的标签被翻转,意味着先验知识和输入-标签映射不一致(例如,包含正面情 感的句子被标记为“Negative”),从而让我们可以研究模型是否能够覆盖其先验知识。在这种情况下, 具备覆盖先验知识能力的模型的性能应该会下降(因为真实的评估标签没有被翻转)。(下图为使用翻 转标签ICL后,不同语言模型的不同尺寸的在测试集上的准确率变化)

wKgZomSGvO-AQoBpAADCMu1yPK4646.jpg

我们发现,当没有标签被翻转时,大型模型的性能优于小型模型(如预期所示)。但是,当我们翻转越来越多的标签时,小型模型的性能保持相对稳定,而大型模型的性能下降得非常明显,甚至低于随机猜 测的水平(例如,对于code-davinci-002模型,性能从90%下降到22.5%)。

这些结果表明,当上下文中出现与先验知识不一致的输入-标签映射时,大型模型可以覆盖预训练的先验 知识,而小型模型则无法做到。

‍作者说:此处,我理解为,更大的语言模型在覆盖先验知识的能力上更强,也就是更容易从给的上下文示例中学习到新的知识,如果给的上下文示例中存在与先验知识冲突的情况,则模型会更加偏重上下文示例。

语义无关标签(SUL-ICL)

在这个实验中,我们将标签替换为语义不相关的标签(例如,在情感分析中,我们使用“foo/bar”代替 “negative/positive”),这意味着模型只能通过学习输入-标签映射来执行ICL。如果模型在ICL中主要依 赖于先验知识,那么在进行这种更改后,其性能应该会下降,因为它将无法再利用标签的语义含义进行 预测。而如果模型能够在上下文中学习输入-标签映射,它就能够学习这些语义无关的映射,并且不应该 出现主要性能下降。

(下图为使用语义无关标签ICL后,不同语言模型的不同尺寸的在测试集上的准确率变化)

wKgZomSGvP6ARzwhAACviOyRZZI230.jpg

事实上,我们发现对于小型模型来说,使用语义无关标签导致了更大的性能下降。这表明,小型模型主要依赖于它们的语义先验知识进行ICL,而不是从给的的输入-标签映射示例中学习。另一方面,当这些标签标签不再具备其原来所有的语义时,大型模型的学习上下文中的输入-标签映射的能力更强。

我们还发现,模型输入更多的上下文示例对于大型模型的性能的提升要强于小模型,这表明大型模型比 小型模型更擅长从上下文示例中学习。

(下图为使用不同数量的语义无关标签ICL后,不同语言模型的不同尺寸的在测试集上的准确率变化)

wKgaomSGvQyABsu6AACtcOu_hfE481.jpg

指令微调(Instruction tuning)

指令微调是一种提高模型性能的常用技术,它将各种自然语言处理(NLP)任务调整为指令的形式输入 给模型(例如,“问题:以下句子的情感是什么?答案:积极的“)。然而,由于该过程使用自然语言标签,一个悬而未决的问题是,它是否提高了学习输入-标签映射的能力,亦或是增强了学习并应用语义先验知识的能力。这两者都会给ICL任务带来性能提升,因此目前尚不清楚这两者中哪一个生效了。

我们通过前两个实验方法继续研究这个问题,但这一次我们专注于比较标准语言模型(PaLM)与经过指令微调的模型(Flan- PaLM)之间的差异。

首先,我们发现在使用语义无关标签时, Flan- PaLM要优于PaLM。在小型模型中,这种效果非常明显, Flan- PaLM-8B的性能超过PaLM-8B约9.6%,并且接近PaLM-62B的性能。这一趋势表明,指令微调增强了学习输入-标签映射的能力。

(下图表明:指令微调后的模型更容易学习输入-标签映射)

wKgZomSGvR6AMFQ_AACRdATvFiU433.jpg

更有趣的是,我们发现Flan- PaLM在遵循翻转标签方面实际上比PaLM要差,这意味着经过指令调整的模型无法覆盖其先验知识(Flan- PaLM模型在100%翻转标签的情况下无法达到低于随机猜测 的水平,而没有经过指令调整的PaLM模型在相同设置下可以达到31%的准确率)。这些结果表明,指令调整必须增加模型在有语义先验知识可用时依赖于语义先验知识的程度。

(下图表示:指令微调后的模型,在使用翻转标签ICL时,更不容易覆盖先验知识)

wKgZomSGvSyAeu9yAABrlAO52H0196.jpg

结合之前的结果,我们得出结论,虽然指令微调提高了学习输入-标签映射的能力,但它在学习语义先验 知识上的加强更为突出。

结论

通过上述实验,可以得到以下的结论:

首先,大语言模型可以在输入足够多的翻转标签的情况下学会对先验知识的覆盖,并且这种能力随 着模型规模的增大而加强。

其次,使用语义无关标签进行上下文学习的能力随着模型规模的增大而加强。

最后,通过对指令微调后的语言模型的研究,发现指令微调虽然可以提高学习输入-标签映射的能 力,但远不如其对学习语义先验知识的加强。

未来工作

这些结果强调了语言模型的ICL行为在模型规模方面可能发生变化,而更大的语言模型具有将输入映射到更多种类型标签的能力,这可能使得模型可以学习任意符号的输入-标签映射。未来的研究可以帮助我们更好地理解这种现象。




审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Palm
    +关注

    关注

    0

    文章

    22

    浏览量

    11260
  • icl
    icl
    +关注

    关注

    0

    文章

    28

    浏览量

    17212
  • nlp
    nlp
    +关注

    关注

    1

    文章

    483

    浏览量

    21985

原文标题:In-Context-Learning在更大的语言模型上表现不同

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    大型语言模型的逻辑推理能力探究

    最新研究揭示,尽管大语言模型LLMs语言理解上表现出色,但在逻辑推理方面仍有待提高。为此,研究者们推出了GLoRE,一个全新的逻辑推理评估
    的头像 发表于 11-23 15:05 907次阅读
    大型<b class='flag-5'>语言</b><b class='flag-5'>模型</b>的逻辑推理能力探究

    【大语言模型:原理与工程实践】揭开大语言模型的面纱

    超出预期的能力和表现。这种能力主要体现在学习能力提升、语言理解和生成能力,以及创新和探索等方面。大语言模型拥有更大的参数空间和表征能力,能学
    发表于 05-04 23:55

    【大语言模型:原理与工程实践】大语言模型的基础技术

    的,与上下文语境无关,因此不适用于一词多义的情况。例如,“苹果”“我去吃个苹果”与“这个苹果手机好用吗”这两个句子中的语义明显不同,但静态词向量语言模型仅利用同一个向量表示词的语义,难以刻画同一个词
    发表于 05-05 12:17

    【大语言模型:原理与工程实践】大语言模型的评测

    任务、评测集构建标准和评测方式三个部分。特别地,为了关注大语言模型中文场景的优化和应用,该框架特别注重中文特有语境下的能力考察。其贡献在于不仅能更准确地反映模型
    发表于 05-07 17:12

    【大语言模型:原理与工程实践】大语言模型的应用

    类任务上表现出色,甚至零样本条件下也能取得良好效果。另一类则需要逐步推理才能完成的任务,类似于人类的系统2,如数字推理等。然而,随着参数量的增加,大语言模型在这类任务上并未出现质的飞
    发表于 05-07 17:21

    语言模型:原理与工程时间+小白初识大语言模型

    解锁 我理解的是基于深度学习,需要训练各种数据知识最后生成自己的的语言理解和能力的交互模型。 对于常说的RNN是处理短序列的数据时表现出色,耳真正厉害的是Transformer,此框架被推出后直接
    发表于 05-12 23:57

    HarmonyOS/OpenHarmony应用开发-Stage模型ArkTS语言AbilityStage

    进行初始化时回调。context接口示例:*附件:HarmonyOSOpenHarmony应用开发-stage模型ArkTS语言AbilityStage.docx
    发表于 04-07 15:16

    微软视觉语言模型有显著超越人类的表现

    最近开发了一种新的图像编码对象属性检测模型,称为VinVL(Visual features in Vision-Language),有着显著超越人类的表现
    的头像 发表于 01-19 14:32 1641次阅读

    应用于任意预训练模型的prompt learning模型—LM-BFF

    /2107.13586.pdf 相关资源:http://pretrain.nlpedia.ai Part1什么是Prompt Learning 从BERT诞生开始,使用下游任务数据微调预训练语言模型 (LM)已成为
    的头像 发表于 08-16 11:21 4556次阅读
    应用于任意预训练<b class='flag-5'>模型</b>的prompt <b class='flag-5'>learning</b><b class='flag-5'>模型</b>—LM-BFF

    一文解析In-Context Learning

    本文主要以实验为主,探究以上影响 ICL 的因素。 实验设置 作者采用 12 个模型进行了实验。我们包括 6 种语言模型(表 1),所有这些模型都是仅限解码器的 dense L
    发表于 03-22 15:21 3536次阅读

    In-context learning如何工作?斯坦福学者用贝叶斯方法解开其奥秘

    In-context learning允许用户为新用例快速构建模型,而无需为每个任务微调和存储新参数。它通常只需要很少的训练示例就可以使模型正常工作,而且即使对于非专家来说,也可以通过
    的头像 发表于 04-11 14:07 1365次阅读

    In-context learning介绍

    随着大规模预训练语言模型(LLM)能力的不断提升,in-context learning(ICL)逐渐成为自然语言处理领域一个新的范式。
    的头像 发表于 04-21 10:02 1484次阅读

    模型LLM领域,有哪些可以作为学术研究方向?

    随着全球大炼模型不断积累的丰富经验数据,人们发现大模型呈现出很多与以往统计学习模型、深度学习模型、甚至预训练小模型不同的特性,耳熟能详的如F
    的头像 发表于 05-29 14:36 1080次阅读
    大<b class='flag-5'>模型</b>LLM领域,有哪些可以作为学术研究方向?

    首篇!Point-In-Context:探索用于3D点云理解的上下文学习

    随着基于广泛数据训练的大模型兴起,上下文学习(In-Context Learning)已成为一种新的学习范式,自然语言处理(NLP)和计算
    的头像 发表于 07-13 14:41 713次阅读
    首篇!Point-In-<b class='flag-5'>Context</b>:探索用于3D点云理解的上下文学习

    鸿蒙开发组件:FA模型Context

    FA模型下只有一个ContextContext中的所有功能都是通过方法来提供的,它提供了一些featureAbility中不存在的方法,相当于featureAbility的一个扩展和补全。
    的头像 发表于 06-21 09:43 257次阅读
    鸿蒙开发组件:FA<b class='flag-5'>模型</b>的<b class='flag-5'>Context</b>