0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

什么样的模型更适合zero-shot?

深度学习自然语言处理 来源:无数据不智能 2023-05-12 15:40 次阅读

什么样的模型更适合zero-shot?

对于模型架构,不同的论文有不同的分发,不同的名称。我们不必纠结于称谓,在这里我们延续BigScience的概念来讨论,即:

  1. 架构:自回归、非自回归、编码器-解码器
  2. 目标:全语言模型、前缀语言模型、掩码语言模型
  3. 适配器:不添加适配器、将自回归模型用于掩码目标训练的适配器、将掩码为目标的模型转化为纯语言模型目标
  4. 是否经过多任务微调
  5. 评估数据集:EAI-Eval、T0-Eval

f1e805b4-ef0f-11ed-90ce-dac502259ad0.png

BigScience有两项重要的结论,但这两项结论是在控制预训练的预算的基础上的,而非控制参数量。如此实验编码器-解码器用了11B参数量,而纯解码器却是4.8B。

  1. 如果不经过多任务微调,自回归模型最好,掩码语言模型跟随机结果一样。
  2. 如果经过多任务微调,编码器-解码器掩码模型最好【这参数量都翻倍了,很难说不是参数量加倍导致的】。换个角度想,在多任务微调之后,自回归全语言模型在参数量不到编码器-解码器掩码模型一半,计算量还少10%的情况下,效果还能差不多。

f209e242-ef0f-11ed-90ce-dac502259ad0.png

来自科学空间的对比实验【https://spaces.ac.cn/archives/9529】更是印证了这一点:

在同等参数量、同等推理成本下,Decoder-only架构很可能是最优选择。

效果和模型形状有没有关系

在openAI的实验中,通过控制参数量,分别调整模型形状的三个指标前馈维度比、宽高比、注意力头维度,实验表明,模型形状对性能的依赖非常轻微。

f21ca788-ef0f-11ed-90ce-dac502259ad0.png

单独研究层数,排除嵌入层的影响,除了一层这种极端情况之外,同样参数下,不同的层数倾向于收敛于同样的损失。

f237de0e-ef0f-11ed-90ce-dac502259ad0.png

到底需要多少数据训练

在GPT-3中参数数据比约为1:1.7,而Chinchilla是为1:20。然而GPT-3参数量是Chinchilla的2.5倍,下游任务却大范围地输给了Chinchilla。再看LLaMA就更离谱了约为1:77,只有13B参数量很多任务就超越了GPT-3。这是不是和咱公众号名字很符合:【无数据不智能】,海量高质量数据才是王道。

Model Parameters Training Tokens
LaMDA (2022) 137 Billion 168 Billion
GPT-3 (2020) 175 Billion 300 Billion
Jurassic (2021) 178 Billion 300 Billion
Gopher (2021) 280 Billion 300 Billion
MT-NLG 530B (2022) 530 Billion 270 Billion
Chinchilla(202) 70 Billion 1.4 Trillion
LLaMA(202) 13 Billion 1.0 Trillion

批次大小设置为多少好

f252e94c-ef0f-11ed-90ce-dac502259ad0.png

【Scaling Laws for Neural Language Models】实验中表明batch size和模型大小无关,只和想达到的loss有关(幂次关系),同时也受到噪声数据的影响。

学习率多大合适

f264f2a4-ef0f-11ed-90ce-dac502259ad0.png

  1. 只要学习率不是太小,衰减不是太快,性能对学习率的依赖性并不强。
  2. 较大的模型需要较小的学习率来防止发散,而较小的模型可以容忍较大的学习率。
  3. 经验法则:LR(N) ≈ 0.003239 − 0.0001395log(N),N:模型参数量

参数量、数据量、训练时长和loss什么关系

f2812640-ef0f-11ed-90ce-dac502259ad0.png

参数量、数据量、训练时长和loss都存在幂指数关系

审核编辑 :李倩


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1129

    浏览量

    40674
  • 编码器
    +关注

    关注

    45

    文章

    3585

    浏览量

    134131
  • 模型
    +关注

    关注

    1

    文章

    3162

    浏览量

    48708

原文标题:引用

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于将 CLIP 用于下游few-shot图像分类的方案

    对比性图像语言预训练模型(CLIP)在近期展现出了强大的视觉领域迁移能力,可以在一个全新的下游数据集上进行 zero-shot 图像识别。
    的头像 发表于 09-27 09:46 5041次阅读

    震动环境下适合什么样的液晶屏

    `经常有客户会问我们,因为终端的使用环境比较恶劣,基本上在不停的震动,选用什么样的液晶屏可以在震动环境下长久使用呢?当遇到这种问题的时候,我们首先会从液晶屏的结构和连接方式上考虑。其实,液晶屏的显示
    发表于 12-13 15:28

    请问GTR的双晶体管模型什么样的?

    没事看看了电力电子,看到这个原理图,有点迷糊了,按图所示,如果集电极C处为N型半导体,按照图中来C极应该接负极才对呀?为什么还接正极?这样如何导通?有没有大神指导下GTR的双晶体管模型什么样的?
    发表于 06-11 09:03

    什么样的示波器适合你?

    什么样的示波器适合你?示波器自从问世以来,它一直是最重要、最常用的电子测试仪器之一。由于电子技术的发展,示波器的能力在不
    发表于 07-01 15:57 776次阅读
    <b class='flag-5'>什么样</b>的示波器<b class='flag-5'>适合</b>你?

    NLP事件抽取综述之挑战与展望

    /xiaoqian19940510/Event-Extraction Few-shot or zero-shot 2020 Meta-Learning with Dynamic-Memory-Based
    的头像 发表于 01-18 16:33 3769次阅读
    NLP事件抽取综述之挑战与展望

    Zero-shot-CoT是multi-task的方法

    大规模预训练语言模型借助于针对特定任务设计的prompt(无论是few shot还是zero shot),在单步骤的system-1任务上有着出色表现,但是对于那些缓慢和需要多步推理的
    的头像 发表于 06-15 10:53 2369次阅读

    基于Zero-Shot的多语言抽取式文本摘要模型

    抽取式文本摘要目前在英文上已经取得了很好的性能,这主要得益于大规模预训练语言模型和丰富的标注语料。但是对于其他小语种语言,目前很难得到大规模的标注数据。
    的头像 发表于 07-08 10:49 1494次阅读

    介绍一个基于CLIP的zero-shot实例分割方法

    CLIP是近年来在多模态方面的经典之作,得益于大量的数据和算力对模型进行预训练,模型Zero-shot性能非常可观,甚至可以在众多数据集上和有监督训练媲美。
    的头像 发表于 10-13 09:13 4663次阅读

    从预训练语言模型看MLM预测任务

    为了解决这一问题,本文主要从预训练语言模型看MLM预测任务、引入prompt_template的MLM预测任务、引入verblize类别映射的Prompt-MLM预测、基于zero-shot
    的头像 发表于 11-14 14:56 3097次阅读

    基于GLM-6B对话模型的实体属性抽取项目实现解析

    Zero-shot、One-shot以及Few-shot让人傻傻分不清,读了很多文章,也没搞清楚他们的差别,究竟什么叫zero-shot,其在应用过程中的no gradient upd
    的头像 发表于 03-28 10:11 6841次阅读

    模型LLM领域,有哪些可以作为学术研究方向?

    随着全球大炼模型不断积累的丰富经验数据,人们发现大模型呈现出很多与以往统计学习模型、深度学习模型、甚至预训练小模型不同的特性,耳熟能详的如F
    的头像 发表于 05-29 14:36 1094次阅读
    大<b class='flag-5'>模型</b>LLM领域,有哪些可以作为学术研究方向?

    迈向多模态AGI之开放世界目标检测

    OVD的基础概念:OVD的使用主要涉及到 few-shotzero-shot两大类场景,few-shot是指有少量人工标注训练样本的目标类别,zero-shot则是指不存在任何人
    的头像 发表于 06-15 16:08 725次阅读
    迈向多模态AGI之开放世界目标检测

    基于通用的模型PADing解决三大分割任务

    数据需要消耗巨大的时间以及人力成本。为处理上述难题,零本学习(Zero-Shot Learning,ZSL)被提出用于分类没有训练样本的新对象,并扩展到分割任务中,例如零本语义分割(Zer
    的头像 发表于 06-26 10:39 516次阅读
    基于通用的<b class='flag-5'>模型</b>PADing解决三大分割任务

    为什么叫shot?为什么shot比掩膜版尺寸小很多?

    其中,步进投影式光刻机(stepper)的一个shot一个shot进行曝光的,并不是一整张晶圆同时曝光,那么stepper的shot什么样的?多大尺寸?需要多大的掩膜版?
    的头像 发表于 10-09 18:13 5855次阅读
    为什么叫<b class='flag-5'>shot</b>?为什么<b class='flag-5'>shot</b>比掩膜版尺寸小很多?

    基于显式证据推理的few-shot关系抽取CoT

    最近,上下文学习策略已被证明在没有训练的情况下显示出显著的结果。很少有研究利用上下文学习进行zero-shot信息提取。不幸的是,推理的证据在思维链提示的构建过程中没有被考虑或隐式建模。
    的头像 发表于 11-20 17:44 820次阅读
    基于显式证据推理的few-<b class='flag-5'>shot</b>关系抽取CoT