什么样的模型更适合zero-shot？

对于模型架构，不同的论文有不同的分发，不同的名称。我们不必纠结于称谓，在这里我们延续BigScience的概念来讨论，即：

架构：自回归、非自回归、编码器-解码器
目标：全语言模型、前缀语言模型、掩码语言模型
适配器：不添加适配器、将自回归模型用于掩码目标训练的适配器、将掩码为目标的模型转化为纯语言模型目标
是否经过多任务微调
评估数据集：EAI-Eval、T0-Eval

BigScience有两项重要的结论，但这两项结论是在控制预训练的预算的基础上的，而非控制参数量。如此实验编码器-解码器用了11B参数量，而纯解码器却是4.8B。

如果不经过多任务微调，自回归模型最好，掩码语言模型跟随机结果一样。
如果经过多任务微调，编码器-解码器掩码模型最好【这参数量都翻倍了，很难说不是参数量加倍导致的】。换个角度想，在多任务微调之后，自回归全语言模型在参数量不到编码器-解码器掩码模型一半，计算量还少10%的情况下，效果还能差不多。

来自科学空间的对比实验【https://spaces.ac.cn/archives/9529】更是印证了这一点：

在同等参数量、同等推理成本下，Decoder-only架构很可能是最优选择。

效果和模型形状有没有关系

在openAI的实验中，通过控制参数量，分别调整模型形状的三个指标前馈维度比、宽高比、注意力头维度，实验表明，模型形状对性能的依赖非常轻微。

单独研究层数，排除嵌入层的影响，除了一层这种极端情况之外，同样参数下，不同的层数倾向于收敛于同样的损失。

到底需要多少数据训练

在GPT-3中参数数据比约为1：1.7，而Chinchilla是为1：20。然而GPT-3参数量是Chinchilla的2.5倍，下游任务却大范围地输给了Chinchilla。再看LLaMA就更离谱了约为1：77，只有13B参数量很多任务就超越了GPT-3。这是不是和咱公众号名字很符合：【无数据不智能】，海量高质量数据才是王道。

Model	Parameters	Training Tokens
LaMDA (2022)	137 Billion	168 Billion
GPT-3 (2020)	175 Billion	300 Billion
Jurassic (2021)	178 Billion	300 Billion
Gopher (2021)	280 Billion	300 Billion
MT-NLG 530B (2022)	530 Billion	270 Billion
Chinchilla（202）	70 Billion	1.4 Trillion
LLaMA（202）	13 Billion	1.0 Trillion

批次大小设置为多少好

【Scaling Laws for Neural Language Models】实验中表明batch size和模型大小无关，只和想达到的loss有关（幂次关系），同时也受到噪声数据的影响。

学习率多大合适

只要学习率不是太小，衰减不是太快，性能对学习率的依赖性并不强。
较大的模型需要较小的学习率来防止发散，而较小的模型可以容忍较大的学习率。
经验法则：LR(N) ≈ 0.003239 − 0.0001395log(N)，N：模型参数量

参数量、数据量、训练时长和loss什么关系

参数量、数据量、训练时长和loss都存在幂指数关系

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

解码器

解码器

+关注

关注
9

文章
1143

浏览量
40742
编码器

编码器

+关注

关注
45

文章
3643

浏览量
134528
模型

模型

+关注

关注
1

文章
3244

浏览量
48847

原文标题：引用

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

基于将 CLIP 用于下游few-shot图像分类的方案

对比性图像语言预训练模型（CLIP）在近期展现出了强大的视觉领域迁移能力，可以在一个全新的下游数据集上进行 zero-shot 图像识别。

发表于 09-27 09:46 •5303次阅读

震动环境下适合用什么样的液晶屏

`经常有客户会问我们，因为终端的使用环境比较恶劣，基本上在不停的震动，选用什么样的液晶屏可以在震动环境下长久使用呢？当遇到这种问题的时候，我们首先会从液晶屏的结构和连接方式上考虑。其实，液晶屏的显示

发表于 12-13 15:28

请问GTR的双晶体管模型是什么样的？

没事看看了电力电子，看到这个原理图，有点迷糊了，按图所示，如果集电极C处为N型半导体，按照图中来C极应该接负极才对呀？为什么还接正极？这样如何导通？有没有大神指导下GTR的双晶体管模型是什么样的？

发表于 06-11 09:03

什么样的示波器适合你？

什么样的示波器适合你？示波器自从问世以来，它一直是最重要、最常用的电子测试仪器之一。由于电子技术的发展，示波器的能力在不

发表于 07-01 15:57 •783次阅读

<b class='flag-5'>什么样</b>的示波器<b class='flag-5'>适合</b>你？

NLP事件抽取综述之挑战与展望

/xiaoqian19940510/Event-Extraction Few-shot or zero-shot 2020 Meta-Learning with Dynamic-Memory-Based

发表于 01-18 16:33 •3828次阅读

Zero-shot-CoT是multi-task的方法

大规模预训练语言模型借助于针对特定任务设计的prompt（无论是few shot还是zero shot），在单步骤的system-1任务上有着出色表现，但是对于那些缓慢和需要多步推理的

发表于 06-15 10:53 •2433次阅读

基于Zero-Shot的多语言抽取式文本摘要模型

抽取式文本摘要目前在英文上已经取得了很好的性能，这主要得益于大规模预训练语言模型和丰富的标注语料。但是对于其他小语种语言，目前很难得到大规模的标注数据。

发表于 07-08 10:49 •1536次阅读

介绍一个基于CLIP的zero-shot实例分割方法

CLIP是近年来在多模态方面的经典之作，得益于大量的数据和算力对模型进行预训练，模型的Zero-shot性能非常可观，甚至可以在众多数据集上和有监督训练媲美。

发表于 10-13 09:13 •4760次阅读

从预训练语言模型看MLM预测任务

为了解决这一问题，本文主要从预训练语言模型看MLM预测任务、引入prompt_template的MLM预测任务、引入verblize类别映射的Prompt-MLM预测、基于zero-shot

发表于 11-14 14:56 •3149次阅读

基于GLM-6B对话模型的实体属性抽取项目实现解析

Zero-shot、One-shot以及Few-shot让人傻傻分不清，读了很多文章，也没搞清楚他们的差别，究竟什么叫zero-shot，其在应用过程中的no gradient upd

发表于 03-28 10:11 •6996次阅读

大模型LLM领域，有哪些可以作为学术研究方向？

随着全球大炼模型不断积累的丰富经验数据，人们发现大模型呈现出很多与以往统计学习模型、深度学习模型、甚至预训练小模型不同的特性，耳熟能详的如F

发表于 05-29 14:36 •1139次阅读

大<b class='flag-5'>模型</b>LLM领域，有哪些可以作为学术研究方向？

迈向多模态AGI之开放世界目标检测

OVD的基础概念：OVD的使用主要涉及到 few-shot 和 zero-shot两大类场景，few-shot是指有少量人工标注训练样本的目标类别，zero-shot则是指不存在任何人

发表于 06-15 16:08 •797次阅读

基于通用的模型PADing解决三大分割任务

数据需要消耗巨大的时间以及人力成本。为处理上述难题，零样本学习（Zero-Shot Learning，ZSL）被提出用于分类没有训练样本的新对象，并扩展到分割任务中，例如零样本语义分割（Zer

发表于 06-26 10:39 •546次阅读

为什么叫shot？为什么shot比掩膜版尺寸小很多？

其中，步进投影式光刻机（stepper）的一个shot一个shot进行曝光的，并不是一整张晶圆同时曝光，那么stepper的shot是什么样的？多大尺寸？需要多大的掩膜版？

发表于 10-09 18:13 •6467次阅读

基于显式证据推理的few-shot关系抽取CoT

最近，上下文学习策略已被证明在没有训练的情况下显示出显著的结果。很少有研究利用上下文学习进行zero-shot信息提取。不幸的是，推理的证据在思维链提示的构建过程中没有被考虑或隐式建模。

发表于 11-20 17:44 •904次阅读

搜索历史

什么样的模型更适合zero-shot？

什么样的模型更适合zero-shot？

效果和模型形状有没有关系

到底需要多少数据训练

批次大小设置为多少好

学习率多大合适

参数量、数据量、训练时长和loss什么关系

评论

基于将 CLIP 用于下游few-shot图像分类的方案

震动环境下适合用什么样的液晶屏

请问GTR的双晶体管模型是什么样的？

什么样的示波器适合你？

NLP事件抽取综述之挑战与展望

Zero-shot-CoT是multi-task的方法

基于Zero-Shot的多语言抽取式文本摘要模型

介绍一个基于CLIP的zero-shot实例分割方法

从预训练语言模型看MLM预测任务

基于GLM-6B对话模型的实体属性抽取项目实现解析

大模型LLM领域，有哪些可以作为学术研究方向？

迈向多模态AGI之开放世界目标检测

基于通用的模型PADing解决三大分割任务

为什么叫shot？为什么shot比掩膜版尺寸小很多？

基于显式证据推理的few-shot关系抽取CoT