0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何使用较小的语言模型,并用少量样本来微调语言模型的权重

深度学习自然语言处理 来源:深度学习自然语言处理 作者:鱼羊 2021-01-07 14:27 次阅读

2020年,GPT-3可谓火出了圈。

不仅讲故事的本职工作做得风生水起,还跨界玩起了网页设计、运维、下象棋……

不过,尽管表现惊艳,GPT-3背后到底是实实在在的1750亿参数,想要在实际应用场景中落地,难度着实不小。

现在,针对这个问题,普林斯顿的陈丹琦、高天宇师徒和MIT博士生Adam Fisch在最新论文中提出,使用较小的语言模型,并用少量样本来微调语言模型的权重。

4d534696-5036-11eb-8b86-12bb97331649.png

并且,实验证明,这一名为LM-BFF(better few-shot fine-tuning fo language models)的方法相比于普通微调方法,性能最多可以提升30%。

详情如何,一起往下看。

方法原理

首先,研究人员采用了基于提示的预测路线。

所谓基于提示的预测,是将下游任务视为一个有遮盖(mask)的语言建模问题,模型会直接为给定的提示生成文本响应。

4d7b70ee-5036-11eb-8b86-12bb97331649.png


这里要解决的问题,是寻找正确的提示。这既需要该领域的专业知识,也需要对语言模型内部工作原理的理解。

在本文中,研究人员提出引入一个新的解码目标来解决这个问题,即使用谷歌提出的T5模型,在指定的小样本训练数据中自动生成提示。

4dc132be-5036-11eb-8b86-12bb97331649.png

其次,研究人员在每个输入中,以额外上下文的形式添加了示例。

问题的关键在于,要有限考虑信息量大的示例,一方面,因为可用示例的数量会受到模型最大输入长度的限制;另一方面,不同类型的大量随机示例混杂在一起,会产生很长的上下文,不利于模型学习。

为此,研究人员开发了一种动态的、有选择性的精细策略:对于每个输入,从每一类中随机抽取一个样本,以创建多样化的最小演示集。

另外,研究人员还设计了一种新的抽样策略,将输入与相似的样本配对,以此为模型提供更多有价值的比较。

实验结果

那么,这样的小样本学习方法能实现怎样的效果?

研究人员在8个单句、7个句子对NLP任务上,对其进行了系统性评估,这些任务涵盖分类和回归。

4dec6b00-5036-11eb-8b86-12bb97331649.png

结果显示:

基于提示的微调在很大程度上优于标准微调;

自动提示搜索能匹敌、甚至优于手动提示;

加入示例对于微调而言很有效,并提高了少样本学习的性能。

4ec58340-5036-11eb-8b86-12bb97331649.png

在K=16(即每一类样本数为16)的情况下,从上表结果可以看到,该方法在所有任务中,平均能实现11%的性能增益,显著优于标准微调程序。在SNLI任务中,提升达到30%。

不过,该方法目前仍存在明显的局限性,性能仍大大落后于采用大量样本训练获得的微调结果。

关于作者

论文有两位共同一作。

高天宇,清华大学本科生特等奖学金获得者,本科期间即发表4篇顶会论文,师从THUNLP实验室的刘知远副教授。

今年夏天,他本科毕业后赴普林斯顿攻读博士,师从本文的另一位作者陈丹琦。

此前,量子位曾经分享过他在写论文、做实验、与导师相处方面的经验。

Adam Fisch,MIT电气工程与计算机科学专业在读博士,是CSAIL和NLP研究小组的成员,主要研究方向是应用于NLP的迁移学习和多任务学习。

他本科毕业于普林斯顿大学,2015-2017年期间曾任Facebook AI研究院研究工程师

至于陈丹琦大神,想必大家已经很熟悉了。她本科毕业于清华姚班,后于斯坦福大学拿下博士学位,2019年秋成为普林斯顿计算机科学系助理教授。

最后,该论文代码即将开源,如果还想了解更多论文细节,请戳文末论文链接详读~

传送门

论文地址:

https://arxiv.org/abs/2012.15723v1

项目地址:

https://github.com/princeton-nlp/LM-BFF

责任编辑:xj

原文标题:【前沿】陈丹琦团队最新论文:受GPT-3启发,用小样本学习给语言模型做微调,性能最高提升30%

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语言模型
    +关注

    关注

    0

    文章

    521

    浏览量

    10268
  • GPT
    GPT
    +关注

    关注

    0

    文章

    354

    浏览量

    15345
  • 自然语言
    +关注

    关注

    1

    文章

    288

    浏览量

    13347

原文标题:【前沿】陈丹琦团队最新论文:受GPT-3启发,用小样本学习给语言模型做微调,性能最高提升30%

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    语言模型开发框架是什么

    语言模型开发框架是指用于训练、推理和部署大型语言模型的软件工具和库。下面,AI部落小编为您介绍大语言
    的头像 发表于 12-06 10:28 115次阅读

    语言模型开发语言是什么

    在人工智能领域,大语言模型(Large Language Models, LLMs)背后,离不开高效的开发语言和工具的支持。下面,AI部落小编为您介绍大语言
    的头像 发表于 12-04 11:44 99次阅读

    语言模型如何开发

    语言模型的开发是一个复杂且细致的过程,涵盖了数据准备、模型架构设计、训练、微调和部署等多个阶段。以下是对大语言
    的头像 发表于 11-04 10:14 135次阅读

    【《大语言模型应用指南》阅读体验】+ 基础篇

    今天开始学习《大语言模型应用指南》第一篇——基础篇,对于人工智能相关专业技术人员应该可以轻松加愉快的完成此篇阅读,但对于我还是有许多的知识点、专业术语比较陌生,需要网上搜索学习更多的资料才能理解书中
    发表于 07-25 14:33

    语言模型的预训练

    能力,逐渐成为NLP领域的研究热点。大语言模型的预训练是这一技术发展的关键步骤,它通过在海量无标签数据上进行训练,使模型学习到语言的通用知识,为后续的任务
    的头像 发表于 07-11 10:11 422次阅读

    模型为什么要微调?大模型微调的原理

    在人工智能(AI)领域,特别是自然语言处理(NLP)领域,大模型(如BERT、GPT系列等)的出现为许多复杂任务提供了强大的解决方案。然而,这些预训练的大模型虽然具有广泛的适用性,但在特定任务上往往
    的头像 发表于 07-10 10:43 3927次阅读

    【大语言模型:原理与工程实践】大语言模型的应用

    类任务上表现出色,甚至在零样本条件下也能取得良好效果。另一类则需要逐步推理才能完成的任务,类似于人类的系统2,如数字推理等。然而,随着参数量的增加,大语言模型在这类任务上并未出现质的飞跃,除非有精心
    发表于 05-07 17:21

    【大语言模型:原理与工程实践】大语言模型的评测

    语言模型的评测是确保模型性能和应用适应性的关键环节。从基座模型微调模型,再到行业
    发表于 05-07 17:12

    【大语言模型:原理与工程实践】大语言模型的预训练

    语言模型的核心特点在于其庞大的参数量,这赋予了模型强大的学习容量,使其无需依赖微调即可适应各种下游任务,而更倾向于培养通用的处理能力。然而,随着学习容量的增加,对预训练数据的需求也相
    发表于 05-07 17:10

    【大语言模型:原理与工程实践】探索《大语言模型原理与工程实践》2.0

    《大语言模型“原理与工程实践”》是关于大语言模型内在机理和应用实践的一次深入探索。作者不仅深入讨论了理论,还提供了丰富的实践案例,帮助读者理解如何将理论知识应用于解决实际问题。书中的案
    发表于 05-07 10:30

    【大语言模型:原理与工程实践】大语言模型的基础技术

    特定任务对模型进行微调。这种方法的成功不仅是自然语言处理发展的一个转折点,还为许多现实世界的应用场带来了前所未有的性能提升。从广为人知的GPT到BERT,预训练的模型参数量越来越大预训
    发表于 05-05 12:17

    【大语言模型:原理与工程实践】核心技术综述

    我也不打算把网上相关的信息在总结一下,这样的话,工作量很大。 我主要看了-大语言模型基础技术这节 大语言模型(Large Language Models,LLMs)的核心技术涵盖了从
    发表于 05-05 10:56

    【大语言模型:原理与工程实践】揭开大语言模型的面纱

    Transformer架构,利用自注意力机制对文本进行编码,通过预训练、有监督微调和强化学习等阶段,不断提升性能,展现出强大的语言理解和生成能力。 大语言模型的涌现能力,是指随着
    发表于 05-04 23:55

    【大语言模型:原理与工程实践】探索《大语言模型原理与工程实践》

    《大语言模型》是一本深入探讨人工智能领域中语言模型的著作。作者通过对语言模型的基本概念、基础技术
    发表于 04-30 15:35

    语言模型推断中的批处理效应

    随着开源预训练大型语言模型(Large Language Model, LLM )变得更加强大和开放,越来越多的开发者将大语言模型纳入到他们的项目中。其中一个关键的适应步骤是将领域特定
    的头像 发表于 01-04 12:32 628次阅读
    大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>推断中的批处理效应