微调前给预训练模型参数增加噪音提高效果的方法-电子发烧友网

写在前面

昨天看完NoisyTune论文，做好实验就来了。一篇ACL2022通过微调前给预训练模型参数增加噪音提高预训练语言模型在下游任务的效果方法-NoisyTune，论文全称《NoisyTune: A Little Noise Can Help You Finetune Pretrained Language Models Better》。

paper地址：https://aclanthology.org/2022.acl-short.76.pdf

由于仅加两行代码就可以实现，就在自己的数据上进行了实验，发现确实有所提高，为此分享给大家；不过值得注意的是，「不同数据需要加入噪音的程度是不同」，需要自行调参。

模型

自2018年BERT模型横空出世，预训练语言模型基本上已经成为了自然语言处理领域的标配，「pretrain+finetune」成为了主流方法，下游任务的效果与模型预训练息息相关；然而由于预训练机制以及数据影响，导致预训练语言模型与下游任务存在一定的Gap，导致在finetune过程中，模型可能陷入局部最优。

为了减轻上述问题，提出了NoisyTune方法，即，在finetune前加入给预训练模型的参数增加少量噪音，给原始模型增加一些扰动，从而提高预训练语言模型在下游任务的效果，如下图所示，

通过矩阵级扰动（matrix-wise perturbing）方法来增加噪声，定义预训练语言模型参数矩阵为，其中，表示模型中参数矩阵的个数，扰动如下：

其中，表示从到范围内均匀分布的噪声；表示控制噪声强度的超参数；表示标准差。

代码实现如下：

forname,parainmodel.namedparameters():
model.statedict()[name][:]+=(torch.rand(para.size())−0.5)*noise_lambda*torch.std(para)

这种增加噪声的方法，可以应用到各种预训练语言模型中，可插拔且操作简单。

如下表所示，在BERT、XLNET、RoBERTa和ELECTRA上均取得不错的效果。

并且比较的四种不同增加噪声的方法，发现在矩阵级均匀噪声最优。

在不同数据量下，NoisyTune方法相对于finetune均有所提高。

在不同噪声强度下，效果提升不同，对于GLUE数据集，在0.1-0.15间为最佳。

总结

蛮有意思的一篇论文，加入少量噪音，提高下游微调效果，并且可插拔方便易用，可以纳入到技术库中。

本人在自己的中文数据上做了一些实验，发现结果也是有一些提高的，一般在0.3%-0.9%之间，但是噪声强度在0.2时最佳，并且在噪声强度小于0.1或大于0.25后，会比原始效果差。个人实验结果，仅供参考。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

噪音

噪音

+关注

关注
1

文章
170

浏览量
23959
模型

模型

+关注

关注
1

文章
3393

浏览量
49367
自然语言处理

自然语言处理

+关注

关注
1

文章
623

浏览量
13683

原文标题：ACL2022 | NoisyTune：微调前加入少量噪音可能会有意想不到的效果

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

用PaddleNLP在4060单卡上实践大模型预训练技术

手把手教您如何在单张消费级显卡上，利用PaddleNLP实践OpenAI的GPT-2模型的预训练。GPT-2的预训练关键技术与流程与GPT-

发表于 02-19 16:10 •386次阅读

用PaddleNLP在4060单卡上实践大<b class='flag-5'>模型</b><b class='flag-5'>预</b><b class='flag-5'>训练</b>技术

【「基于大模型的RAG应用开发与优化」阅读体验】+大模型微调技术解读

，减少了计算成本。LoRA（Low-Rank Adaptation）：一种基于低秩分解的微调方法，通过分解模型参数矩阵为低秩矩阵来减少参数更

发表于 01-14 16:51

《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

的应用。MAML算法通过二阶优化找到对任务变化敏感的模型参数，实现了快速适应。上下文学习则引入了注意力机制，使模型能够根据当前场景动态调整行为策略。在预

发表于 12-24 15:03

预训练和迁移学习的区别和联系

预训练和迁移学习是深度学习和机器学习领域中的两个重要概念，它们在提高模型性能、减少训练时间和降低对数据量的需求方面发挥着关键作用。本文将从定

发表于 07-11 10:12 •1365次阅读

大语言模型的预训练

能力，逐渐成为NLP领域的研究热点。大语言模型的预训练是这一技术发展的关键步骤，它通过在海量无标签数据上进行训练，使模型学习到语言的通用知识

发表于 07-11 10:11 •611次阅读

大模型为什么要微调？大模型微调的原理

在人工智能（AI）领域，特别是自然语言处理（NLP）领域，大模型（如BERT、GPT系列等）的出现为许多复杂任务提供了强大的解决方案。然而，这些预训练的大模型虽然具有广泛的适用性，但在

发表于 07-10 10:43 •5064次阅读

人脸识别模型训练失败原因有哪些

： 1.1 数据量不足人脸识别模型需要大量的数据进行训练，以提高模型的泛化能力。如果数据量不足，模型可能无法学习到足够的特征，导致

发表于 07-04 09:17 •815次阅读

预训练模型的基本原理和应用

训练好的模型，这些模型通常在某些通用任务上表现出色，并且可以作为后续特定任务的起点，通过迁移学习或微调（Fine-tuning）等方式进行适应和优化。以下是对

发表于 07-03 18:20 •3328次阅读

【大语言模型：原理与工程实践】大语言模型的应用

。关于大语言模型是否具备与人类“系统2”相似的能力，存在广泛的争议。然而，随着模型参数量的增加和大规模预

发表于 05-07 17:21

【大语言模型：原理与工程实践】大语言模型的预训练

如此卓越的性能，就是通过其核心能力对海量数据进行预训练，再进行微调或对其什么型更好的根据人类的指令和偏好，发挥这些性能。随着语言模型参数的不

发表于 05-07 17:10

【大语言模型：原理与工程实践】大语言模型的基础技术

特定任务对模型进行微调。这种方法的成功不仅是自然语言处理发展的一个转折点，还为许多现实世界的应用场带来了前所未有的性能提升。从广为人知的GPT到BERT,预

发表于 05-05 12:17

【大语言模型：原理与工程实践】核心技术综述

其预训练和微调，直到模型的部署和性能评估。以下是对这些技术的综述：模型架构: LLMs通常采用深层的神经网络架构，最常见的是Transf

发表于 05-05 10:56

【大语言模型：原理与工程实践】揭开大语言模型的面纱

更好地拟合训练数据，并在推理和泛化时表现出色。此外，特征复用通过共享参数提高效率和性能，使得大语言模型能够更有效地利用学到的特征。最后，优化效果

发表于 05-04 23:55

基于双级优化（BLO）的消除过拟合的微调方法

这篇论文试图解决的问题是大型预训练模型在下游任务中进行微调时出现的过拟合问题。尽管低秩适应（LoRA）及其变体通过学习低秩增量矩阵有效地减少了与完全

发表于 04-02 16:46 •782次阅读

名单公布！【书籍评测活动NO.30】大规模语言模型：从理论到实践

一阶段训练的奖励模型，对有监督微调模型对用户提示词补全结果的质量进行评估，与语言模型建模目标综合得到更好的

发表于 03-11 15:16

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

微调前给预训练模型参数增加噪音提高效果的方法