0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于ICL范式的LLM的最高置信度预测方案

深度学习自然语言处理 来源:深度学习自然语言处理 2023-11-24 11:20 次阅读

作者:cola

虽然大多数现有的LLM提示工程只专注于如何在单个提示输入中选择一组更好的数据样本(In-Context Learning或ICL),但为什么我们不能设计和利用多个提示输入来进一步提高LLM性能?本文提出上下文采样(ICS),一种低资源LLM提示工程技术,通过优化多个ICL提示输入的结构来产生最有置信度的预测结果。

介绍

指令微调的LLMs,如Flan-T5、LLaMA和Mistral展示了通用的自然语言理解(NLI)和生成(NLG)能力。然而,解决实际任务需要广泛的领域专业知识,这对LLM来说仍然具有挑战性。研究人员提出了各种激励策略来探索LLM的能力。一个突出的方法是少样本上下文学习(ICL),通过向提示输入插入一些数据示例,特别是对未见任务的能力提高了LLM的任务解释和解决能力。最近的几项工作研究了不同ICL设置的影响,包括数量、顺序和组合。然而,最好的ICL策略还没有共识。

本文假设不同的ICL为LLM提供了关于任务的不同知识,导致对相同数据的不同理解和预测。因此,一个直接的研究问题出现了:llm能否用多个ICL提示输入来增强,以提供最可信的预测?为解决这个问题,本文提出上下文采样(ICS)。ICS遵循三步流程:采样、增强和验证,如图1所示。

dd386940-8877-11ee-939d-92fbcf53809c.png

ICS策略

给定一个自然语言任务指令和一个数据,指令微调的SOTA可以接受输入,生成一个输出,其中表示上下文中的注释示例,是预测结果。

示例可以为LLM提供:

直接理解任务指令(I)和预期输出

间接指导如何解决任务。

本文假设不同的ICL示例集为LLM提供了关于该任务的不同知识。因此,LLM可以根据不同的ICL提示输入改变对相同数据的预测,但预测的变化最终将收敛到一个最可信的预测。

ICS的框架如图1所示。

从未标记的数据池中采样示例候选集并获取注释,

用不同的ICL组合增加标签

验证置信度最高的标签作为增强标签的最终预测。

ICS方法是模型无关的且“即插即用”,可以以最小的工作量切换到不同的采样、增强和验证算法

示例候选集采样

从许多未标记的数据中采样少量数据作为ICL示例,通常分为两种类型:基于数据多样性和基于模型概率。我们的策略坚持基于集群的策略(即核心集),旨在识别代表所有未标记数据的示例,同时最大化这些选定实例的多样性。该策略用句子转换器编码计算每个数据的余弦相似度,其中embed表示句Transformer Embedding。然后,根据相似度得分对候选样本进行排序,并检索个相同间隔的样本集,以保证样本集的多样性。本文试图确定样本量和增强的ICL组合数量,在下面三个角度上取得平衡:

包含足够的多样性充分表示基础数据,

置信预测具有鲁棒性,

最小化注释成本。

ICL组合增强

如图1所示,ICS通过为要预测的相同数据构建不同的ICL组合来增强标签,然后获得所有标签中置信度最高的标签。然而,如果要求LLM预测候选的每个组合,计算量可能会很大。我们认为,ICS不需要每个ICL组合来找到模型的最可信的标签。类似于人类投票,少数代表代表更多的人口投票,我们计划调查合理数量的“代表”,即及时的输入。用一个随机和基于数据多样性的算法作为基准,用于示例增强,并研究了策略差异的影响。两种方法都是从候选列表中迭代采样次,其中基于多样性的增强策略使用上述策略。然后对相同的测试数据查询LLM次,得到个弱标签,记为。

置信标签验证

既然我们从上述ICS步骤中获得了一组标签,就可以应用一些验证算法来找到置信度最高的标签,获得了最可信的预测。可以想象ICL有潜力提供模型可信的无监督标签,以在资源匮乏的场景中迭代地微调LLM,这些场景中专家注释难以访问且昂贵。

实验

实验设置

采用了两个SOTA LLMs FLAN-T5-XL和Mistral,并在三个难度越来越大的NLI任务上进行实验:eSNLI、Multi-NLI和ANLI。排除了LLaMA-2的原因是初步实验显示了LLaMA-2在“中性”类别上有过拟合问题。我们使用vanilla ICL作为基线。利用随机抽样来构建基础ICS策略的ICS提示输入,并使用多数代表方法来找到最可信的标签。对每个提示输入使用3个示例。操作ICS的两个控制变量:采样的代表性数据的大小,其中,以及每个待预测数据的增强示例组合的数量,其中,其中是ICL基线。对于真实场景,500个注释是一个合理的预算。在10次试验中取平均值。

对LLaMA-2进行分析

利用三种不同的自然语言指令,在ANLI上对LLaMA-2进行初始推理实验:

确定一个假设是否是蕴涵的,中性的,矛盾的前提。

将一对前提和假设句分为三类:蕴涵句、中性句、矛盾句。

通过蕴涵、中性、矛盾来预测前提和假设之间的关系。

dd660724-8877-11ee-939d-92fbcf53809c.png

结果如表2所示,我们可以很容易地观察到,尽管改变了指令,LLaMA-2倾向于过度预测其他两个类别的"中性",而真实分布是跨类别的。因此,我们在工作中省略了LLaMA-2。可能有不同的原因导致了这个问题;例如,LLaMA-2对NLI任务或共享同一组目标类别("蕴含"、"中性"和"矛盾")的类似任务进行了过拟合。

实验结果

在图2中,我们展示了时,基线ICL和我们的ICS策略对每个模型和数据集的预测精度。基线和我们的策略之间的标准差变化也用右纵轴的虚线表示。以随机采样策略为基准的ICS策略,可以不断提高LLM在每个组合中的预测性能,证明了所提出的ICS管道的有效性。

dd7dbbb2-8877-11ee-939d-92fbcf53809c.png

此外,我们观察到LLM对ICS有明显的敏感性。具体来说,对于Flan-T5来说,ICS策略提供的精度提升远小于Mistral,这可以归因于Flan-T5可能会过拟合我们实验的三个数据集或NLI任务。另一方面,Mistral证明了ICS策略对准确性的显著提升,在所有数据集上的平均提升超过5%。当时,两个模型的标准偏差减少得最多,当超过10时,增加的提供的性能改善开始逐渐减少。对于示例候选采样,一旦超过100,精度的提高就不显著。样本量超过100可以被认为具有足够的多样性和代表性。

表3和表4报告了对FlanT5XL和Mistral-7b的完整评估结果。

ddaa6ab8-8877-11ee-939d-92fbcf53809c.png

ddd7cd5a-8877-11ee-939d-92fbcf53809c.png

消融实验

使用Mistral-7B和性能最佳的设置:和。从3个NLI数据集中随机采样3000和1000数据作为训练集和测试集。我们共进行了4种情况下的10次试验,记为组合策略,其中RD为随机策略,DS为基于数据相似性的策略。实验结果如表1所示:

de08c392-8877-11ee-939d-92fbcf53809c.png

基于多样性的示例候选采样和组合增强策略可以有效提高ICL的性能。

总结

本文提出上下文采样(ICS),一种新的基于ICL的范式,用于探测LLM的最高置信度预测。实验结果表明,与传统的ICL方法相比,ICS方法提高了ICL的准确性,降低了标准偏差。还研究了不同样本数量和ICL组合量的影响,然后进一步进行消融实验,以说明基于ICS简单但有效的数据多样性采样策略的有用性。

限制

本文的主要重点是提出并证明ICS的有效性。然而,尽管对不同的和组合进行了广泛的实验,但仍有几个潜在变量需要进一步分析。例如,尽管我们考虑了3个不同难度的数据集,并且每个ICL组合是任意的,但3个数据集都是NLI任务。此外,只进行了一项基于数据多样性的候选采样和组合增强策略的小规模消融研究。并且我们的实验原本打算由三个SOTA LLM组成,但由于LLaMA-2倾向于预测“中性”类别,因此不包括它。我们仍有各种其他的指令微调LLM没有包括在这项工作中,如InstructGPT。

审核编辑:黄飞

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 转换器
    +关注

    关注

    27

    文章

    8695

    浏览量

    147093
  • Sample
    +关注

    关注

    0

    文章

    11

    浏览量

    8701
  • 自然语言
    +关注

    关注

    1

    文章

    288

    浏览量

    13347
  • prompt
    +关注

    关注

    0

    文章

    14

    浏览量

    2677
  • LLM
    LLM
    +关注

    关注

    0

    文章

    286

    浏览量

    327

原文标题:ICL的时候,更多sample好还是更多prompt好呢?

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    什么是LLMLLM在自然语言处理中的应用

    随着人工智能技术的飞速发展,自然语言处理(NLP)领域迎来了革命性的进步。其中,大型语言模型(LLM)的出现,标志着我们对语言理解能力的一次飞跃。LLM通过深度学习和海量数据训练,使得机器能够以前
    的头像 发表于 11-19 15:32 528次阅读

    如何训练自己的LLM模型

    训练自己的大型语言模型(LLM)是一个复杂且资源密集的过程,涉及到大量的数据、计算资源和专业知识。以下是训练LLM模型的一般步骤,以及一些关键考虑因素: 定义目标和需求 : 确定你的LLM将用
    的头像 发表于 11-08 09:30 507次阅读

    LLM技术对人工智能发展的影响

    随着人工智能技术的飞速发展,大型语言模型(LLM)技术已经成为推动AI领域进步的关键力量。LLM技术通过深度学习和自然语言处理技术,使得机器能够理解和生成自然语言,极大地扩展了人工智能的应用范围
    的头像 发表于 11-08 09:28 348次阅读

    LLM和传统机器学习的区别

    在人工智能领域,LLM(Large Language Models,大型语言模型)和传统机器学习是两种不同的技术路径,它们在处理数据、模型结构、应用场景等方面有着显著的差异。 1. 模型结构
    的头像 发表于 11-08 09:25 409次阅读

    大模型LLM与ChatGPT的技术原理

    在人工智能领域,大模型(Large Language Model, LLM)和ChatGPT等自然语言处理技术(Natural Language Processing, NLP)正逐步改变着人类
    的头像 发表于 07-10 10:38 816次阅读

    llm模型有哪些格式

    LLM(Large Language Model,大型语言模型)是一种深度学习模型,主要用于处理自然语言处理(NLP)任务。LLM模型的格式多种多样,以下是一些常见的LLM模型格式
    的头像 发表于 07-09 09:59 597次阅读

    LLM模型和LMM模型的区别

    LLM(线性混合模型)和LMM(线性混合效应模型)之间的区别如下: 定义: LLM(线性混合模型)是一种统计模型,用于分析具有固定效应和随机效应的线性数据。它允许研究者考虑数据中的非独立性,例如
    的头像 发表于 07-09 09:57 934次阅读

    llm模型和chatGPT的区别

    LLM(Large Language Model)是指大型语言模型,它们是一类使用深度学习技术构建的自然语言处理(NLP)模型。LLM模型可以处理各种语言任务,如文本生成、文本分类、机器翻译等。目前
    的头像 发表于 07-09 09:55 1038次阅读

    LLM模型的应用领域

    在本文中,我们将深入探讨LLM(Large Language Model,大型语言模型)的应用领域。LLM是一种基于深度学习的人工智能技术,它能够理解和生成自然语言文本。近年来,随着计算能力的提高
    的头像 发表于 07-09 09:52 576次阅读

    什么是LLMLLM的工作原理和结构

    随着人工智能技术的飞速发展,大型语言模型(Large Language Model,简称LLM)逐渐成为自然语言处理(NLP)领域的研究热点。LLM以其强大的文本生成、理解和推理能力,在文本
    的头像 发表于 07-02 11:45 7621次阅读

    ICL5101与ICL5102性能对比

    ICL5101与ICL5102性能对比-中文
    发表于 06-17 14:26 1次下载

    ICL5102和ICL5101有什么区别?

    ICL5102和ICL5101有什么区别?我从哪里可以获得准确的信息?
    发表于 05-29 07:47

    纵观全局:YOLO助力实时物体检测原理及代码

    YOLO 流程的最后一步是将边界框预测与类别概率相结合,以提供完整的检测输出。每个边界框的置信度分数由类别概率调整,确保检测既反映边界框的准确性,又反映模型对对象类别的置信度
    的头像 发表于 03-30 14:43 2398次阅读

    100%在树莓派上执行的LLM项目

    ChatGPT的人性口语化回复相信许多人已体验过,也因此掀起一波大型语言模型(Large Language Model, LLM)热潮,LLM即ChatGPT背后的主运作技术,但LLM运作需要庞大运算力,因此目前多是在云端(Cl
    的头像 发表于 02-29 16:29 1336次阅读
    100%在树莓派上执行的<b class='flag-5'>LLM</b>项目

    LLM推理加速新范式!推测解码(Speculative Decoding)最新综述

    这个问题随着LLM规模的增大愈发严重。并且,如下左图所示,目前LLM常用的自回归解码(autoregressive decoding)在每个解码步只能生成一个token。这导致GPU计算资源利用率
    的头像 发表于 01-29 15:54 2803次阅读
    <b class='flag-5'>LLM</b>推理加速新<b class='flag-5'>范式</b>!推测解码(Speculative Decoding)最新综述