0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何对挑选出的demonstration示例进行排序

深度学习自然语言处理 来源:深度学习自然语言处理 2023-05-23 14:51 次阅读

1 简介‍‍‍‍‍‍‍‍‍

在demonstration selection的方法中,其中有部分方法也考虑到demonstration内部示例之间的顺序,虽然有的论文里提及他们的ICL方法对于demonstration内部示例顺序不敏感,但这些实验中考虑到的排列顺序还是不够全面,从而导致某些结论比较片面。毋庸置疑,如何对挑选出的demonstration示例进行排序是demonstration organization的重要部分。对于同样样本组成的demonstration,好的样本顺序可以让LLM有接近于SOTA的性能,而糟糕的样本顺序会让LLM的表现接近于随机猜测。就跟打牌一样,再好的手牌,不合理安排规划出牌顺序,很容易就会一败涂地。

2 Demonstration ordering

为了更好的研究demonstration样本排列的影响,需要考虑在不同模型规模,样本数量以及不同模型上的表现。研究发现,随着模型规模的增加,demonstration不同样本排列的效果的方差有所缩小,但是依旧差距明显,即demonstration好的排列跟坏的排列之间的效果距离很大(见Subj数据集)。增加样本数量,依旧不能显著降低这其中的方差。另外,在A模型上表现良好的demonstration排列,在其他的模型效果往往不能得到保证,也就是好的demonstration排列并不能迁移到更多模型中去。

bbc32e6c-f885-11ed-90ce-dac502259ad0.png

图1:不同模型尺寸下demonstration ordering的影响

bbc859d2-f885-11ed-90ce-dac502259ad0.png

图2: demonstration ordering在不同模型见的迁移能力

关于demonstration的排列,最简单的方式就是按照跟当前问题x的关系来排序。由于in-context learning中模型的输入都是demonstration+x(当前问题),在demonstration中越靠后的示例距离当前的问题x的距离就越近,于是可以通过示例跟当前问题x的相似程度来对示例进行排序,跟当前问题x越相似的示例就放在demonstration越靠后的位置。

目前确实存在若干种demonstration ordering的方法,但是最大的问题是在缺乏监督验证集的情况下自动选择更优的demonstration排列。于是就有研究提出自动构建探测集(probing set),具体流程如下 a)给定一个训练集S={xi, yi},i=1…n,利用一个模版转换函数(将样本数据转换成某种自然语言)获得一个自然语言数据集S’={ti}, ti=input:xi,type:yi。 b)定义n个训练样本的所有排列函数(也就是demonstration的所有排列),F={fm},cm=fm(S’),m=1,…,n!。每个cm都是n个t组成的一种排列。 c)对于每一个候选排列cm,利用语言模型生成后续的序列,生成新的样本,对生成结果解析后得到模型生成测试集D。

bbcf413e-f885-11ed-90ce-dac502259ad0.png

图3: probing set构造流程

有了模型生成数据集后,研究者就提出了两种用于选择最佳demonstration排列的方法Global entropy(GlobalE)以及Local entropy(LocalE)。对于每个demonstration排列cm,在给定demonstration排列cm跟当前问题x的条件下,会预测所有标签y的概率,将概率最大的标签作为当前问题x的预测结果,从而计算整个探测集中所有预测标签分布的交叉熵作为排列cm的GlobalE得分。而LocalE得分则是计算每个探测集数据的预测交叉熵的平均值。简单的理解就是,如果在探测集上预测的标签分布相对平衡,那么对应的得分就比较高,作者就认为是比较好的demonstration排列。

通过这两种方式选择的demonstration排列,效果上得到明显提升,并且这种方法还是比较鲁棒的,加入更多不好的demonstration排列只会让效果越来越差。

bbd709d2-f885-11ed-90ce-dac502259ad0.png

图4: 不同demonstration策略的效果对比

bbddef22-f885-11ed-90ce-dac502259ad0.png

图5:基于demonstration ordering选择的demonstration排列的的平均效果

3 总结‍‍‍‍‍‍‍‍

Demonstration ordering目前看来还是一个值得进一步研究的问题,即便模型规模达到一定程度,依旧对此敏感。考虑到demonstration排列的数量跟训练样本库之间是一个指数关系,而目前看到绝大多数Demonstration ordering都是针对每个排列进行的,即便可以自动构建探测集,计算成本还是比较高的,很难考虑所有demonstration排列,目前除了根据与当前问题的相似度进行排序以及上一篇文章提到的马尔可夫决策过程可以处理,其他的方法都只停留在理论层面,很难在实际中大范围使用。

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3226

    浏览量

    48807
  • icl
    icl
    +关注

    关注

    0

    文章

    28

    浏览量

    17231
  • 数据集
    +关注

    关注

    4

    文章

    1208

    浏览量

    24689

原文标题:In-context系列之demonstration ordering

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    求大神帮忙,感激不尽

    如何把TXT格式的数据录入LabVIEW中,并将某一列挑选出来用于循环计算,感激不尽
    发表于 05-09 12:47

    复合材料敲击检测仪数据分析与处理系统

    敲击探头敲击材料,信号通过信号采集卡输入经过触发与门限,记录各点的时间并挑选出有损伤的点(损伤处波形宽度会变化),求教各位大神怎么挑选和记录[img=110,0][/img]
    发表于 05-21 15:36

    数据的比较和处理怎么完成

    敲击探头敲击材料,信号通过信号采集卡输入经过触发与门限,记录各点的时间并挑选出有损伤的点(损伤处波形宽度会变化),求教各位大神怎么挑选和记录
    发表于 05-21 15:50

    3C认证检测中EMC问题实例分析(129页PPT精品)

    3C认证检测中EMC问题实例分析(129页PPT)PPT中案例均为挑选出来的典型类。。回复后下载。[hide][/hide]
    发表于 08-24 11:46

    怎样在采集到的音频信号生成的波形图中挑选出幅值最大的五条??

    本帖最后由 zj121212 于 2015-12-15 16:57 编辑 如标题,怎样在采集到的音频信号生成的波形图中挑选出幅值最大的五条并要求写入文本,文本中包括这五条的幅值和对应频率??谢谢啦
    发表于 12-13 15:01

    复习c/c++之排序算法

    最小的排在前面3. 依次挑选出剩下的数据中最小,进行排序 在VS 2013中编写调试的程序程序代码如下:#include #include #include #include using
    发表于 10-12 09:06

    CAD如何绘制房间排序

    `我们在使用CAD制图软件绘制图形的时候,对于浩辰CAD建筑软件来说可以直接对房间进行排序,今天的CAD教程,小编就来给CAD制图初学入门者介绍一下关于浩辰建筑CAD如何绘制房间排序?建筑设计→房间
    发表于 02-26 17:48

    如何挑选出好的场效应晶体管?

    如何挑选出好的场效应晶体管?晶体三极管选用技巧有哪些?
    发表于 06-18 06:50

    STM32F429的时钟走向

    上图从左往右看,就是整个 STM32F429的时钟走向。这里,我们挑选出 13个重要的地方进行介绍(图 5.2.2.1 中标出的1~13)。1, 这是进入 PLL之前的时钟分频系数(M),取值范围
    发表于 08-09 06:25

    开关电源工作频率是依据什么挑选

    症”。我来给你诊断一下病因,一是因为自己不够清楚自己的实在需求,二是一些性能参数不够了解,没有比较专业的指引。电源工程师在挑选主控IC时,因为厂家很多,参数挑选也多种多样,然后很难挑选出合适自己运用的电源IC。
    发表于 10-28 06:50

    如何挑选出最佳的LDO

    本文所述的概念将使设计人员能够根据系统要求挑选最佳的LDO。
    发表于 10-29 06:26

    谷歌Play Music大更新!用深度学习挑选出最应景的BGM

    下雨天和什么歌最配?去健身房听什么歌能让你在跑步机上坚持半小时以上?对于酷爱音乐的选择困难症来说,在不同的环境里挑选什么样的播放列表实在是件太烧脑的事儿。而现在,谷歌要用人工智能来帮你做出选择。
    发表于 11-16 11:18 756次阅读

    精选10个Python开源项目

    过去一个月里,我们对近 250 个 Python 开源项目进行了排名,并挑选出热度前 10 的项目。
    的头像 发表于 11-12 09:47 6321次阅读

    如何从13个Kaggle比赛中挑选出的最好的Kaggle kernel

    。机器学习和图像分类也不例外,工程师们可以通过参加像Kaggle这样的竞赛来展示最佳实践。在这篇文章中,我将给你很多资源来学习,聚焦于从13个Kaggle比赛中挑选出的最好的Kaggle kernel。 这些比赛是: Intel Image Classification:https://w
    的头像 发表于 06-27 09:26 2000次阅读

    挑选开关电源的工作频率是依据什么?

    症”。我来给你诊断一下病因,一是因为自己不够清楚自己的实在需求,二是一些性能参数不够了解,没有比较专业的指引。电源工程师在挑选主控IC时,因为厂家很多,参数挑选也多种多样,然后很难挑选出合适自己运用的电源IC。
    发表于 10-21 14:51 8次下载
    <b class='flag-5'>挑选</b>开关电源的工作频率是依据什么?