0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

新方法:用知识蒸馏给数据集瘦身

OpenCV学堂 来源:量子位 作者:量子位 2022-07-10 09:52 次阅读

	

这两天,推特上一个任务悬赏火得一塌糊涂。

一家AI公司提供25万美金(折合人民币约167万元),悬赏什么任务能让模型越大、性能反而越差。

b24de934-fecc-11ec-ba43-dac502259ad0.png

评论区里已经讨论得热火朝天了。

b267ad60-fecc-11ec-ba43-dac502259ad0.png

不过这事儿倒也不是单纯整活,而是为了进一步探索大模型。

毕竟,这两年大家越发意识到,AI模型不能单纯比“大”。

一方面,随着模型的规模越来越大,训练付出的成本开始呈现指数型增长;

b2793e72-fecc-11ec-ba43-dac502259ad0.jpg

另一方面,模型性能的提升也已经逐渐到达瓶颈期,哪怕想要让误差再下降1%,都需要更多的数据集增量和计算增量。

比如对于Transformer而言,交叉熵损失想要从3.4奈特降低到2.8奈特,就需要原本10倍量的训练数据。

针对这些问题,AI学者们已经在从各种方向上找解决路子了。

Meta斯坦福的学者们,最近想到了从数据集上切入。

他们提出,对数据集进行知识蒸馏,使得数据集规模虽小,但还能保持模型性能不下降。

实验验证,在剪掉ImageNet 20%的数据量后,ResNets表现和使用原本数据时的正确率相差不大。

研究人员表示,这也为AGI实现找出了一条新路子。

b2845424-fecc-11ec-ba43-dac502259ad0.png

超大数据集的效率并不高

本文提出的办法,其实就是对原本的数据集进行优化精简。

研究人员表示,过去许多方法都表明,许多训练示例是高度冗余的,理论上可以把数据集“剪”得更小。

而且最近也有研究提出了一些指标,可以根据训练示例的难度或重要性对它们进行排序,并通过保留其中一些难度高的示例,就能完成数据修剪。

基于前人的发现和研究,此次学者们进一步提出了一些可具体操作的方法。

首先,他们提出了一种数据分析方法,可以让模型只学习部分数据,就能实现同等的性能。

b2956eb2-fecc-11ec-ba43-dac502259ad0.png

通过数据分析,研究人员初步得出结论:

一个数据集怎样修剪效果最好?这和它本身的规模有关。

初始数据量越多,越应该保留难度高的示例;

初始数据量越少,则应该保留难度低的示例。

b29f7cfe-fecc-11ec-ba43-dac502259ad0.png

而在保留困难示例进行数据修剪后,模型和数据规模的对应关系,可以打破幂律分布。

常被提起的二八定律就是基于幂律提出的。

即20%的数据会影响80%的结果。

同时在此情况下,还能找到一个处于帕累托最优的下的极值。

这里所说的帕累托最优是指资源分配的一种理想状态。

它假设固定有一群人和可分配的资源,从一种分配状态调整到另一种分配状态,在没有使任何一个人变差的前提下,至少使得一个人变得更好。

在本文中,调整分配状态即可理解为,修剪多少比例的数据集。

然后,研究人员进行了实验来验证这一理论。

b2c326f4-fecc-11ec-ba43-dac502259ad0.png

从实验结果来看,当数据集越大,修剪后的效果就越明显。

在SVHN、CIFAR-10、ImageNet几个数据集上,ResNet的错误率总体和数据集修剪规模呈反比。

在ImageNet上可以看到,数据集规模保留80%的情况下,和原本数据集训练下的错误率基本相同。

这一曲线也逼近了帕累托最优。

接下来,研究人员聚焦在ImageNet上,对10种不同情况进行了大规模基准测试。

结果表明,随机修剪以及一些修剪指标,在ImageNet上的表现并不够好。

b2d27fbe-fecc-11ec-ba43-dac502259ad0.png

所以更进一步,研究人员还提出了一种自监督方法来修剪数据。

也就是知识蒸馏(教师学生模型),这是模型压缩的一种常见方法。

b2e464fe-fecc-11ec-ba43-dac502259ad0.png

结果显示,在自监督方法下,它在找数据集中简单/困难示例上的表现都还不错。

b2f3c05c-fecc-11ec-ba43-dac502259ad0.png

使用自监督方法修剪数据后,正确率明显提高(图C中浅蓝色线)。

b308ec34-fecc-11ec-ba43-dac502259ad0.png

还存在一些问题

不过在论文中,研究人员也提到,虽然通过如上方法可以在不牺牲性能的情况下修剪数据集,但是有些问题仍旧值得关注。

比如数据集缩小后,想要训练出同等性能的模型,需要的时间可能会更长。

因此,在进行数据集修剪时,应该平衡缩减规模和训练增长时间两方面因素。

与此同时,对数据集进行修剪,势必会丧失一些群体的样本,由此也可能造成模型在某一个方面出现弊端。

在这方面会容易引起道德伦理方面的问题。

研究团队

本文作者之一Surya Ganguli,是量子神经网络科学家。

论文地址: https://arxiv.org/abs/2206.14486

审核编辑 :李倩
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4769

    浏览量

    100687
  • AI
    AI
    +关注

    关注

    87

    文章

    30654

    浏览量

    268826
  • 数据集
    +关注

    关注

    4

    文章

    1208

    浏览量

    24683

原文标题:剪掉ImageNet 20%数据量,模型性能不下降!Meta斯坦福等提出新方法,用知识蒸馏给数据集瘦身

文章出处:【微信号:CVSCHOOL,微信公众号:OpenCV学堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于遗传算法的QD-SOA设计新方法

    了QD-SOA的设计,提出了一种基于遗传算法的QD-SOA设计新方法。由于具有用于设计的模型是必不可少的,因此在第一步中获得数值模型。然后,利用从数值模型中采样的训练数据建立人工神经网络模型。实验表明,该神经模型具有较高的精度和较
    的头像 发表于 12-17 09:58 66次阅读
    基于遗传算法的QD-SOA设计<b class='flag-5'>新方法</b>

    一种降低VIO/VSLAM系统漂移的新方法

    本文提出了一种新方法,通过使用点到平面匹配将VIO/VSLAM系统生成的稀疏3D点云与数字孪生体进行对齐,从而实现精确且全球一致的定位,无需视觉数据关联。所提方法为VIO/VSLAM系统提供了紧密
    的头像 发表于 12-13 11:18 99次阅读
    一种降低VIO/VSLAM系统漂移的<b class='flag-5'>新方法</b>

    大华股份荣获2024年中国创新方法大赛一等奖

    近日,由中国科协、重庆市人民政府举办的2024年中国创新方法大赛全国总决赛在重庆落下帷幕。大华股份灵活运用创新方法、突破行业性技术难题,凭借“不惧强光,分毫必现,基于TRIZ的强逆光锐捕技术”项目,斩获全国一等奖。
    的头像 发表于 12-04 17:19 324次阅读

    利用全息技术在硅晶圆内部制造纳米结构的新方法

    本文介绍了一种利用全息技术在硅晶圆内部制造纳米结构的新方法。 研究人员提出了一种在硅晶圆内部制造纳米结构的新方法。传统上,晶圆上的微结构加工,仅限于通过光刻技术在晶圆表面加工纳米结构。 然而,除了晶
    的头像 发表于 11-18 11:45 278次阅读

    保护4-20 mA,±20-mA模拟输入的新方法

    电子发烧友网站提供《保护4-20 mA,±20-mA模拟输入的新方法.pdf》资料免费下载
    发表于 09-24 09:27 0次下载
    保护4-20 mA,±20-mA模拟输入的<b class='flag-5'>新方法</b>

    实践JLink 7.62手动增加新MCU型号支持新方法

    大家好,我是痞子衡,是正经搞技术的痞子。今天痞子衡大家分享的是实践JLink 7.62手动增加新MCU型号支持新方法
    的头像 发表于 08-08 15:25 679次阅读
    实践JLink 7.62手动增加新MCU型号支持<b class='flag-5'>新方法</b>

    一种无透镜成像的新方法

    使用OAM-HHG EUV光束对高度周期性结构进行成像的EUV聚光显微镜 为了研究微电子或光子元件中的纳米级图案,一种基于无透镜成像的新方法可以实现近乎完美的高分辨率显微镜。 层析成像是一种强大的无
    的头像 发表于 07-19 06:20 363次阅读
    一种无透镜成像的<b class='flag-5'>新方法</b>

    逆变器电池蒸馏水理由,金属触点完全浸没

    如果不使用正确的水,逆变器电池将损坏且无法使用。因此,保持其加满正确的水非常重要。在本文中,我们将介绍逆变器电池中使用的水、为什么它很重要以及“电池浇水”的频率。逆变器电池使用蒸馏水您应始终在
    的头像 发表于 06-07 11:52 299次阅读
    逆变器电池<b class='flag-5'>用</b><b class='flag-5'>蒸馏</b>水理由,金属触点完全浸没

    使隐形可见:新方法可在室温下探测中红外光

    MIR振动辅助发光(MIRVAL) 来自伯明翰大学和剑桥大学的科学家们开发了一种新方法,利用量子系统在室温下探测中红外线(MIR)光。 这项研究成果发表在《自然·光子学》杂志上,在剑桥大学卡文迪什
    的头像 发表于 04-19 06:31 304次阅读
    使隐形可见:<b class='flag-5'>新方法</b>可在室温下探测中红外光

    轧机牌坊滑板压亏修复的新方法

    电子发烧友网站提供《轧机牌坊滑板压亏修复的新方法.docx》资料免费下载
    发表于 03-14 16:16 0次下载

    Pyserial库来进行与stm32的串口通信,write方法32发数据时会出现数据的错误和缺失怎么解决?

    我使用的是Pyserial库来进行与stm32的串口通信,python可以很好地接收32发来的数据,但是我write方法32发数据时会出
    发表于 03-12 07:32

    氢压机轴承位磨损维修的新方法

    电子发烧友网站提供《氢压机轴承位磨损维修的新方法.docx》资料免费下载
    发表于 03-01 16:23 0次下载

    存储空间满了?学会这一招,设备瘦瘦身

    上传 那么有什么更简单的方法吗? 学会这一招 轻松设备瘦瘦身 01 映射网络驱动器 1、点击我的电脑—计算机—映射网络驱动器,注意NAS需开启SMB服务;   2、输入NAS的IP地址及文件夹名称,示例:\IP文件夹名字;  
    的头像 发表于 01-05 11:26 429次阅读
    存储空间满了?学会这一招,<b class='flag-5'>给</b>设备瘦<b class='flag-5'>瘦身</b>

    工程结构振弦采集仪的新技术与新方法研究

    工程结构振弦采集仪的新技术与新方法研究 工程结构振弦采集仪的新技术与新方法研究旨在提高采集仪在工程结构振动监测中的性能和可靠性。以下是一些可能的研究方向: 1.传感器技术改进:研究新型传感器技术,如
    的头像 发表于 12-20 13:36 328次阅读
    工程结构振弦采集仪的新技术与<b class='flag-5'>新方法</b>研究

    imec提出以亚微米像素尺寸分离颜色的新方法赋能CMOS图像传感器

    据麦姆斯咨询报道,近期,在美国加利福尼亚州旧金山举行的国际电子器件会议(IEEE IEDM 2023)上,比利时纳米电子学和数字技术研究与创新中心imec展示了一种“在300mm晶圆上使用标准后端制造工艺来实现以亚微米像素尺寸分离颜色”新方法
    的头像 发表于 12-19 16:13 692次阅读
    imec提出以亚微米像素尺寸分离颜色的<b class='flag-5'>新方法</b>赋能CMOS图像传感器