0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NeurIPS 2023 | 如何从理论上研究生成式数据增强的效果?

智能感知与物联网技术研究所 来源:未知 2023-11-05 20:15 次阅读

wKgaomVHiHWAIPX3AAELXgVPVYM448.png

论文链接:https://arxiv.org/abs/2305.17476

代码链接:

https://github.com/ML-GSAI/Understanding-GDA

wKgaomVHiHWAF1oQAAAl6LOgh3c275.png

概述

生成式数据扩增通过条件生成模型生成新样本来扩展数据集,从而提高各种学习任务的分类性能。然而,很少有人从理论上研究生成数据增强的效果。为了填补这一空白,我们在这种非独立同分布环境下构建了基于稳定性的通用泛化误差界。基于通用的泛化界,我们进一步了探究了高斯混合模型和生成对抗网络的学习情况。

在这两种情况下,我们证明了,虽然生成式数据增强并不能享受更快的学习率,但当训练集较小时,它可以在一个常数的水平上提高学习保证,这在发生过拟合时是非常重要的。最后,高斯混合模型的仿真结果和生成式对抗网络的实验结果都支持我们的理论结论。

wKgaomVHiHaAWhR6AAAuhh9-KLM150.png

主要的理论结果

2.1 符号与定义

作为数据输入空间, 作为标签空间。定义 上的真实分布。给定集合 ,我们定义 为去掉第 个数据后剩下的集合, 为把第 个数据换成 后的集合。我们用 表示 total variation distance。

我们让 为所有从 的所有可测函数, 为学习算法从数据集 中学到的映射。对于一个学到的映射 和损失函真实误差 被定义相应的经验的误差 被定义

我们文章理论推导采用的是稳定性框架,我们称算法 相对于损失函数 是一致 稳定的,如果

wKgaomVHiHaAFnd0AAAz9Dvxuko037.png

2.2 生成式数据增强

给定带有 个 i.i.d. 样本的 数据集,我们能训练一个条件生成模型 ,并将学到的分布定义为 。基于训练得到的条件生成模型,我们能生成一个新的具有 个 i.i.d. 样本的数据集 。我们记增广后的数据集 大小为 。我们可以在增广后的数据集上学到映射 。为了理解生成式数据增强,我们关心泛化误差 。据我们所知,这是第一个理解生成式数据增强泛化误差的工作。

2.3 一般情况

我们可以对于任意的生成器和一致 稳定的分类器,推得如下的泛化误差:wKgaomVHiHaAHCBWAAKzlDp-QcM311.png▲ general一般来说,我们比较关心泛化误差界关于样本数 的收敛率。将 看成超参数,并将后面两项记为 generalization error w.r.t. mixed distribution,我们可以定义如下的“最有效的增强数量”:

wKgaomVHiHaAWSEFAAA431R2LDc421.png

在这个设置下,并和没有数据增强的情况进行对比(),我们可以得到如下的充分条件,它刻画了生成式数据增强何时(不)能够促进下游分类任务,这和生成模型学习分的能力息息相关:

wKgaomVHiHaADuBdAAGRk94Vijc927.png

▲ corollary

2.4 高斯混合模型为了验证我们理论的正确性,我们先考虑了一个简单的高斯混合模型的 setting。 混合高斯分布。我们考虑二分类任务 。我们假设真实分布满足 and 。我们假设 的分布是已知的。 线性分类器。我们考虑一个被 参数化的分类器,预测函数为 。给定训练集, 通过最小化负对数似然损失函数得到,即最小化

wKgaomVHiHaAQ8KHAAAsqSi2TVI092.png

学习算法将会推得 ,which satisfies 条件生成模型。我们考虑参数为 的条件生成模型,其中 以及 。给定训练集,让 为第 类的样本量,条件生成模型学到

wKgaomVHiHaATVbZAAA1KPe_-gQ666.png

它们是 的无偏估计。我们可以从这个条件模型中进行采样,即 ,其中 我们在高斯混合模型的场景下具体计算 Theorem 3.1 中的各个项,可以推得

wKgaomVHiHeANFfaAAKrroYCtMc232.png

▲ GMM
  1. 当数据量 足够时,即使我们采用“最有效的增强数量”,生成式数据增强也难以提高下游任务的分类性能。
  2. 当数据量 较小的,此时主导泛化误差的是维度等其他项,此时进行生成式数据增强可以常数级降低泛化误差,这意味着在过拟合的场景下,生成式数据增强是很有必要的。

2.5 生成对抗网络

我们也考虑了深度学习的情况。我们假设生成模型为 MLP 生成对抗网络,分类器为 层 MLP 或者 CNN。损失函数为二元交叉熵,优化算法为 SGD。我们假设损失函数平滑,并且第 层的神经网络参数可以被 控制。我们可以推得如下的结论:

wKgaomVHiHeAWBT7AAMhGLp_Mz4284.png

▲ GAN
  1. 当数据量 足够时,生成式数据增强也难以提高下游任务的分类性能,甚至会恶化。
  2. 当数据量 较小的,此时主导泛化误差的是维度等其他项,此时进行生成式数据增强可以常数级降低泛化误差,同样地,这意味着在过拟合的场景下,生成式数据增强是很有必要的。

wKgaomVHiHeAKZIiAAAtJ0fTuoM406.png

实验

3.1 高斯混合模型模拟实验

我们在混合高斯分布上验证我们的理论,我们调整数据量 ,数据维度 以及 。实验结果如下图所示:

wKgaomVHiHeAYt00AAPmkD4BAPc854.png

simulation

  1. 观察图(a),我们可以发现当 相对于 足够大的时候,生成式数据增强的引入并不能明显改变泛化误差。
  2. 观察图(d),我们可以发现当 固定时,真实的泛化误差确实是 阶的,且随着增强数量 的增大,泛化误差呈现常数级的降低。
  3. 另外 4 张图,我们选取了两种情况,验证了我们的 bound 能在趋势上一定程度上预测泛化误差。
这些结果支持了我们理论的正确性。3.2 深度生成模型实验我们使用 ResNet 作为分类器,cDCGAN、StyleGANv2-ADA 和 EDM 作为深度生成模型,在 CIFAR-10 数据集上进行了实验。实验结果如下所示。由于训练集上训练误差都接近 0,所以测试集上的错误率是泛化误差的一个比较好的估计。我们利用是否做额外的数据增强(翻转等)来近似 是否充足。

wKgaomVHiHeAFLvEAATLiWid_qI427.png

▲ deep

  1. 在没有额外数据增强的时候, 较小,分类器陷入了严重的过拟合。此时,即使选取的 cDCGAN 很古早(bad GAN),生成式数据增强都能带来明显的提升。
  2. 在有额外数据增强的时候, 充足。此时,即使选取的 StyleGAN 很先进(SOTA GAN),生成式数据增强都难以带来明显的提升,在 50k 和 100k 增强的情况下甚至都造成了一致的损害。
  3. 我们也测试了一个 SOTA 的扩散模型 EDM,发现即使在有额外数据增强的时候,生成式数据增强也能提升分类效果。这意味着扩散模型学习分布的能力可能会优于 GAN。


原文标题:NeurIPS 2023 | 如何从理论上研究生成式数据增强的效果?

文章出处:【微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 物联网
    +关注

    关注

    2903

    文章

    44284

    浏览量

    371323

原文标题:NeurIPS 2023 | 如何从理论上研究生成式数据增强的效果?

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    ADS9234R的采样速率理论上是多少,在正常设计中是否还会降低?

    请问,传统四线SPI的情况下,在一区传输模式中,利用MCU(SPI给的60MHZ最大;MCU主频480MHZ),它的采样速率理论上是多少,在正常设计中是否还会降低?
    发表于 11-13 06:04

    生成AI工具作用

    生成AI工具是指那些能够自动生成文本、图像、音频、视频等多种类型数据的人工智能技术。在此,petacloud.ai小编为您整理生成
    的头像 发表于 10-28 11:19 181次阅读

    运放THS4551理论上输入是线性的,DC扫描,输出也是线性的,为什么我们的输出不是线性的?

    运放THS4551 理论上输入是线性的,DC扫描,输出也是线性的,为什么我们的输出不是线性的?是哪里存在问题吗?请帮忙解决,谢谢
    发表于 08-15 07:20

    请问移动端生成AI如何在Arm CPU运行呢?

    2023 年,生成人工智能 (Generative AI) 领域涌现出诸多用例。这一突破性的人工智能 (AI) 技术是 OpenAI 的 ChatGPT 和 Google 的 Gemini AI 模型的核心
    的头像 发表于 05-21 17:07 834次阅读
    请问移动端<b class='flag-5'>生成</b><b class='flag-5'>式</b>AI如何在Arm CPU<b class='flag-5'>上</b>运行呢?

    美日联手研究生成AI,将建立合作框架

    近期,美国和日本政府宣布将联手研究生成人工智能(AI),并计划建立一个合作框架以共同推进该领域的技术进步。
    的头像 发表于 04-18 15:15 585次阅读

    检索增强生成(RAG)如何助力企业为各种企业用例创建高质量的内容?

    生成 AI 时代,机器不仅要从数据中学习,还要生成类似人类一样的文本、图像、视频等。检索增强生成(RAG)则是可以实现的一种突破性方法。
    的头像 发表于 03-29 15:09 854次阅读

    NVIDIA生成AI研究实现在1秒内生成3D形状

    NVIDIA 研究人员使 LATTE3D (一款最新文本转 3D 生成 AI 模型)实现双倍加速。
    的头像 发表于 03-27 10:28 467次阅读
    NVIDIA<b class='flag-5'>生成</b><b class='flag-5'>式</b>AI<b class='flag-5'>研究</b>实现在1秒内<b class='flag-5'>生成</b>3D形状

    商汤集团2023全年业绩亮眼,生成AI业务爆发式增长

    商汤集团近日发布了截至2023年12月31日的经审核全年业绩报告,展现了集团在AI领域的强劲增长势头。在全新的战略布局下,商汤明确了三大业务板块:生成AI、传统AI和智能汽车,并以生成
    的头像 发表于 03-27 09:14 566次阅读

    生成 AI 制作动画:周期短、成本低!

      电子发烧友网报道(文/李弯弯)生成AI在动画市场中的应用正在迅速崛起。根据市场机构数据,预计到2023生成
    的头像 发表于 03-18 08:19 3507次阅读
    <b class='flag-5'>生成</b><b class='flag-5'>式</b> AI 制作动画:周期短、成本低!

    名单公布!【书籍评测活动NO.30】大规模语言模型:理论到实践

    。 为了使更多的自然语言处理研究人员和对大语言模型感兴趣的读者能够快速了解大模型的理论基础,并开展大模型实践,复旦大学张奇教授团队结合他们在自然语言处理领域的研究经验,以及分布系统和
    发表于 03-11 15:16

    请问下stm32G0系列理论上的外部中断响应时间是多少?

    大佬们,请问下stm32G0系列理论上的外部中断响应时间是多少?我在spec里面没有找到对这块的详细描述,只有如下描述; 看之前的帖子stm32F103的外部中断响应时间是12个时钟周期,实际应该会比这个时间长,G0也是一样的吗?
    发表于 03-08 07:41

    生成人工智能和感知人工智能的区别

    生成新的内容和信息的人工智能系统。这些系统能够利用已有的数据和知识来生成全新的内容,如图片、音乐、文本等。生成人工智能通常基于深度学习技术
    的头像 发表于 02-19 16:43 1545次阅读

    亚马逊云科技全面发力生成AI 2023 re:Invent中国行开启

    北京2023年12月12日 /美通社/ -- 亚马逊云科技在2023 re:Invent全球大会上围绕底层基础设施、生成人工智能(AI)、数据
    的头像 发表于 12-12 16:13 572次阅读

    英特尔研究院将在NeurIPS大会上展示业界领先的AI研究成果

    市举办。 在NeurIPS 2023,英特尔研究院将展示其最新AI研究成果,并和产业界、学术界分享英特尔“让AI无处不在”的愿景。大会期间
    的头像 发表于 12-08 19:15 526次阅读

    英特尔研究院将在NeurIPS大会上展示业界领先的AI研究成果

    人员和学界人士,这一AI和计算机视觉领域的全球顶会将于12月10日至16日在美国新奥尔良市举办。        在NeurIPS 2023,英特尔研究院将展示其最新AI
    的头像 发表于 12-08 09:17 684次阅读