0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

预测深度神经网络泛化性能差异

Tensorflowers 来源:YXQ 作者:h1654155287.6125 2019-07-28 10:45 次阅读

深度神经网络 (DNN) 是近年来机器学习研究进展的基础,也是在图像识别、图像分割、机器翻译等诸多领域能够取得突破性进展的重要原因。

尽管 DNN 无处不在,研究人员仍在尝试全面了解深度神经网络的基本原理。例如,传统理论(如 VC 维和 Rademacher 复杂度)认为:在处理未知数据时,过参数化函数 (over-parameterized functions) 的泛化能力较差;但在近期研究中却发现,大规模过参数化的函数(参数比数据点多出几个数量级)却拥有出色的泛化能力,更深层次地地理解泛化对于理论的落地和DNN理论的实现从而改进模型是很有必要的。

在理解泛化之前,我们需了解 Generalization Gap(泛化性能差异)这一重要概念。泛化性能差异即模型针对相同分布的训练数据和未知数据所表现出的性能差异。在致力获得更好的 DNN 泛化边界(即泛化性能差异的上限)的过程中,研究人员取得了重大进展。但是,这类边界通常仍会大大高估真实的泛化性能差异水平,并且无法解释部分模型为何具有出色的泛化能力。

另一方面,研究人员基于支持向量机 (support-vector machines) 等浅层模型对边缘 (notion) 概念(即数据点与决策边界之间的距离)进行了大量研究,最终发现此概念与模型针对未知数据所表现出的泛化能力密切相关。基于此项发现,研究人员已将使用边缘研究泛化性能差异的方法拓展至 DNN 领域,从而使泛化性能差异的理论上限得到了高度优化,但此方式并未能显著提高泛化模型的预测能力。

注:理论上限 链接

支持向量机决策边界示例。w∙x-b=0 定义的超平面是此线性分类器的“决策边界”,即在该线性分类器下,超平面上的每个点 x 在任一类中的可能性相等。

ICLR 2019 论文《使用边缘分布预测深度网络的泛化性能差异》(Predicting the Generalization Gap in Deep Networks with Margin Distributions) 中,我们提议在各层网络上使用标准化的边缘分布 (Normalized Margin Distribution) 来预测泛化性能差异。

我们通过实践研究了边缘分布与泛化之间的关系,最终发现在对距离进行适当标准化 (Normalization) 后,边缘分布的一些基本数据可以准确预测泛化性能差异。此外,我们还通过 GitHub 代码库将所有模型作为数据集公开发布,以便您进行泛化研究。

每张图均对应一个基于 CIFAR-10 训练的卷积神经网络(分类准确率各不相同)。三个模型各有差异,从左至右,泛化能力逐渐增强。其中,x 轴表示 4 个层的神经网络标准化边缘分布,y 轴表示此分布的概率密度。标准化的边缘分布与测试准确率密切相关,这表明我们可以将此类分布用作预测网络 Generalization Gap(泛化性能差异)的指标。如需了解这些神经网络的更多详情,请参阅我们的论文。

边缘分布作为泛化性能差异的预测指标

如果边缘分布统计数据可以真实预测泛化性能差异,那么简单的预测方案应能建立起二者的关系。

因此,我们选择使用线性回归作为预测指标。我们发现,在对边缘分布统计数据进行对数转换后,转换后的数据与 泛化性能差异之间几乎完全呈线性关系(参见下图)。事实上,相较于其他现有的泛化测量方法,我们提出的方案可提供更准确的预测。这表明,边缘分布可能包含与深度模型泛化性能差异相关的重要信息

基于 CIFAR-100 和 ResNet-32 得出的 Generalization Gap 预测值(x 轴)与实际值(y 轴)关系图。数据点的分布趋近于贴近对角线,这表明该对数线性模型的预测值非常符合实际的 Generalization Gap 水平。

深度模型泛化数据集

除论文之外,我们还介绍了深度模型泛化 (DEMOGEN) 数据集。该数据集包含 756 个经过训练的深度模型,以及这些深度模型在 CIFAR-10 和 CIFAR-100 数据集上的训练与及测试表现。这些模型均为 CNN(所用架构类似于“网络中的网络”(Network-in-Network))和 ResNet-32 的变体,它们采用当下流行的各类正则化技术和超参数设置,因而也产生了广泛的泛化行为。

例如,基于 CIFAR-10 训练的 CNN 模型的测试准确率在 60% 至 90.5% 之间,泛化性能差异率则介于 1% 至 35% 之间。如需了解数据集详情,请查看我们的论文或 GitHub 代码库。发布数据集时,我们还为其添加了许多实用程序,以便您能够轻松加载模型,并重现论文中所展示的结果。

我们希望本次研究和 DEMOGEN 数据集能为社区提供便利工具,让社区成员无需重新训练大量模型,即可研究深度学习领域的泛化问题而提供便利工具。同时,我们也希望本次研究成果能够提供助力,以帮助我们日后对隐藏层中的泛化性能差异预测指标和边缘分布进行更加深入的研究。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4733

    浏览量

    100410
  • 机器学习
    +关注

    关注

    66

    文章

    8347

    浏览量

    132296

原文标题:预测深度神经网络泛化性能差异

文章出处:【微信号:tensorflowers,微信公众号:Tensorflowers】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    FPGA在深度神经网络中的应用

    随着人工智能技术的飞速发展,深度神经网络(Deep Neural Network, DNN)作为其核心算法之一,在图像识别、语音识别、自然语言处理等领域取得了显著成果。然而,传统的深度神经网络
    的头像 发表于 07-24 10:42 524次阅读

    残差网络深度神经网络

    残差网络(Residual Network,通常简称为ResNet) 是深度神经网络的一种 ,其独特的结构设计在解决深层网络训练中的梯度消失和梯度爆炸问题上取得了显著的突破,并因此成为
    的头像 发表于 07-11 18:13 931次阅读

    神经网络辨识模型具有什么特点

    ,可以对未知数据进行预测,具有很好的化能力。 自学习能力 :神经网络通过反向传播算法等优化算法,可以自动调整网络参数,实现自学习。 并行处理能力 :
    的头像 发表于 07-11 11:12 360次阅读

    bp神经网络预测模型建模步骤

    介绍BP神经网络预测模型的建模步骤。 数据预处理 数据预处理是构建BP神经网络预测模型的第一步,主要包括以下几个方面: 1.1 数据收集 首先需要收集足够的数据,这些数据可以是历史数据
    的头像 发表于 07-11 10:52 415次阅读

    神经网络预测模型的构建方法

    神经网络模型作为一种强大的预测工具,广泛应用于各种领域,如金融、医疗、交通等。本文将详细介绍神经网络预测模型的构建方法,包括模型设计、数据集准备、模型训练、验证与评估等步骤,并附以代码
    的头像 发表于 07-05 17:41 570次阅读

    深度神经网络与基本神经网络的区别

    在探讨深度神经网络(Deep Neural Networks, DNNs)与基本神经网络(通常指传统神经网络或前向神经网络)的区别时,我们需
    的头像 发表于 07-04 13:20 563次阅读

    神经网络预测误差大小怎么看

    神经网络预测误差大小是衡量神经网络性能的重要指标之一。本文将介绍如何评估神经网络预测误差大小,包
    的头像 发表于 07-03 10:41 737次阅读

    神经网络拟合的误差怎么分析

    像识别、自然语言处理和时间序列预测等。然而,神经网络的拟合误差是一个关键问题,影响模型的性能化能力。本文将从多个角度分析神经网络拟合误差
    的头像 发表于 07-03 10:36 458次阅读

    如何使用神经网络进行建模和预测

    神经网络是一种强大的机器学习技术,可以用于建模和预测变量之间的关系。 神经网络的基本概念 神经网络是一种受人脑启发的计算模型,由大量的节点(神经
    的头像 发表于 07-03 10:23 618次阅读

    bp神经网络深度神经网络

    BP神经网络(Backpropagation Neural Network)是一种常见的前馈神经网络,它使用反向传播算法来训练网络。虽然BP神经网络在某些方面与
    的头像 发表于 07-03 10:14 579次阅读

    bp神经网络模型怎么算预测

    BP神经网络(Backpropagation Neural Network,简称BP网络)是一种多层前馈神经网络,它通过反向传播算法来调整网络中的权重和偏置,从而实现对输入数据的
    的头像 发表于 07-03 09:59 594次阅读

    卷积神经网络和bp神经网络的区别

    不同的神经网络模型,它们在结构、原理、应用等方面都存在一定的差异。本文将从多个方面对这两种神经网络进行详细的比较和分析。 引言 神经网络是一种模拟人脑
    的头像 发表于 07-02 14:24 2302次阅读

    深度神经网络模型有哪些

    深度神经网络(Deep Neural Networks,DNNs)是一类具有多个隐藏层的神经网络,它们在许多领域取得了显著的成功,如计算机视觉、自然语言处理、语音识别等。以下是一些常见的深度
    的头像 发表于 07-02 10:00 1038次阅读

    利用深度循环神经网络对心电图降噪

    曼滤波。因此,通过这种方式训 练网络,无法获得比卡尔曼滤波本身更好的 性能。本文介绍了一种利用深度递归神经网络 (DRNN)对 ECG 信号进行降噪的新方 法。该
    发表于 05-15 14:42

    详解深度学习、神经网络与卷积神经网络的应用

    在如今的网络时代,错综复杂的大数据和网络环境,让传统信息处理理论、人工智能与人工神经网络都面临巨大的挑战。近些年,深度学习逐渐走进人们的视线,通过
    的头像 发表于 01-11 10:51 1826次阅读
    详解<b class='flag-5'>深度</b>学习、<b class='flag-5'>神经网络</b>与卷积<b class='flag-5'>神经网络</b>的应用