0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

SVM与神经网络结合会发生什么?

中科院长春光机所 来源:搜狐网 作者:神经网络 2020-09-14 09:22 次阅读

SVM 是机器学习领域的经典算法之一。如果将 SVM推广到神经网络,会发生什么呢?

支持向量机(Support Vector Machine,SVM)是大多数 AI 从业者比较熟悉的概念。它是一种在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM 训练算法创建一个将新的实例分配给两个类别之一的模型,使其成为非概率二元线性分类器。SVM 模型将实例表示为空间中的点,这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后,将新的实例映射到同一空间,并基于它们落在间隔的哪一侧来预测所属类别。 除了进行线性分类之外,SVM 还可以使用所谓的核技巧有效地进行非线性分类,将其输入隐式映射到高维特征空间中。 本文将介绍一篇来自蒙特利尔大学的论文《SVM、Wasserstein 距离、梯度惩罚 GAN 之间的联系》。在这篇论文中,研究者阐述了如何从同一框架中得到 SVM 和梯度惩罚 GAN。 据论文一作介绍,这项研究的灵感来自她的博士资格考试。在准备过程中,她学习了 SVM,并思考了这个问题:「如果将 SVM 推广到神经网络会发生什么?」顺着这个思路,研究者发现了 SVM、GAN、Wasserstein 距离之间的关系。

该研究将最大间隔分类器(MMC)的概念扩展到任意范数和非线性函数。支持向量机是 MMC 的一个特例。研究者发现,MMC 可以形式化为积分概率度量(Integral Probability Metrics,IPM)或具备某种形式梯度范数惩罚的分类器。这表明它与梯度惩罚 GAN 有直接关联。 该研究表明,Wasserstein GAN、标准 GAN、最小二乘 GAN 和具备梯度惩罚的 Hinge GAN 中的判别器都是 MMC,并解释了 GAN 中最大化间隔的作用。研究者假设 L^∞ 范数惩罚和 Hinge 损失生成的 GAN 优于 L^2 范数惩罚生成的 GAN,并通过实验进行了验证。此外,该研究还导出了 Relativistic paired (Rp) 和 average (Ra) GAN 的间隔。 这篇论文共包含几部分:在第二章中,研究者回顾了 SVM 和 GAN;第三章,研究者概述了最大间隔分类器(MMC)的概念;第四章,研究者用梯度惩罚解释了 MMC 和 GAN 之间的联系。其中 4.1 提到了强制 1-Lipschitz 等价于假设一个有界梯度,这意味着 Wasserstein 距离可以用 MMC 公式来近似估算;4.2 描述了在 GAN 中使用 MMC 的好处;4.3 假定 L1 范数间隔能够导致更具鲁棒性的分类器;4.4 推导了 Relativistic paired GAN 和 Relativistic average GAN 的间隔。最后,第五章提供了实验结果以支持文章假设。 SVM 是 MMC 的一个特例。MMC 是使间隔最大化的分类器 f(间隔指的是决策边界与数据点之间的距离)。决策边界是指我们无法分辨出样本类别的区域(所有 x 使得 f(x)=0)。 Soft-SVM 是一种特殊情况,它可以使最小 L2 范数间隔最大化。下图展示了实际使用中的 Soft-SVM:

在解释这一结果之前,我们需要了解一个关键要素。关于「间隔」有多种定义: (1)样本与边界之间的最小距离; (2)距边界最近的点与边界之间的最小距离。 定义(2)更为常用。但是如果使用此定义,那么 SVM 文献中所谓的「函数间隔(functional margin)」和「几何间隔(geometric margin)」就都不能被视为间隔。这可能会让人十分困惑。 理解这种差异更好的一种方式是:

将(1)视为「样本的间隔」;

将(2)视为「数据集的间隔」。

但是,为了消除这两种情况的歧义,本文将前者称为「间隔(margin)」,将后者称为「最小间隔(minimum margin)」。 Hard-SVM(原始形式)解决了最大化最小间隔的问题。Soft-SVM 解决了另一个更简单的问题——最大化期望 soft-margin(最小化期望 Hinge 损失)。这个问题很容易解决,hinge 损失确保远离边界的样本不会对假重复 Hard-SVM 效果的尝试产生任何影响。 从这个角度看,最大化期望间隔(而不是最大化最小间隔)仍会导致最大间隔分类器,但是分类器可能会受到远离边界的点的影响(如果不使用 Hinge 损失的话)。因此,最大化期望间隔意味着最大化任何样本(即数据点)与决策边界之间的平均距离。这些方法就是最大间隔分类器(MMC)的示例。 为了尽可能地通用化,该研究设计了一个框架来导出 MMC 的损失函数。研究者观察到,该框架可以导出带有梯度惩罚的基于间隔的目标函数(目标函数 F 的形式为 F(yf(x)))。这就意味着标准 GAN、最小二乘 GAN、WGAN 或 HingeGAN-GP 都是 MMC。所有这些方法(和 WGAN-GP 一样使用 L2 梯度规范惩罚时)都能最大化期望 L2 范数间隔。 研究者还展示了,使用 Lipschitz-1 判别器的大多数 GAN(谱归一化 HingeGAN、WGAN、WGAN-GP 等)都可被表示为 MMC,因为假定 1-Lipschitz 等效于假定有界梯度(因此可作为一种梯度惩罚形式)。 重要的是,这意味着我们可以将最成功的 GAN(BigGAN、StyleGAN)看作 MMC。假定 Lipschitz-1 判别器一直被看作实现优秀 GAN 的关键因素,但它可能需要一个能够最大化间隔的判别器和相对判别器(Relativistic Discriminator)。该研究基于 MMC 判别器给伪生成样本带来更多梯度信号的事实,阐述了其优点。 在这一点上,读者可能有疑问:「是不是某些间距比其它间距更好?是的话,我们能做出更好的 GAN 吗?」 这两个问题的答案都是肯定的。最小化 L1 范数的损失函数比最小化 L2 范数的损失函数对异常值更具鲁棒性。基于这一事实,研究者提出质疑:L1 范数间隔会带来鲁棒性更强的分类器,生成的 GAN 也可能比 L2 范数间隔更佳。 重要的是,L1 范数间隔会造成 L∞ 梯度范数惩罚,L2 范数间隔会造成 L2 梯度范数惩罚。该研究进行了一些实验,表明 L∞ 梯度范数惩罚(因使用 L1 间隔产生)得到的 GAN 性能更优。 此外,实验表明, HingeGAN-GP 通常优于 WGAN-GP(这是说得通的,因为 hinge 损失对远离边界的异常值具有鲁棒性),并且仅惩罚大于 1 的梯度范数效果更好(而不是像 WGAN-GP 一样,使所有的梯度范数逼近 1)。因此,尽管这是一项理论研究,但研究者发现了一些对改进 GAN 非常有用的想法。 使用该框架,研究者能够为 Relativistic paired (Rp) GAN 和 Relativistic average (Ra) GAN 定义决策边界和间隔。人们常常想知道为什么 RpGAN 的性能不如 RaGAN,在这篇文章中,研究者对此进行了阐述。 使用 L1 范数间隔的想法只是冰山一角,该框架还能通过更具鲁棒性的间隔,设计出更优秀的 GAN(从而提供更好的梯度惩罚或「光谱」归一化技术)。最后,对于为什么梯度惩罚或 1-Lipschitz 对不估计 Wasserstein 距离的 GAN 有效,该研究也提供了明确的理论依据,更多细节可参考原论文。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4771

    浏览量

    100720
  • SVM
    SVM
    +关注

    关注

    0

    文章

    154

    浏览量

    32439

原文标题:当支持向量机遇上神经网络:这项研究揭示了SVM、GAN、Wasserstein距离之间的关系

文章出处:【微信号:cas-ciomp,微信公众号:中科院长春光机所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    神经网络教程(李亚非)

      第1章 概述  1.1 人工神经网络研究与发展  1.2 生物神经元  1.3 人工神经网络的构成  第2章人工神经网络基本模型  2.1 MP模型  2.2 感知器模型  2.3
    发表于 03-20 11:32

    神经网络简介

    神经网络简介
    发表于 08-05 21:01

    神经网络SVM的模块

    大家有知道labview中神经网络SVM的工具包是哪个吗?求分享一下,有做这方面的朋友也可以交流一下,大家共同进步
    发表于 10-13 11:41

    神经网络基本介绍

    神经网络基本介绍
    发表于 01-04 13:41

    非局部神经网络,打造未来神经网络基本组件

    `将非局部计算作为获取长时记忆的通用模块,提高神经网络性能在深度神经网络中,获取长时记忆(long-range dependency)至关重要。对于序列数据(例如语音、语言),递归运算
    发表于 11-12 14:52

    全连接神经网络和卷积神经网络有什么区别

    全连接神经网络和卷积神经网络的区别
    发表于 06-06 14:21

    卷积神经网络如何使用

    卷积神经网络(CNN)究竟是什么,鉴于神经网络在工程上经历了曲折的历史,您为什么还会在意它呢? 对于这些非常中肯的问题,我们似乎可以给出相对简明的答案。
    发表于 07-17 07:21

    【案例分享】ART神经网络与SOM神经网络

    今天学习了两个神经网络,分别是自适应谐振(ART)神经网络与自组织映射(SOM)神经网络。整体感觉不是很难,只不过一些最基础的概念容易理解不清。首先ART神经网络是竞争学习的一个代表,
    发表于 07-21 04:30

    如何设计BP神经网络图像压缩算法?

    称为BP神经网络。采用BP神经网络模型能完成图像数据的压缩处理。在图像压缩中,神经网络的处理优势在于:巨量并行性;信息处理和存储单元结合在一起;自组织自学习功能。与传统的数字信号处理器
    发表于 08-08 06:11

    什么是LSTM神经网络

    简单理解LSTM神经网络
    发表于 01-28 07:16

    如何构建神经网络

    原文链接:http://tecdat.cn/?p=5725 神经网络是一种基于现有数据创建预测的计算系统。如何构建神经网络神经网络包括:输入层:根据现有数据获取输入的层隐藏层:使用反向传播优化输入变量权重的层,以提高模型的预测
    发表于 07-12 08:02

    基于BP神经网络的PID控制

    最近在学习电机的智能控制,上周学习了基于单神经元的PID控制,这周研究基于BP神经网络的PID控制。神经网络具有任意非线性表达能力,可以通过对系统性能的学习来实现具有最佳组合的PID控制。利用BP
    发表于 09-07 07:43

    matlab神经网络应用设计

    matlab神经网络应用设计详细的介绍了matlab与神经网络结合
    发表于 02-23 10:47 0次下载

    什么是模糊神经网络_模糊神经网络原理详解

    模糊神经网络就是模糊理论同神经网络结合的产物,它汇集了神经网络与模糊理论的优点,集学习、联想、识别、信息处理于一体。
    发表于 12-29 14:40 4.9w次阅读
    什么是模糊<b class='flag-5'>神经网络</b>_模糊<b class='flag-5'>神经网络</b>原理详解

    怎么对神经网络重新训练

    重新训练神经网络是一个复杂的过程,涉及到多个步骤和考虑因素。 引言 神经网络是一种强大的机器学习模型,广泛应用于图像识别、自然语言处理、语音识别等领域。然而,随着时间的推移,数据分布可能会发生
    的头像 发表于 07-11 10:25 452次阅读