0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何刻画数据的本质?流形学习能帮到你

格创东智 2019-04-28 19:08 次阅读

在格物汇之前的文章中,我们系统性的介绍了特征抽取的经典算法——主成分分析PCA与线性判别分析LDA的原理、应用场景,以及这两种算法的局限性和改进方法。今天的格物汇要给大家介绍一种新的机器学习算法——流形学习


流形学习


流形学习是一类借鉴了拓扑流形概念的降维方法,与核PCA的目的一样,它想要在低维空间中尽量保持在高维空间中的结构。一个形象的流形降维过程如下图,我们有一块卷起来的布,我们希望将其展开到一个二维平面,我们希望展开后的布能够在局部保持布结构的特征,其实也就是将其展开的过程,就像两个人将其拉开一样。


图1.jpg


流形学习方法有很多种,但是他们具有一些共同的特征:首先构造流形上样本点的局部邻域结构,然后用这些局部邻域结构来将样本点全局的映射到一个低维空间。它们之间的不同之处主要是在于构造的局部邻域结构不同,以及利用这些局部邻域结构来构造全局的低维嵌入方法的不同。下面我们简要介绍两种最常见的流形学习方法:Isomap和LLE。

Isomap


高维数据结构可能太过于抽象,很难去理解。我们先来看一个具体的实例:在上一篇文章中,我们所看到的三维空间上的数据是呈现”S”型,假设我们想寻找图中两点的测地距离(延曲面距离),就不能用这两点坐标所计算的欧式距离,如下图(a)黑色线所示,因为黑色线所构成的路径延曲面不可达。而应该使用其沿着“S”形曲面所生成的距离,想象一下一只蚂蚁在数据曲面上爬行,它不能脱离曲面行走,行走的路径如下图(a)红色线所示。下图(b)则显示的是两条线本真二维结构上所显示的路径,很明显红色的线更加真实的反映了两个数据点在三维数据上的距离。

图2.jpg


上述这种寻找数据曲面测算距离的方法称为Isomap(等度量映射),它是流形学习中的一种方法。它是如何实现的呢?它假设数据点与K个最近邻的点可以构成一个子集,这个子集可以用普通的欧式距离来衡量,而这个子集中的点又与其他子集中的点相连,这样两个目标点的距离就可以分解成若干子集的欧式距离叠加来近似得到,最后这些相连的点可以降维到低维空间中展现出来。


图3.jpg



局部线性嵌入(LLE)

流形学习另外一个典型案例是局部线性嵌入(LLE)。Isomap假设近邻的测地距离可以用欧式距离来表示。而LLE则假设在近邻内可以用线性加权互相表达。比如对于任意一个样本x0,我们都可以用他附近的几个点x1 x2 x3 x4的线性组合表示出来,即

图4.jpg

经过LLE降维投影后,原来的点x0 x1 x2 x3 x4,投影变成了

图5.jpg

LLE降维的想法是,降维后尽量去保留高维时的线性组合关系:

图6.jpg

图7.jpg


如何求解呢?我们需要先求出线性组合的权重w,对于样本x0我们需要找到其最近的k个其他样本点,假设为x1 x2 x3 x4,我们根据线性表示误差最小来求出w:

图8.jpg

根据上式确定出线性组合的w以后,我们还需要让其在低维空间也能尽可能满足线性组合的表达关系式,也就是说对于x0 x1 x2 x3 x4……的低维投影点z0 z1 z2 z3 z4……满足:

图9.jpg

两个优化目标函数类型很像,但需要明确的是第一个目标函数优化的是权重w,而第二个目标函数优化的是降维后的坐标z。经过优化即可得出样本集在低维空间上的投影坐标。

总的来说,对于不在某一个点x0邻域内的其他点A,不管A怎么变动,都不会影响到点x0,这种变动局部限制的思想在很多地方都有用,此外LLE尽可能的保存了局部线性信息,使得其在局部能反映出数据原本的结构。它的流程大致如下图所示:

图10.jpg

小结


LLE是广泛使用的图形图像降维方法,它实现简单,但是对数据的流形分布特征有严格的要求。比如不能是闭合流形,不能是稀疏的数据集,不能是分布不均匀的数据集等等,这限制了它的应用。

优点

1、可以学习任意维的局部线性的低维流形

2、算法归结为稀疏矩阵特征分解,计算复杂度相对较小,实现容易

缺点

1、算法所学习的流行只能是不闭合的,且样本集是稠密均匀的

2、算法对最近邻样本数的选择敏感,不同的最近邻数对最后的降维结果有很大影响

好了,以上就是本期格物汇的内容,我们下期见。


本文作者:格创东智OT团队(转载请注明作者及来源)

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 智能制造
    +关注

    关注

    48

    文章

    5445

    浏览量

    76227
  • 工业互联网
    +关注

    关注

    28

    文章

    4289

    浏览量

    94020
  • 工业大数据
    +关注

    关注

    0

    文章

    72

    浏览量

    7821
收藏 人收藏

    评论

    相关推荐

    FPGA做深度学习走多远?

    ,共同进步。 欢迎加入FPGA技术微信交流群14群! 交流问题(一) Q:FPGA做深度学习走多远?现在用FPGA做深度学习加速成为一个热门,深鉴科技,商汤,旷视科技等都有基于FPGA做深度
    发表于 09-27 20:53

    贴片电容与贴片电阻的本质差异在哪里?

    贴片电容与贴片电阻的本质差异在哪里?
    的头像 发表于 08-27 15:51 279次阅读
    贴片电容与贴片电阻的<b class='flag-5'>本质</b>差异在哪里?

    智能家居单火改零火这几种方案单火模块零线发生器一定会帮到你

    智能家居单火改零火这几种方案单火模块零线发生器一定会帮到你
    的头像 发表于 08-02 08:18 804次阅读
    智能家居单火改零火这几种方案单火模块零线发生器一定会<b class='flag-5'>帮到你</b>!

    人工智能、机器学习和深度学习是什么

    在科技日新月异的今天,人工智能(Artificial Intelligence, AI)、机器学习(Machine Learning, ML)和深度学习(Deep Learning, DL)已成为
    的头像 发表于 07-03 18:22 1005次阅读

    机器学习数据分析中的应用

    随着大数据时代的到来,数据量的爆炸性增长对数据分析提出了更高的要求。机器学习作为一种强大的工具,通过训练模型从数据
    的头像 发表于 07-02 11:22 511次阅读

    深度学习模型训练过程详解

    深度学习模型训练是一个复杂且关键的过程,它涉及大量的数据、计算资源和精心设计的算法。训练一个深度学习模型,本质上是通过优化算法调整模型参数,使模型能够更好地拟合
    的头像 发表于 07-01 16:13 1011次阅读

    计算机图形学:探索虚拟世界的构建之道

    计算机图形学是计算机科学的一个分支,它专注于创建和操纵计算机生成的视觉和图形内容。这一领域涵盖了从基础的二维图形绘制到复杂的三维模型构建和渲染的广泛技术。在今天的数字化时代,计算机图形学
    的头像 发表于 05-07 08:27 337次阅读
    计算机图<b class='flag-5'>形学</b>:探索虚拟世界的构建之道

    FPGA与ARM的本质区别

    FPGA(Field-Programmable Gate Array)与ARM在多个方面存在本质区别。 首先,从它们的定义和结构上来看,FPGA是一种现场可编程门阵列,属于可编程器件的一种。它的内部
    发表于 04-28 09:00

    深度学习与度量学习融合的综述

    如今,机器学习的应用广泛,包括人脸识别、医疗诊断等,为复杂问题和大量数据提供解决方案。机器学习算法基于数据产生成功的分类模型,但每个
    发表于 04-24 09:49 369次阅读
    深度<b class='flag-5'>学习</b>与度量<b class='flag-5'>学习</b>融合的综述

    电站和光伏电站的区别

    电站和光伏电站是两种不同类型的电力设施,它们在能源的产生、存储和使用上有着本质的区别。
    的头像 发表于 04-22 15:21 2772次阅读

    电池储功率变换系统(PCS)的定义 功率变换系统的设计原则

    功率变换系统(power conversion system,PCS)是与储电池组配 套,连接于电池组与电网之间,其工作的核心是把交流电网电能转换为 直流形式存入电化学电池组或将电池组能量转换为交流形式回馈到电 网,
    的头像 发表于 02-23 10:23 3286次阅读

    AI算法的本质是模拟人类智能,让机器实现智能化

    视觉等领域。   AI 算法的核心是实现智能化的决策和行为   AI算法的本质在于模拟人类智能的能力,让计算机能够对现实世界进行模拟和模仿,从而达到智能化的目的。具体来说,AI算法可以通过机器学习、自然语言处理、计算机视觉等技
    的头像 发表于 02-07 00:07 5521次阅读

    电路中的GND它的本质是什么?

    电路中的GND它的本质是什么? GND,全称为Ground,是电路中非常重要的概念和连接点。它代表了一个电路的参考点或基准点,是整个电路中电势零点的位置。在电子设备和电路板中,GND往往是一个指定
    的头像 发表于 12-07 11:43 2413次阅读

    基于WT588F02B-8S芯片带语音播放和闹钟提醒的的手写提示板方案

    你是不是经常忘记做某些事情?你是不是经常沉浸在自己的工作中而错过了其他的工作?你是否想要一个没有手机干扰但是也不会错过任何事情的环境?这款基于WT588F02B-8S芯片带语音播放和闹钟提醒的的手写提示板方案或许帮到你
    的头像 发表于 11-17 10:08 801次阅读
    基于WT588F02B-8S芯片带语音播放和闹钟提醒的的手写提示板方案

    明德源正式发布基于镍氢电池模块的数据中心分布式电源DPS方案

    明德源近日正式发布了一款基于定制镍氢电池的数据中心 分布式电源 DPS系列产品,该产品保持了DPS产品所有的优势,同时还做到了储电芯电化学本质安全。此次新品的发布,必将为客户带来
    的头像 发表于 11-16 15:19 1417次阅读
    明德源<b class='flag-5'>能</b>正式发布基于镍氢电池模块的<b class='flag-5'>数据</b>中心分布式电源DPS方案