如何刻画数据的本质？流形学习能帮到你-电子发烧友网

在格物汇之前的文章中，我们系统性的介绍了特征抽取的经典算法——主成分分析PCA与线性判别分析LDA的原理、应用场景，以及这两种算法的局限性和改进方法。今天的格物汇要给大家介绍一种新的机器学习算法——流形学习。

流形学习

流形学习是一类借鉴了拓扑流形概念的降维方法，与核PCA的目的一样，它想要在低维空间中尽量保持在高维空间中的结构。一个形象的流形降维过程如下图，我们有一块卷起来的布，我们希望将其展开到一个二维平面，我们希望展开后的布能够在局部保持布结构的特征，其实也就是将其展开的过程，就像两个人将其拉开一样。

图1.jpg

流形学习方法有很多种，但是他们具有一些共同的特征:首先构造流形上样本点的局部邻域结构,然后用这些局部邻域结构来将样本点全局的映射到一个低维空间。它们之间的不同之处主要是在于构造的局部邻域结构不同，以及利用这些局部邻域结构来构造全局的低维嵌入方法的不同。下面我们简要介绍两种最常见的流形学习方法：Isomap和LLE。

Isomap

高维数据结构可能太过于抽象，很难去理解。我们先来看一个具体的实例：在上一篇文章中，我们所看到的三维空间上的数据是呈现”S”型，假设我们想寻找图中两点的测地距离（延曲面距离），就不能用这两点坐标所计算的欧式距离，如下图（a）黑色线所示，因为黑色线所构成的路径延曲面不可达。而应该使用其沿着“S”形曲面所生成的距离，想象一下一只蚂蚁在数据曲面上爬行，它不能脱离曲面行走，行走的路径如下图（a）红色线所示。下图（b）则显示的是两条线本真二维结构上所显示的路径，很明显红色的线更加真实的反映了两个数据点在三维数据上的距离。

图2.jpg

上述这种寻找数据曲面测算距离的方法称为Isomap（等度量映射），它是流形学习中的一种方法。它是如何实现的呢？它假设数据点与K个最近邻的点可以构成一个子集，这个子集可以用普通的欧式距离来衡量，而这个子集中的点又与其他子集中的点相连，这样两个目标点的距离就可以分解成若干子集的欧式距离叠加来近似得到，最后这些相连的点可以降维到低维空间中展现出来。

图3.jpg

局部线性嵌入（LLE）

流形学习另外一个典型案例是局部线性嵌入（LLE）。Isomap假设近邻的测地距离可以用欧式距离来表示。而LLE则假设在近邻内可以用线性加权互相表达。比如对于任意一个样本x0,我们都可以用他附近的几个点x1 x2 x3 x4的线性组合表示出来，即

图4.jpg

经过LLE降维投影后，原来的点x0 x1 x2 x3 x4,投影变成了

图5.jpg

LLE降维的想法是，降维后尽量去保留高维时的线性组合关系：

图6.jpg

图7.jpg

如何求解呢？我们需要先求出线性组合的权重w，对于样本x0我们需要找到其最近的k个其他样本点，假设为x1 x2 x3 x4，我们根据线性表示误差最小来求出w:

图8.jpg

根据上式确定出线性组合的w以后，我们还需要让其在低维空间也能尽可能满足线性组合的表达关系式，也就是说对于x0 x1 x2 x3 x4……的低维投影点z0 z1 z2 z3 z4……满足：

图9.jpg

两个优化目标函数类型很像，但需要明确的是第一个目标函数优化的是权重w，而第二个目标函数优化的是降维后的坐标z。经过优化即可得出样本集在低维空间上的投影坐标。

总的来说，对于不在某一个点x0邻域内的其他点A，不管A怎么变动，都不会影响到点x0，这种变动局部限制的思想在很多地方都有用，此外LLE尽可能的保存了局部线性信息，使得其在局部能反映出数据原本的结构。它的流程大致如下图所示：

图10.jpg

小结

LLE是广泛使用的图形图像降维方法，它实现简单，但是对数据的流形分布特征有严格的要求。比如不能是闭合流形，不能是稀疏的数据集，不能是分布不均匀的数据集等等，这限制了它的应用。

优点

1、可以学习任意维的局部线性的低维流形

2、算法归结为稀疏矩阵特征分解，计算复杂度相对较小，实现容易

缺点

1、算法所学习的流行只能是不闭合的，且样本集是稠密均匀的

2、算法对最近邻样本数的选择敏感，不同的最近邻数对最后的降维结果有很大影响

好了，以上就是本期格物汇的内容，我们下期见。

本文作者：格创东智OT团队（转载请注明作者及来源）

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

智能制造

智能制造

+关注

关注
48

文章
5550

浏览量
76318
工业互联网

工业互联网

+关注

关注
28

文章
4320

浏览量
94098
工业大数据

工业大数据

+关注

关注
0

文章
72

浏览量
7837

中科亿海微荣获2024年度中国图象图形学学会技术发明奖

喜报近日，根据《中国图象图形学学会科学技术奖章程》和《中国图象图形学学会技术发明奖评选条例》相关要求，中国图象图形学学会组织完成了2024年科学技术奖励的推荐和评选工作。经过形式审查、初评公示和终

发表于 12-11 01:02 •123次阅读

中科亿海微荣获2024年度中国图象图<b class='flag-5'>形学</b>学会技术发明奖

FPGA做深度学习能走多远？

，共同进步。欢迎加入FPGA技术微信交流群14群! 交流问题（一） Q：FPGA做深度学习能走多远？现在用FPGA做深度学习加速成为一个热门，深鉴科技，商汤，旷视科技等都有基于FPGA做深度

发表于 09-27 20:53

什么是飞轮储能 – 它是如何工作的？

飞轮本质上是一个机械电池，由绕轴旋转的质量组成。它以动能的形式储存能量，其工作原理是将转子加速到非常高的速度，并将系统中的能量维持为旋转能。飞轮储能是一种很有前途的技术，可以替代传统的铅酸电池作为储

发表于 09-11 07:39 •381次阅读

贴片电容与贴片电阻的本质差异在哪里？

贴片电容与贴片电阻的本质差异在哪里？

发表于 08-27 15:51 •360次阅读

智能家居单火改零火这几种方案单火模块零线发生器一定会帮到你！

智能家居单火改零火这几种方案单火模块零线发生器一定会帮到你！

发表于 08-02 08:18 •1116次阅读

人工智能、机器学习和深度学习是什么

在科技日新月异的今天，人工智能（Artificial Intelligence, AI）、机器学习（Machine Learning, ML）和深度学习（Deep Learning, DL）已成为

发表于 07-03 18:22 •1268次阅读

机器学习在数据分析中的应用

随着大数据时代的到来，数据量的爆炸性增长对数据分析提出了更高的要求。机器学习作为一种强大的工具，通过训练模型从数据中

发表于 07-02 11:22 •612次阅读

深度学习模型训练过程详解

深度学习模型训练是一个复杂且关键的过程，它涉及大量的数据、计算资源和精心设计的算法。训练一个深度学习模型，本质上是通过优化算法调整模型参数，使模型能够更好地拟合

发表于 07-01 16:13 •1237次阅读

计算机图形学：探索虚拟世界的构建之道

计算机图形学是计算机科学的一个分支，它专注于创建和操纵计算机生成的视觉和图形内容。这一领域涵盖了从基础的二维图形绘制到复杂的三维模型构建和渲染的广泛技术。在今天的数字化时代，计算机图形学

发表于 05-07 08:27 •402次阅读

FPGA与ARM的本质区别

FPGA（Field-Programmable Gate Array）与ARM在多个方面存在本质区别。首先，从它们的定义和结构上来看，FPGA是一种现场可编程门阵列，属于可编程器件的一种。它的内部

发表于 04-28 09:00

FPGA与ARM的本质区别是什么？

FPGA（Field-Programmable Gate Array）与ARM在多个方面存在本质区别。首先，从它们的定义和结构上来看，FPGA是一种现场可编程门阵列，属于可编程器件的一种。它的内部

发表于 04-28 08:56

深度学习与度量学习融合的综述

如今，机器学习的应用广泛，包括人脸识别、医疗诊断等，为复杂问题和大量数据提供解决方案。机器学习算法能基于数据产生成功的分类模型，但每个

发表于 04-24 09:49 •421次阅读

储能电站和光伏电站的区别

储能电站和光伏电站是两种不同类型的电力设施，它们在能源的产生、存储和使用上有着本质的区别。

发表于 04-22 15:21 •3243次阅读

电池储能功率变换系统（PCS)的定义功率变换系统的设计原则

功率变换系统（power conversion system，PCS）是与储能电池组配套，连接于电池组与电网之间，其工作的核心是把交流电网电能转换为直流形式存入电化学电池组或将电池组能量转换为交流形式回馈到电网，

发表于 02-23 10:23 •3602次阅读

AI算法的本质是模拟人类智能，让机器实现智能化

视觉等领域。 AI 算法的核心是实现智能化的决策和行为 AI算法的本质在于模拟人类智能的能力，让计算机能够对现实世界进行模拟和模仿，从而达到智能化的目的。具体来说，AI算法可以通过机器学习、自然语言处理、计算机视觉等技

发表于 02-07 00:07 •5765次阅读