未来或许深度学习江湖统一真的不是梦-电子发烧友网

你能想象某一天打开深度学习的词条，发现：

深度学习的江湖已经能够被统一了吗？

几何学上的对称性可以玩转整个深度学习吗？

通过对称性和的变换，可以提炼出覆盖CNNs, GNNs, LSTMs, Transformers, DeepSets, mesh CNN等一切你所需构建的架构吗？

不要惊讶，不要怀疑。

一百多年前埃尔兰根大学一位23岁的小伙就给出了答案。

他仅凭一己之力开创的“埃尔兰根计划”，从而在几何学上做出了一项开创性的工作，改变了数学史。

几何学对称问题的源起

在1872年10月，德国的埃尔兰根大学任命了一位新的年轻教授。按照惯例，他被要求提供一个就职研究计划，他以长而乏味的标题Vergleichende Betrachtungen über neuere geometrische Forschungen（“对几何学最新研究的比较评论”）进行了发表。

这位就是菲利克斯·克莱因（Felix Klein），当时他只有23岁，他的开创性工作被称为“埃尔兰根计划”，在数学史上有浓墨重彩的一笔。

十九世纪简直就是几何学的大爆发时代。欧几里得之后的近两千年来，庞塞莱特（Poncelet）构造了投影几何，高斯（Gauss）、波利亚伊（Galys）和洛巴切夫斯基（Lobachevsky）构造了双曲线几何，而黎曼（Riemann）构造了椭圆几何。

克莱因的Erlangen program（埃尔兰根纲领）的突破性体现在研究几何学时运用了结构的对称性。克莱因采用群论的形式来定义此类转换，并采用群及其子群的层次结构来分类由此产生的不同几何形状。

因此，刚性运动会产生传统的欧几里得几何，而仿射或投影变换分别产生仿射和投影几何。

Erlangen program不仅对几何和数学影响非常深远，同时也影响了物理领域，对称性可以从第一原理推导守恒律，即Noether定理。

经过几十年的发展，直到杨振宁和米尔斯在1954年提出的规范不变性的概念的广义形式证明了这一基本原理，成功地统一了除重力以外的所有自然基本力。

这种标准模型已经描述了我们目前所知道的所有物理学知识。

所以啊，还是诺贝尔奖得主物理学家菲利普·安德森（Philip Anderson）的话说得好：

“it is only slightly overstating the case to say that physics is the study of symmetry.”

“说物理学本质上就是研究对称性的，这只是有点夸大其词了。”

目前深度学习领的现状和19世纪的几何情况惊人的类似：

一方面，在过去的十年中，深度学习带来了数据科学的一场革命，并完成了许多以前被认为无法实现的任务：无论是计算机视觉，语音识别，自然语言翻译，还是下围棋。

另一方面，现在存在一个针对不同类型数据的不同神经网络体系结构的“动物园”，但统一的原理很少。这样很难理解不同方法之间的关系，也导致相同概念的多次发明和资源的浪费。

在机器学习中，对称性的重要性实际上早已得到认可。

尤其是在模式识别和计算机视觉的应用中，有关等变特征检测的早期工作可以追溯到Shunichi Amari和Reiner Lenz。

在神经网络文献中，Marvin Minsky和Seymour Papert提出的感知器的群不变性定理对（单层）感知器学习不变性的能力提出了基本限制。

几何深度学习

具体怎么个“统一”，请看采用的“几何深度学习”：

几何深度学习是Michael M. Bronstein，Joan Bruna，Taco Cohen，Petar Veličković 等人中引入的一个笼统术语，指的是类似于Klein的Erlangen program，在几何机器学习上统一的尝试的总称。

它有两个目的：首先，提供一个通用的数学框架以推导最成功的神经网络体系结构；其次，给出一个建设性的过程，并以有原则的方式构建未来的体系结构。

在最简单的情况下，有监督的机器学习本质上是一个函数估计问题：给定训练集上某些未知函数的输出（例如标记的狗和猫图像），人们试图从某个假设函数类别中找到一个适合训练的函数f ，并可以预测以前看不见的输入的输出。

在过去的十年中，大型的、高质量的数据集（如ImageNet）的可用性与不断增长的计算资源（GPU）吻合，从而可以设计功能丰富的类，这些类可以内插此类大型数据集。

神经网络似乎是表征功能的合适选择，因为即使是最简单的体系结构（如Perceptron），仅使用两层时也可以生成密集类的功能，从而可以将任何连续函数近似为任何所需的精度，这种特性称为“通用逼近”（Universal Approximation）。

低维问题的设置是逼近理论中的经典问题，该问题已得到广泛研究，并通过精确的数学方法控制估算误差。但是，在高维度上情况却完全不同：人们可以很快地看到，即使近似一类简单的Lipschitz连续函数，样本数量也随维度呈指数增长，这种现象俗称“维数诅咒”。

由于现代机器学习方法需要处理成千上万甚至数百万个维度的数据，因此维度的诅咒总是在幕后出现，使得我们无法通过朴素的方式进行学习。

△维度诅咒的图示：为了近似由高斯核构成的Lipschitz连续函数，该函数位于误差为ε的d维单位超立方体（蓝色）的象限中，需要

在计算机视觉问题（例如图像分类）中可能最好地看到了这一点。即使是很小的图像也往往具有很高的尺寸，但是从直观上讲，当人们将图像解析为向量以将其馈反馈送到感知器时，很多图像的结构会被破坏并丢弃。如果现在仅将图像移位一个像素，则向量化的输入将有很大的不同，并且神经网络将需要显示很多示例，因此必须以相同的方式对移位的输入进行分类。

原理简介

通过对称性，不变性和群的视角，包含两大原理：

“先验对称性”

在许多高维ML问题的情况下，我们可以采用一个附加结构信息，它来自输入信号的几何形状。我们称这种结构为“先验对称性”，它是一种普遍有效的原理，它使我们对由维数引起的问题感到乐观。在我们的图像分类示例中，输入图像x不仅是d维向量，而且是在某个域Ω上定义的信号，在这种情况下，该信号是二维网格。

域的结构由对称群变换????（在我们的示例中为一组二位变换-作用于域上的点。在信号????（Ω）的空间中，底层域上的群动作（群元素，????∈????）通过所谓的群表征ρ（????）来表示，在我们的例子中，上述操作是平移操作，即一个作用于d维向量的d×d矩阵。

输入信号底层的域的几何结构为我们试图学习的函数 f 的类别施加了架构信息。一个不变函数可以不受群的操作作用的影响，即对于任何????∈????和x，f（ρ（????）x）= f（x）。另一方面，函数可能具有相同的输入和输出结构，并且以与输入相同的方式进行转换，这种函数称为等变函数，即满足f（ρ（????）x）= ρ（???? ）f（x）。

在计算机视觉领域中，图像分类是一种典型的人们希望得到不变函数的任务（例如，无论猫位于图像的什么位置，我们都希望将该图分类为猫）；而图像分割任务的输出是一个像素级别的标签掩模，这是一种等变函数（分割掩模需要遵循输入图像的变化）。

“尺度分离”

另一个强大的几何先验是“尺度分离”。在某些情况下，我们可以通过“同化”附近的点并产生与粗粒度算子P相关的信号空间的层次结构，来构建域的多尺度层次结构（下图中的Ω和Ω’）。

在这些粗尺度上，我们可以应用粗尺度函数。我们分析出，如果一个函数 f 可以被近似为粗粒度算子 P 和粗尺度函数的组合 f≈f’∘P，则 f 是局部稳定的。尽管 f 可能取决于长距离依赖，如果 f 是局部稳定的，它们可以被分解为局部交互，然后向着粗尺度传播。

这两个原理为他们提供了一个非常通用的深度学习蓝图，可以在大多数用于表示学习的流行深度神经体系结构中得到认可：一个典型设计由一系列等变层（例如，CNN中的卷积层）组成，可能遵循通过不变的全局池层将所有内容聚合到一个输出中。在某些情况下，也可以通过一些采用局部池化形式的粗化过程（coarsening procedure）来创建域的层次结构。

这是一种非常通用的设计，可以应用于不同类型的几何结构，包括几何深度学习的“ 5G”（Grid,Groups,Graphs,Geodesics & Gauges）：网格（具有全局转换群的齐次空间），图形（以及特殊情况下的集合）和流形，几何先验通过全局等距不变性表示（可以使用测地学表示）和局部规范的对称性。

这些原则的实现导致了深度学习中当今存在的一些最流行的体系结构：从平移对称导出的卷积网络（CNN）、图神经网络、DeepSets和Transformers，实现了置换不变性，时间扭曲不变导出的门控RNN（例如LSTM网络），以及由规范对称性导出的计算机图形和视觉中使用的 Intrinsic Mesh CNN。

下一步他们还打算在“ 5G”上继续“几何深度学习”蓝图。

貌似高深的理论，用到了群论、微分几何和各类机器学习高级算法，期待有更多研究人员参与并开展进一步深入研究。

未来，也许整个深度学习“动物园”的在原理上的统一真的不是梦。

责任编辑：haq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4771

浏览量
100754
深度学习

深度学习

+关注

关注
73

文章
5503

浏览量
121154

原文标题：收藏 | 从“几何深度学习”看深度学习江湖的统一

文章出处：【微信号：vision263com，微信公众号：新机器视觉】欢迎添加关注！文章转载请注明出处。

NPU在深度学习中的应用

随着人工智能技术的飞速发展，深度学习作为其核心驱动力之一，已经在众多领域展现出了巨大的潜力和价值。NPU（Neural Processing Unit，神经网络处理单元）是专门为深度

发表于 11-14 15:17 •553次阅读

GPU深度学习应用案例

GPU在深度学习中的应用广泛且重要，以下是一些GPU深度学习应用案例：一、图像识别图像识别是

发表于 10-27 11:13 •394次阅读

AI大模型与深度学习的关系

AI大模型与深度学习之间存在着密不可分的关系，它们互为促进，相辅相成。以下是对两者关系的介绍：一、深度学习是AI大模型的基础技术支撑：

发表于 10-23 15:25 •726次阅读

FPGA做深度学习能走多远？

，共同进步。欢迎加入FPGA技术微信交流群14群! 交流问题（一） Q：FPGA做深度学习能走多远？现在用FPGA做深度学习加速成为

发表于 09-27 20:53

深度学习算法在嵌入式平台上的部署

随着人工智能技术的飞速发展，深度学习算法在各个领域的应用日益广泛。然而，将深度学习算法部署到资源受限的嵌入式平台上，仍然是一个具有挑战性的任

发表于 07-15 10:03 •1385次阅读

深度学习中的时间序列分类方法

时间序列分类（Time Series Classification, TSC）是机器学习和深度学习领域的重要任务之一，广泛应用于人体活动识别、系统监测、金融预测、医疗诊断等多个领域。随

发表于 07-09 15:54 •917次阅读

深度学习中的无监督学习方法综述

深度学习作为机器学习领域的一个重要分支，近年来在多个领域取得了显著的成果，特别是在图像识别、语音识别、自然语言处理等领域。然而，深度

发表于 07-09 10:50 •725次阅读

按照这样学习C语言，成为卷王不是梦！

一些学习C语言的建议，让你在学习之路上更加游刃有余，成为C语言的高手。按照这样学习C语言，成为卷王不是梦

发表于 07-06 08:04 •316次阅读

深度学习与nlp的区别在哪

深度学习和自然语言处理（NLP）是计算机科学领域中两个非常重要的研究方向。它们之间既有联系，也有区别。本文将介绍深度学习与NLP的区别。深度

发表于 07-05 09:47 •930次阅读

基于深度学习的小目标检测

在计算机视觉领域，目标检测一直是研究的热点和难点之一。特别是在小目标检测方面，由于小目标在图像中所占比例小、特征不明显，使得检测难度显著增加。随着深度学习技术的快速发展，尤其是卷积神经

发表于 07-04 17:25 •885次阅读

深度学习常用的Python库

深度学习作为人工智能的一个重要分支，通过模拟人类大脑中的神经网络来解决复杂问题。Python作为一种流行的编程语言，凭借其简洁的语法和丰富的库支持，成为了

发表于 07-03 16:04 •648次阅读

深度学习与卷积神经网络的应用

到自然语言处理，深度学习和CNN正逐步改变着我们的生活方式。本文将深入探讨深度学习与卷积神经网络的基本概念、工作原理及其在多个领域的应用，并展望其未

发表于 07-02 18:19 •908次阅读

深度解析深度学习下的语义SLAM

随着深度学习技术的兴起，计算机视觉的许多传统领域都取得了突破性进展，例如目标的检测、识别和分类等领域。近年来，研究人员开始在视觉SLAM算法中引入深度学习技术，使得

发表于 04-23 17:18 •1290次阅读

为什么深度学习的效果更好？

导读深度学习是机器学习的一个子集，已成为人工智能领域的一项变革性技术，在从计算机视觉、自然语言处理到自动驾驶汽车等广泛的应用中取得了显著的成

发表于 03-09 08:26 •623次阅读

什么是深度学习？机器学习和深度学习的主要差异

2016年AlphaGo 击败韩国围棋冠军李世石，在媒体报道中，曾多次提及“深度学习”这个概念。

发表于 01-15 10:31 •1073次阅读

搜索历史

未来或许深度学习江湖统一真的不是梦

评论