探究对深度学习模型VAE的时序性解耦-电子发烧友网

现代深度学习架构一直被描述为一个黑匣子：被输入数据，并期望从中得到一些结果。然而，由于此类架构存在许多的复杂性，过程中发生的事情，通常难以解释和分析。这已发展成为整个社会未能广泛接受深度学习的主要原因之一，尤其是对于关键任务应用程序。

因此，“黑匣子”的解体已成为机器学习研究人员的一个重大开放问题，并且是该领域当前感兴趣的问题之一，这一研究领域通常被称为机器学习架构的“可解释性”。在本文中，我们将讨论可解释性研究中的一个重要主题，即解耦问题。

Disentangled

Sequential VAE

光的解耦（Ddisentangled）

我们举个常见的例子：在日常生活中，太阳光看起来是白色的，但是如果我们让阳光通过三棱镜，就会发现阳光分别折射出多种色彩。这说明白光其实是多种颜色混合的体现，而我们可以通过三棱镜把它分解成基本七种颜色，其中包括红、绿、蓝三原色。

我们继续聊聊白光：在广泛意义上说光是由RGB三种颜色组成的。这也就定义了光的解耦过程：光可以分离成R、G、B三种颜色，同时我们也可以用这三种颜色，进行不同程度的叠加，产生丰富而广泛的颜色。

计算机定义颜色时R、G、 B三种成分的取值范围是0-255，0表示没有刺激量，255表示刺激量达最大值。R、G、B均为255时就合成了白光，R、G、B均为0时就形成了黑色。在这个区间范围内，我们可以通过任意的数值组合构造出无数种不同的颜色，让我们的生活充满色彩。

白光和解耦又有什么关系呢？那关系就大了！我们下面简单聊一下一种深度学习模型——变分自编码器模型（VAE：variational autoencoder），然后用它来解释解耦。

什么是VAE？

什么是VAE呢？那要先从AE开始说起了。

AE（Autoencoder）

上图由两个部分组成，第一个部分是编码器（Encoder），第二部分是解码器（Decoder），图片经过编码器得到一个潜在的编码（code），编码再通过解码器还原输入的图片，因此得到的编码就是图片在一个潜在空间的表示。而编码器和解码器就是由神经网络组成的。图中例子就是希望能够生成一张一样的图片。

VAE （Variational Autoencoder）

变分编码器是自动编码器的升级版本，其结构跟自动编码器相似，也由编码器和解码器构成。在AE中，输入一个图片得到一个的编码（code），但这个编码是一个固定的编码，使得模型没有很好的泛化功能。所以VAE引入了一种新的方式有效解决了上述的问题，就是将编码问题变成一个分布问题，具体操作是在AE的基础上增加一个限制，迫使编码器得到的编码（code）能够粗略地遵循一个标准正态分布，这就是其与一般的自动编码器最大的不同。

这样我们生成一张新图片就很简单了，我们只需要给它一个标准正态分布的随机隐含向量，这样通过解码器就能够生成我们想要的图片，而不需要给它一张原始图片先进行编码。

VAE的演变增加了模型的泛化性，以上图VAE的过程为例，当输入的图片是猫时，通过猫的特征来生成新的图片，VAE的好处就在于当输入的图片不是完整的图片时（训练集外），它依旧可以还原成原来的样子。

在深度学习中，不管是什么样的模型，数据都很重要，而VAE的好处就在于：

它可以通过编码和解码的过程，通过抽样，生成新的数据。这样对于机器学习就有了更多的数据支撑从而得到更好的模型效果。

VAE在中间层会得到一个编码（code），也就是一个语义层，我们可以通过对于这个语义的理解，从而达到图片的分类、变换的效果。

如果我们类比光的解耦（将光分离成R、G、B三种颜色），VAE（Variational Autoencoder）就可以理解成是深度学习框架的三棱镜。

这是为什么呢？我们先给一个浅显的技术介绍，然后再回来聊颜色分离。

VAE是一种深度学习框架，更具体来说，它是一种生成模型。生成模型的操作很简单：它可以读取数据（多为图片），抽取数据的特征，然后自动生成有这些特征的新数据。我们这里关心的是提取特征这个环节。大多生成模型的特征提取模式，便是经过所谓的“潜在变量”（latent variables）来编码提取到的特征。

这里的一个明显的问题便是：我们怎么判断正式数据里的某一个特征对应的是哪个语义变量？我们可以回到类比成颜色分离和生成的过程，将一种颜色先编码（encoder）成R，G，B，再通过解码（decoder）形成一种颜色。

Disentangled Sequential VAE

随着对VAE的研究，越来越多的研究重点就放在了如何在VAE的基础上做到disentangled的过程。以下简单介绍一下深兰科学院对于该项目的研究内容：对于时序的数据解耦出其数据的动态信息和静态信息，并理解静态信息和动态信息的语义，后续团队的目标也是基于当前的项目，进行这个主流方向的基础研究。

本项目采用的数据是Sprites，这是个具有时序性的数据。小精灵有着不同的颜色和动作，团队的任务就是通过这些小精灵的图片，解耦出小精灵的动态信息（小精灵的动作）和静态信息（小精灵的颜色）。通过深度学习来获得小精灵动静态信息的语义，并理解这语义从而生成新的小精灵。

如下图所示，通过深度学习得到小精灵的动态信息和静态信息，并改变他们的值的生成效果（上排是原始数据，下排是生成数据）。

1. 改变静态信息（颜色）

2.改变动态信息

对于VAE时序性解耦的工作可以更容易地说明神经网络的可解释性，这样的任务不仅可以对神经网络的基础研究作出贡献，还可以应用到很多人工智能的项目中，例如对图像视频的处理；动静的解耦可以实现换脸等效果；在自然语言处理中，可以改变声音的种类等。

编辑：jq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

解码器

解码器

+关注

关注
9

文章
1143

浏览量
40743
数据

数据

+关注

关注
8

文章
7035

浏览量
89049
计算机

计算机

+关注

关注
19

文章
7494

浏览量
87982
Code

Code

+关注

关注
0

文章
69

浏览量
15395
深度学习

深度学习

+关注

关注
73

文章
5503

浏览量
121178

原文标题：探究 | 对深度学习模型VAE的时序性解耦

文章出处：【微信号：kmdian，微信公众号：深兰科技】欢迎添加关注！文章转载请注明出处。

深度学习模型的鲁棒性优化

深度学习模型的鲁棒性优化是一个复杂但至关重要的任务，它涉及多个方面的技术和策略。以下是一些关键的优化方法：一、数据预处理与增强数据清洗：去除数据中的噪声和异常值，这是提高

发表于 11-11 10:25 •263次阅读

GPU深度学习应用案例

能力，可以显著提高图像识别模型的训练速度和准确性。例如，在人脸识别、自动驾驶等领域，GPU被广泛应用于加速深度学习模型的训练和推理过程。二

发表于 10-27 11:13 •398次阅读

FPGA加速深度学习模型的案例

FPGA（现场可编程门阵列）加速深度学习模型是当前硬件加速领域的一个热门研究方向。以下是一些FPGA加速深度学习

发表于 10-25 09:22 •229次阅读

AI大模型与深度学习的关系

人类的学习过程，实现对复杂数据的学习和识别。AI大模型则是指模型的参数数量巨大，需要庞大的计算资源来进行训练和推理。深度

发表于 10-23 15:25 •745次阅读

FPGA做深度学习能走多远？

的应用场景。 • 可重构性：在深度学习高速迭代的情况下，FPGA 比一些专用芯片（如 ASIC）具有更强的灵活性。当深度学习算法或

发表于 09-27 20:53

【《大语言模型应用指南》阅读体验】+ 基础知识学习

一些局限性。例如，模型可能无法完全理解文本中的深层含义和语境信息；同时，由于训练数据可能存在偏差和噪声，生成的答案也可能存在不准确或误导性的情况。总结以下，大语言模型通过深度

发表于 08-02 11:03

深度学习模型有哪些应用场景

深度学习模型作为人工智能领域的重要分支，已经在多个应用场景中展现出其巨大的潜力和价值。这些应用不仅改变了我们的日常生活，还推动了科技进步和产业升级。以下将详细探讨深度

发表于 07-16 18:25 •1966次阅读

深度学习模型量化方法

深度学习模型量化是一种重要的模型轻量化技术，旨在通过减少网络参数的比特宽度来减小模型大小和加速推理过程，同时尽量保持

发表于 07-15 11:01 •497次阅读

<b class='flag-5'>深度</b><b class='flag-5'>学习</b><b class='flag-5'>模型</b>量化方法

深度学习模型中的过拟合与正则化

在深度学习的广阔领域中，模型训练的核心目标之一是实现对未知数据的准确预测。然而，在实际应用中，我们经常会遇到一个问题——过拟合（Overfitting）。过拟合是指模型在训练数据上表现

发表于 07-09 15:56 •959次阅读

深度学习中的模型权重

在深度学习这一充满无限可能性的领域中，模型权重（Weights）作为其核心组成部分，扮演着至关重要的角色。它们不仅是模型

发表于 07-04 11:49 •1318次阅读

深度学习的典型模型和训练过程

深度学习作为人工智能领域的一个重要分支，近年来在图像识别、语音识别、自然语言处理等多个领域取得了显著进展。其核心在于通过构建复杂的神经网络模型，从大规模数据中自动学习并提取特征，进而实

发表于 07-03 16:06 •1484次阅读

深度学习模型训练过程详解

深度学习模型训练是一个复杂且关键的过程，它涉及大量的数据、计算资源和精心设计的算法。训练一个深度学习模型

发表于 07-01 16:13 •1279次阅读

深度学习的模型优化与调试方法

深度学习模型在训练过程中，往往会遇到各种问题和挑战，如过拟合、欠拟合、梯度消失或爆炸等。因此，对深度学习

发表于 07-01 11:41 •826次阅读

为什么深度学习的效果更好？

导读深度学习是机器学习的一个子集，已成为人工智能领域的一项变革性技术，在从计算机视觉、自然语言处理到自动驾驶汽车等广泛的应用中取得了显著的成功。深度

发表于 03-09 08:26 •625次阅读

目前主流的深度学习算法模型和应用案例

深度学习在科学计算中获得了广泛的普及，其算法被广泛用于解决复杂问题的行业。所有深度学习算法都使用不同类型的神经网络来执行特定任务。

发表于 01-03 10:28 •1961次阅读

搜索历史

探究对深度学习模型VAE的时序性解耦

评论