深度学习：理论和关注机制的进展-电子发烧友网

一、深度学习：理论和关注机制的进展（Yoshua Bengio）

二、深度语义学习（Xiaodong He）

三、深度神经网络和GPU（Julie Bernauer）

四、深度视觉Keynote（Rahul Sukthankar）

五、学习和理解视觉表示（Andrea Vedaldi）

六、用于目标检测的可变深度卷积神经网络（Xiaogang Wang）

一直自称研究方向是“机器视觉、机器学习和深度学习”，然而除了做过几个相关的项目以外，感觉自己对这个领域并没有足够深入的认识和理解。趁着这个假期我要好好补补课了。今天先来看一些high level的内容，看看深度学习近期的最近进展以及其在机器视觉问题中的应用。学习资料来源于2015年CVPR的Deep Learning in Computer Vision Workshop 里invited speaker的slides，介绍了理论、应用、实现等方面的内容，应该是干货满满的。对于每一个talk，我会把内容框架记录下来（可以check一下对这些点是否有一定了解？），并记下一些个人觉得有趣的点。

一、深度学习：理论和关注机制的进展（Yoshua Bengio）

顾名思义，Bengio的talk主要讲了两个部分：理论进展和attention mechanism。理论进展介绍了：

分布式表示的“指数级”优点

深度的“指数级”优点

非凸优化和局部最小值

自编码器的概率解释

Attention 机制则介绍了在机器翻译、语音、图像、视频和记忆单元中的应用。

分布式表示和深度的优点Bengio之前的talk里已经讲过不少次了。简单的说，虽然类似local partition的方法可以得到有用的表示，浅层（2层）的神经网络也可近似任意的函数，但是分布式表示和深度的引入可以使特征表示和模型变得更加紧凑（compact），达到exponentially more statistically efficient的效果。

接下来提到了在深度学习中凸性质（convexity）可能并不是必要的。因为在高维空间中，鞍点（saddle point）的存在是主要问题，而局部最小值通常都会很接近全局最小值了。这部分的内容比较陌生，有兴趣可以看看最近的论文。

Attention 机制方面，讲了很多最新的进展。有很多相关的paper都非常有趣，我要找个时间好好看看这个系列了。一个基本的思路是：我们给每一层引入一个额外的输入，这个输入反应的是之前的一个加权，来表示它们的关注程度。在所谓的soft-attention中，这个加权的值可以直接通过BP训练得到。记下几句有趣的话：
- They (Attention mechanism) could be interesting for speech recognition and video, especially if we used them tocapture multiple time scales
- They could be used to help deal withlong-term dependencies, allowing some states to last for arbitrarily long

二、深度语义学习（Xiaodong He）

来自微软研究院的报告，主要内容：

学习文本的语义性（semantic）表示

知识库和问答系统

多模态（图片——文本）语义模型

讲座开始引入了一点有趣的motivation：一般我们测试机器是否能够理解图片（其实就是训练对了），方法是给图片标记标签然后计算其错误率。然而对于含有丰富内容的复杂场景来说，很难定义所有fine-grained的类别。因此，用自然语言的描述来测试对图片的理解是比较好的方式。

从 Word2Vec 到 Sent2Vec：Deep Structured Semantic Model (DSSM)，虽然我们不知道该如何标记一个句子的语义，但我们知道哪些句子的语义是比较接近的，因此文章通过优化一个基于相似性的目标函数来训练模型，使具有相近语义的句子产生距离相近的向量。接着还介绍了很多模型的细节和变种（卷积DSSM、递归DSSM），在此就不赘述了。

Deep Multimodal Similarity Model (DMSM)：将目标函数中两个句子的相似性改成句子和图片的相似性，便可以将DSSM扩展为一个多模态的模型。

MSR系统解决图片–>语言问题：

图片词语检测（Image word detection）

句子生成（Language generation）

全局语义性重排序（Global semantic re-ranking）

其中图片词语检测用了CNN＋MIL（Multiple Instance Learning）的方法，个人对此比较感兴趣，文章在此。

三、深度神经网络和GPU（Julie Bernauer）

换个口味，我们来看看NVIDIA关于深度学习和GPU的结合。总的来说，内容上跟NVIDIA官网上介绍深度学习的slides没什么不同。主要介绍了GPU有什么好处、GPU有多牛，还有一些支持GPU的库和工具。

一张比较好的图：

有用的工具：

Lasagne：基于theano上的开源库，能方便搭建一个深度网络。（Keras用得不太爽，可以试试这个）

四、深度视觉Keynote（Rahul Sukthankar）

来看看来自google的报告。这个talk里面的内容都不太熟悉，但是看起来都非常有意思。主要内容有：

用Peer Presssure方法来找high value mistake

结合深度学习和其他机器学习方法来更好解决视觉问题

首先来看看Peer Pressure。这是Rahul组最近的一个工作：The Virtues of Peer Pressure: A Simple Method for Discovering High-Value Mistakes。所谓“high-value mistake”，指的是那些我们认为训练好的模型可以准确预测的样本，结果它却“犯傻”了。因此这些样本也叫做“hard positive”，难以答对的样子。

从头说起，深度神经网络虽然有很多成功的应用，但同时也被发现很容易犯愚蠢的错误（比如上述的high-value mistake）。因此作者提出了Peer Pressure：集成＋对抗训练（emsembles＋adversarial training）的方法，来找到这些错误。简单来说就是，有一组训练于同样数据但是初始化或者结构不同的NN分类器（称作peers），如果一个样本出现其中一个NN输出与其它都不一致的情况（其它NN淡然都是一致的了），那么它应该就是high-value mistake。寻找这类错误当然是有价值的啦：（1）它可以用在发掘无标签的数据中（2）可以用来合成新的hard positive样本。

接下来提到将上述的方法应用到视频当中，找出anchor frame附近的hard positive 帧，用来训练更好的模型。其中具有semantic consistency的帧是通过Dense Trajectory来确定的。感觉挺有意思，可惜没找到相应的paper，那就上张图吧。

五、学习和理解视觉表示（Andrea Vedaldi）

来自牛津大学的报告，题目看起来还是很吸引人的。大纲如下（略有失望，好像就是讲CNN的）：

黑盒：一个将CNN用于图片文字识别的例子

架构：卷积和纹理

可视化：CNN所知道的图片

性质：对比CNN和视觉几何

第一个例子用CNN做OCR，感觉并不是很有趣。一个challenge是它的类别特别多（90k个类，对应90k个单词）。他们解决的办法是增量地训练网络，即先只训练5k个类，再逐步添加5k个新的类。。。效果好像还不错。

第二部分讲分辨纹理。提出用CNN的卷积层加上Fisher Vector（替换全连接层）来做，效果不错不错的。

第三部分可视化，看看就好。

第四部分还不错，讲的是图像变换对特征表示的影响。除去语义层面上的影响（特征的不变性跟任务相关），我们通常希望图像的特征表示不受图像变换的影响，如翻转和仿射变换。

类内差异大，包括：部分出现（part existence）、颜色、遮挡、变形

六、用于目标检测的可变深度卷积神经网络（Xiaogang Wang）

最后一个talk，讲的是我最近比较关注的目标检测问题，主要介绍他们的DeepID-Net。

第一部分他们的工作，用深度学习进行行人识别。其中着重讲了通过设计大小可变的卷积核来实现部分检测器（Part detector），对于行人识别应该是重要的一部分。

第二部分讲更general的目标检测问题。首先介绍目标检测的困难有（经筛选）：

对比了他们的DeepID-Net和RCNN：

后面详细的介绍了他们模型的每个环节。总体来说，感觉每个环节都比较tricky，暂时也看不到有什么insight，故先略过了。之后专门研究object detection时可能还会重新看看他们的工作。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器视觉

机器视觉

+关注

关注
162

文章
4433

浏览量
121099
深度学习

深度学习

+关注

关注
73

文章
5527

浏览量
121833

原文标题：学习笔记 ——深度学习和机器视觉

文章出处：【微信号：www_51qudong_com，微信公众号：机器视觉】欢迎添加关注！文章转载请注明出处。

军事应用中深度学习的挑战与机遇

人工智能尤其是深度学习技术的最新进展，加速了不同应用领域的创新与发展。深度学习技术的发展深刻影响了军事发展趋势，导致战争形式和模式发生重大变

发表于 02-14 11:15 •192次阅读

深度学习中的卷积神经网络模型

深度学习近年来在多个领域取得了显著的进展，尤其是在图像识别、语音识别和自然语言处理等方面。卷积神经网络作为深度学习的一个分支，因其在图像处理

发表于 11-15 14:52 •467次阅读

NPU在深度学习中的应用

随着人工智能技术的飞速发展，深度学习作为其核心驱动力之一，已经在众多领域展现出了巨大的潜力和价值。NPU（Neural Processing Unit，神经网络处理单元）是专门为深度学习

发表于 11-14 15:17 •1161次阅读

GPU深度学习应用案例

GPU在深度学习中的应用广泛且重要，以下是一些GPU深度学习应用案例：一、图像识别图像识别是深度学习

发表于 10-27 11:13 •615次阅读

AI大模型与深度学习的关系

AI大模型与深度学习之间存在着密不可分的关系，它们互为促进，相辅相成。以下是对两者关系的介绍：一、深度学习是AI大模型的基础技术支撑：深度

发表于 10-23 15:25 •1891次阅读

深度学习中的时间序列分类方法

时间序列分类（Time Series Classification, TSC）是机器学习和深度学习领域的重要任务之一，广泛应用于人体活动识别、系统监测、金融预测、医疗诊断等多个领域。随着深度

发表于 07-09 15:54 •1347次阅读

深度学习中的无监督学习方法综述

深度学习作为机器学习领域的一个重要分支，近年来在多个领域取得了显著的成果，特别是在图像识别、语音识别、自然语言处理等领域。然而，深度学习模型

发表于 07-09 10:50 •1110次阅读

基于AI深度学习的缺陷检测系统

在工业生产中，缺陷检测是确保产品质量的关键环节。传统的人工检测方法不仅效率低下，且易受人为因素影响，导致误检和漏检问题频发。随着人工智能技术的飞速发展，特别是深度学习技术的崛起，基于AI深度学

发表于 07-08 10:30 •1809次阅读

深度学习与nlp的区别在哪

深度学习和自然语言处理（NLP）是计算机科学领域中两个非常重要的研究方向。它们之间既有联系，也有区别。本文将介绍深度学习与NLP的区别。深度

发表于 07-05 09:47 •1167次阅读

深度学习中的模型权重

在深度学习这一充满无限可能性的领域中，模型权重（Weights）作为其核心组成部分，扮演着至关重要的角色。它们不仅是模型学习的基石，更是模型智能的源泉。本文将从模型权重的定义、作用、优化、管理以及应用等多个方面，深入探讨

发表于 07-04 11:49 •2737次阅读

深度学习常用的Python库

深度学习作为人工智能的一个重要分支，通过模拟人类大脑中的神经网络来解决复杂问题。Python作为一种流行的编程语言，凭借其简洁的语法和丰富的库支持，成为了深度学习研究和应用的首选工具。

发表于 07-03 16:04 •796次阅读

TensorFlow与PyTorch深度学习框架的比较与选择

深度学习作为人工智能领域的一个重要分支，在过去十年中取得了显著的进展。在构建和训练深度学习模型的过程中，

发表于 07-02 14:04 •1217次阅读

深度学习与传统机器学习的对比

在人工智能的浪潮中，机器学习和深度学习无疑是两大核心驱动力。它们各自以其独特的方式推动着技术的进步，为众多领域带来了革命性的变化。然而，尽管它们都属于机器学习的范畴，但

发表于 07-01 11:40 •1721次阅读

深度解析深度学习下的语义SLAM

随着深度学习技术的兴起，计算机视觉的许多传统领域都取得了突破性进展，例如目标的检测、识别和分类等领域。近年来，研究人员开始在视觉SLAM算法中引入深度

发表于 04-23 17:18 •1492次阅读

为什么深度学习的效果更好？

导读深度学习是机器学习的一个子集，已成为人工智能领域的一项变革性技术，在从计算机视觉、自然语言处理到自动驾驶汽车等广泛的应用中取得了显著的成功。深度

发表于 03-09 08:26 •735次阅读

搜索历史

深度学习：理论和关注机制的进展

评论

军事应用中深度学习的挑战与机遇

深度学习中的卷积神经网络模型

NPU在深度学习中的应用

GPU深度学习应用案例

AI大模型与深度学习的关系

深度学习中的时间序列分类方法

深度学习中的无监督学习方法综述

基于AI深度学习的缺陷检测系统

深度学习与nlp的区别在哪

深度学习中的模型权重

深度学习常用的Python库

TensorFlow与PyTorch深度学习框架的比较与选择

深度学习与传统机器学习的对比

深度解析深度学习下的语义SLAM

为什么深度学习的效果更好？