噪音对比估计是通常用于训练带有大输出词汇的分类器的采样损失(sampling loss)。在大量可能的类上计算 softmax 是异常昂贵的。使用 NCE,可以将问题降低成二元分类问题,这可以通过训练分类器区别对待取样和「真实」分布以及人工生成的噪声分布来实现。
论文:噪音对比估计:一种用于非标准化统计模型的新估计原理
(Noise-contrastive estimation: A new estimation principlefor unnormalized statistical models )
论文:使用噪音对比估计有效地学习词向量(Learning word embeddings efficientlywith noise-contrastive estimation)
四十三、池化
参见最大池化(Max-Pooling)或平均池化(Average-Pooling)。
四十四、受限玻尔兹曼机(RBN:RestrictedBoltzmann Machine)
RBN 可被看作随机人工神经网络的概率图形模型。RBN 以无监督的形式学习数据的表征。RBN 由可见层、隐藏层和这些层中的二元神经元的连接构成。RBN 可以使用对比散度(contrastive divergence)进行有效的训练,这是梯度下降的一种近似。
论文:受限玻尔兹曼机简介(An Introduction to Restricted BoltzmannMachines)
四十五、循环神经网络(RNN:Recurrent NeuralNetwork)
RNN 模型通过隐藏状态(或称记忆)连续相互作用。它可以使用最多 N 个输入,并产生最多 N 个输出。例如,输入是一个句子,输出是每个单词的词性标注(part-of-speechtag)(N 到 N),或是这个句子的情感分类(N 到 1);再如,输入是单个图像,输出是描述该图像所对应一系列词语(1 到 N)。在每一个时间步骤中,RNN会基于当前输入和之前的隐藏状态,计算新的隐藏状态「记忆」。其中,「循环(recurrent)」一词是指,在每一步中都使用了同样的参数,该网络根据不同的输入执行同样的计算。
四十六、递归神经网络(Recursive Neural Network)
递归神经网络是循环神经网络的树状结构的一种泛化(generalization)。每一次递归都使用相同的权重。就像 RNN 一样,递归神经网络可以使用向后传播(backpropagation)进行端到端的训练。尽管可以学习树结构以将其用作优化问题的一部分,但递归神经网络通常被用在已有预定义结构的问题中,如自然语言处理的解析树中。
论文:使用递归神经网络解析自然场景和自然语言(Parsing Natural Scenes and NaturalLanguage with Recursive Neural Networks )
四十七、ReLU
线性修正单元(Rectified Linear Unit)常在深度神经网络中被用作激活函数。它们的定义是 f(x) = max(0, x) 。较于tanh 等函数,ReLU往往很稀疏(它们的活化可以很容易设置为 0),而且它们受到梯度消失问题的影响也更小。ReLU 主要被用在卷积神经网络中用作激活函数。ReLU 存在几种变体,如Leaky ReLUs、Parametric ReLU (PReLU) 或更为流畅的 softplus近似。
论文:深入研究修正器(Rectifiers):在 ImageNet 分类上超越人类水平的性能(Delving Deep into Rectifiers: Surpassing Human-Level Performance onImageNet Classification)
论文:修正非线性改进神经网络声学模型(Rectifier Nonlinearities Improve NeuralNetwork Acoustic Models )
论文:线性修正单元改进受限玻尔兹曼机(Rectified Linear Units ImproveRestricted Boltzmann Machines )
四十八、残差网络(ResNet)
深度残差网络(Deep Residual Network)赢得了2015 年的 ILSVRC 挑战赛。这些网络的工作方式是,引入跨层堆栈的快捷连接,让优化器可以学习更「容易」的残差映射(residual mapping)而非更为复杂的原映射(original mapping)。这些快捷连接与 Highway Layer 类似,但它们与数据无关且不会引入额外的参数或训练复杂度。ResNet在 ImageNet 测试集中实现了 3.57% 的错误率。
论文:用于图像识别的深度残差网络(Deep Residual Learning for ImageRecognition)
四十九、RMSProp
RMSProp 是一种基于梯度的优化算法。它与 Adagrad 类似,但引入了一个额外的衰减项抵消 Adagrad 下降的学习率。
五十、序列到序列(Seq2Seq)
序列到序列(Sequence-to-Sequence)模型读取一个序列(如一个句子)作为输入,然后产生另一个序列作为输出。它与标准的 RNN 不同。在标准的 RNN 中,输入序列会在网络开始产生任何输出之前被完整地读取。通常,Seq2Seq 通过两个分别作为编码器和解码器的 RNN 实现。神经网络机器翻译是典型的 Seq2Seq 模型。
论文:使用神经网络的序列到序列学习(Sequence to Sequence Learning withNeural Networks)
五十一、随机梯度下降(SGD:Stochastic GradientDescent)
随机梯度下降是用于训练阶段学习网络参数的基于梯度的优化算法。梯度通常使用反向传播算法计算。使用微小批量版本的 SGD,其中的参数更新基于批案例而非单个案例进行执行,这能增加计算效率。vanilla SGD 存在许多扩展,包括动量(Momentum)、Adagrad、rmsprop、Adadelta或 Adam。
论文:用于在线学习和随机优化的自适应次梯度方法(Adaptive Subgradient Methods forOnline Learning and Stochastic Optimization)
五十二、Softmax
Softmax 函数通常用于将原始分数(raw score)的矢量转换成用于分类的神经网络的输出层上的类概率(class probability)。它通过对归一化常数(normalizationconstant)进行指数化和相除运算而对分数进行规范化。如果我们正在处理大量的类,例如机器翻译中的大量词汇,计算归一化常数是很昂贵的。有许多种可以让计算更高效的替代选择,如分层 Softmax(Hierarchical Softmax),或使用基于取样的损失函数,如 NCE。
五十三、TensorFlow
TensorFlow是一个开源 C ++ / Python 软件库,用于使用数据流图的数值计算,尤其是深度神经网络。它由谷歌创建。在设计方面,它最类似于 Theano,但比 Caffe 或Keras 更低级。
五十四、Theano
Theano 是一个让你可以定义、优化和评估数学表达式的 Python 库。它包含许多用于深度神经网络的构造模块。Theano 是类似于 TensorFlow 的低级别库。更高级别的库包括Keras 和 Caffe。
五十五、梯度消失问题(Vanishing Gradient Problem)
梯度消失问题出现在使用梯度很小(在 0 到 1 的范围内)的激活函数的非常深的神经网络中,通常是循环神经网络。因为这些小梯度会在反向传播中相乘,它们往往在这些层中传播时「消失」,从而让网络无法学习长程依赖。解决这一问题的常用方法是,使用 ReLU 这样的不受小梯度影响的激活函数,或使用明确针对消失梯度问题的架构,如LSTM。这个问题的反面被称为梯度爆炸问题(exploding gradient problem)。
论文:训练循环神经网络的困难之处(On the difficulty of training RecurrentNeural Networks)
五十六、VGG
VGG 是在 2014 年 ImageNet 定位和分类比赛中分别获得第一和第二名的卷积神经网络模型。这个 VGG 模型包含 16-19 个权重层,并使用了大小为 3×3 和 1×1 的小型卷积过滤器。
论文:用于大规模图像识别的非常深度的卷积网络(Very Deep Convolutional Networksfor Large-Scale Image Recognition)
五十七、word2vec
word2vec 是一种试图通过预测文档中话语的上下文来学习词向量(word embedding)的算法和工具 (https://code.google.com/p/word2vec/)。最终得到的词矢量(word vector)有一些有趣的性质,例如vector('queen') ~=vector('king') - vector('man') + vector('woman') (女王~=国王-男人+女人)。两个不同的目标函数可以用来学习这些嵌入:Skip-Gram 目标函数尝试预测一个词的上下文,CBOW 目标函数则尝试从上下文预测这个词。
论文:向量空间中词汇表征的有效评估(Efficient Estimation of WordRepresentations in Vector Space)
论文:分布式词汇和短语表征以及他们的组合性(Distributed Representations of Wordsand Phrases and their Compositionality)
论文:解释 word2vec 参数学习(word2vecParameter Learning Explained)
评论
查看更多