探讨深度文本分类之DPCNN原理与代码-电子发烧友网

导读

ACL2017 年中，腾讯 AI-lab 提出了Deep Pyramid Convolutional Neural Networks for Text Categorization(DPCNN)。

论文中提出了一种基于 word-level 级别的网络-DPCNN，由于 TextCNN不能通过卷积获得文本的长距离依赖关系，而论文中 DPCNN 通过不断加深网络，可以抽取长距离的文本依赖关系。

实验证明在不增加太多计算成本的情况下，增加网络深度就可以获得最佳的准确率。‍

DPCNN 结构

究竟是多么牛逼的网络呢？我们下面来窥探一下模型的芳容。

DPCNN 结构细节

模型是如何通过加深网络来捕捉文本的长距离依赖关系的呢？下面我们来一一道来。为了更加简单的解释 DPCNN，这里我先不解释是什么是 Region embedding，我们先把它当作 wordembedding。

等长卷积

首先交代一下卷积的的一个基本概念。一般常用的卷积有以下三类：

假设输入的序列长度为n，卷积核大小为m，步长(stride)为s,输入序列两端各填补p个零(zero padding),那么该卷积层的输出序列为(n-m+2p)/s+1。

(1)窄卷积(narrow convolution):步长s=1,两端不补零，即p=0，卷积后输出长度为n-m+1。

(2)宽卷积(wide onvolution)：步长s=1,两端补零p=m-1，卷积后输出长度n+m-1。

(3)等长卷积(equal-width convolution):步长s=1,两端补零p=(m-1)/2，卷积后输出长度为n。如下图所示，左右两端同时补零p=1,s=3。

池化

那么DPCNN是如何捕捉长距离依赖的呢？这里我直接引用文章的小标题——Downsampling with the number of featuremaps fixed。

作者选择了适当的两层等长卷积来提高词位 embedding 的表示的丰富性。然后接下来就开始Downsampling(池化)。

再每一个卷积块(两层的等长卷积)后，使用一个 size=3 和 stride=2 进行 maxpooling 进行池化。序列的长度就被压缩成了原来的一半。其能够感知到的文本片段就比之前长了一倍。

例如之前是只能感知3个词位长度的信息，经过1/2池化层后就能感知6个词位长度的信息啦，这时把 1/2 池化层和 size=3 的卷积层组合起来如图所示。

固定 feature maps(filters) 的数量

为什么要固定feature maps的数量呢?许多模型每当执行池化操作时，增加feature maps的数量，导致总计算复杂度是深度的函数。与此相反，作者对 feature map 的数量进行了修正，他们实验发现增加 feature map 的数量只会大大增加计算时间，而没有提高精度。

另外，夕小瑶小姐姐在知乎也详细的解释了为什么要固定featuremaps的数量。有兴趣的可以去知乎搜一搜，讲的非常透彻。

固定了 feature map 的数量，每当使用一个size=3和stride=2进行maxpooling进行池化时，每个卷积层的计算时间减半(数据大小减半)，从而形成一个金字塔。

这就是论文题目所谓的Pyramid。

好啦，看似问题都解决了，目标成功达成。剩下的我们就只需要重复的进行等长卷积+等长卷积+使用一个 size=3 和 stride=2 进行 maxpooling 进行池化就可以啦，DPCNN就可以捕捉文本的长距离依赖啦！

Shortcut connections with pre-activation

但是！如果问题真的这么简单的话，深度学习就一下子少了超级多的难点了。

(1) 初始化CNN的时，往往各层权重都初始化为很小的值，这导致了最开始的网络中，后续几乎每层的输入都是接近0，这时的网络输出没有意义；

(2) 小权重阻碍了梯度的传播，使得网络的初始训练阶段往往要迭代好久才能启动；

(3)就算网络启动完成，由于深度网络中仿射矩阵（每两层间的连接边）近似连乘，训练过程中网络也非常容易发生梯度爆炸或弥散问题。

当然，上述这几点问题本质就是梯度弥散问题。那么如何解决深度 CNN 网络的梯度弥散问题呢？当然是膜一下何恺明大神，然后把 ResNet 的精华拿来用啦！ResNet 中提出的shortcut-connection/ skip-connection/ residual-connection（残差连接）就是一种非常简单、合理、有效的解决方案。

类似地，为了使深度网络的训练成为可能，作者为了恒等映射，所以使用加法进行shortcut connections，即z+f(z)，其中f用的是两层的等长卷积。这样就可以极大的缓解了梯度消失问题。

另外，作者也使用了pre-activation，这个最初在何凯明的 “Identity Mappings in Deep Residual Networks 上提及，有兴趣的大家可以看看这个的原理。

直观上，这种“线性”简化了深度网络的训练，类似于 LSTM 中 constant errorcarousels 的作用。而且实验证明pre-activation 优于 post-activation。

整体来说，巧妙的结构设计，使得这个模型不需要为了维度匹配问题而担忧。

Region embedding

同时 DPCNN 的底层貌似保持了跟 TextCNN 一样的结构，这里作者将 TextCNN 的包含多尺寸卷积滤波器的卷积层的卷积结果称之为 Region embedding，意思就是对一个文本区域/片段（比如3gram）进行一组卷积操作后生成的embedding。

另外，作者为了进一步提高性能，还使用了tv-embedding (two-views embedding)进一步提高 DPCNN 的 accuracy。

上述介绍了 DPCNN 的整体架构，可见 DPCNN 的架构之精美。本文是在原始论文以及知乎上的一篇文章的基础上进行整理。

本文可能也会有很多错误，如果有错误，欢迎大家指出来！建议大家为了更好的理解 DPCNN，看一下原始论文和参考里面的知乎。

用 Keras 实现 DPCNN 网络

这里参考了一下 kaggle 的代码，模型一共用了七层，模型的参数与论文不太相同。这里滤波器通道个数为64(论文中为256)，具体的参数可以参考下面的代码，部分我写了注释。

DPCNN 实战

上面我们用 keras 实现了我们的 DPCNN 网络，这里我们借助 kaggle 的有毒评论文本分类竞赛来实战下我们的 DPCNN 网络。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

网络

网络

+关注

关注
14

文章
7611

浏览量
89408
cnn

cnn

+关注

关注
3

文章
353

浏览量
22385

原文标题：一文看懂深度文本分类之 DPCNN 原理与代码

文章出处：【微信号：AI_Thinker，微信公众号：人工智能头条】欢迎添加关注！文章转载请注明出处。

pyhanlp文本分类与情感分析

语料库本文语料库特指文本分类语料库，对应IDataSet接口。而文本分类语料库包含两个概念：文档和类目。一个文档只属于一个类目，一个类目可能含有多个文档。比如搜狗文本分类语料库迷你版.zip，下载前

发表于 02-20 15:37

TensorFlow的CNN文本分类

在TensorFlow中实现CNN进行文本分类(译)

发表于 10-31 09:27

NLPIR平台在文本分类方面的技术解析

文本分类问题就是将一篇文档归入预先定义的几个类别中的一个或几个，而文本的自动分类则是使用计算机程序来实现这种文本分类，即根据事先指定的规则和示例样本，自动从海量文档中识别并训练

发表于 11-18 17:46

基于文章标题信息的汉语自动文本分类

文本分类是文本挖掘的一个重要组成部分，是信息搜索领域的一项重要研究课题。该文提出一种基于文章标题信息的汉语自动文本分类方法，在HNC理论的领域概念框架下，通过标题

发表于 04-13 08:31 •10次下载

基于apiori算法改进的knn文本分类方法

随着互联网信息的飞速增长，文本分类变成了一项处理和资质文本信息的关键技术。文本分类技术可用于分类新闻，在互联网上寻找有趣的信息，或者通过超文本

发表于 11-09 10:25 •9次下载

textCNN论文与原理——短文本分类

是处理图片的torchvision，而处理文本的少有提及，快速处理文本数据的包也是有的，那就是torchtext［1］。下面还是结合上一个案例：【深度学习】textCNN论文与原理——短文本分

发表于 12-31 10:08 •2591次阅读

文本分类的一个大型“真香现场”来了

文本分类的一个大型“真香现场”来了：JayJay的推文《超强文本半监督MixText》中告诉大家不要浪费没有标注过的数据，但还是需要有标注数据的！但今天介绍的这篇paper，文本分类居然不需要

发表于 02-05 11:02 •1928次阅读

基于深度神经网络的文本分类分析

　　随着深度学习技术的快速发展，许多研究者尝试利用深度学习来解决文本分类问题，特别是在卷积神经网络和循环神经网络方面，出现了许多新颖且有效的分类方法。对基于

发表于 03-10 16:56 •37次下载

基于不同神经网络的文本分类方法研究对比

海量文本分析是实现大数据理解和价值发现的重要手段，其中文本分类作为自然语言处理的经典问题受到研究者广泛关注，而人工神经网络在文本分析方面的优异表现使其成为目前的主要研究方向。在此背景下，介绍卷积

发表于 05-13 16:34 •49次下载

基于LSTM的表示学习-文本分类模型

文本表示和分类是自然语言理解领域的研究热点。目前已有很多文本分类方法，包括卷积网络、递归网络、自注意力机制以及它们的结合。但是，复杂的网络并不能从根本上提高文本分类的性能，好的

发表于 06-15 16:17 •18次下载

基于注意力机制的新闻文本分类模型

基于注意力机制的新闻文本分类模型

发表于 06-27 15:32 •30次下载

带你从头构建文本分类器

文本分类是 NLP 中最常见的任务之一，它可用于广泛的应用或者开发成程序，例如将用户反馈文本标记为某种类别，或者根据客户文本语言自动归类。另外向我们平时见到的邮件垃圾过滤器也是文本分类

发表于 03-22 10:49 •3726次阅读

PyTorch文本分类任务的基本流程

文本分类是NLP领域的较为容易的入门问题，本文记录文本分类任务的基本流程，大部分操作使用了**torch**和**torchtext**两个库。 ## 1. 文本数据预处理

发表于 02-22 14:23 •1184次阅读

人工智能中文本分类的基本原理和关键技术

在本文中，我们全面探讨了文本分类技术的发展历程、基本原理、关键技术、深度学习的应用，以及从RNN到Transformer的技术演进。文章详细介绍了各种模型的原理和实战应用，旨在提供对文本分类

发表于 12-16 11:37 •1470次阅读

卷积神经网络在文本分类领域的应用

在自然语言处理（NLP）领域，文本分类一直是一个重要的研究方向。随着深度学习技术的飞速发展，卷积神经网络（Convolutional Neural Network，简称CNN）在图像识别领域取得了

发表于 07-01 16:25 •857次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

探讨深度文本分类之DPCNN原理与代码

评论

pyhanlp文本分类与情感分析

TensorFlow的CNN文本分类

NLPIR平台在文本分类方面的技术解析

基于文章标题信息的汉语自动文本分类

基于apiori算法改进的knn文本分类方法

textCNN论文与原理——短文本分类

文本分类的一个大型“真香现场”来了

基于深度神经网络的文本分类分析

基于不同神经网络的文本分类方法研究对比

基于LSTM的表示学习-文本分类模型

基于注意力机制的新闻文本分类模型

带你从头构建文本分类器

PyTorch文本分类任务的基本流程

人工智能中文本分类的基本原理和关键技术

卷积神经网络在文本分类领域的应用