深度学习——如何用LSTM进行文本分类-电子发烧友网

简介

主要内容包括

如何将文本处理为Tensorflow LSTM的输入

如何定义LSTM

用训练好的LSTM进行文本分类

代码

导入相关库

#coding=utf-8

importtensorflowastf

fromtensorflow.contribimportlearn

importnumpyasnp

fromtensorflow.python.ops.rnnimportstatic_rnn

fromtensorflow.python.ops.rnn_cell_implimportBasicLSTMCell

数据

# 数据

positive_texts=[

"我今天很高兴",

"我很开心",

"他很高兴",

"他很开心"

]

negative_texts=[

"我不高兴",

"我不开心",

"他今天不高兴",

"他不开心"

]

label_name_dict={

0:"正面情感",

1:"负面情感"

}

配置信息

embedding_size=50

num_classes=2

将文本和label数值化

# 将文本和label数值化

all_texts=positive_texts+negative_textslabels=[0]*len(positive_texts)+[1]*len(negative_texts)

max_document_length=4

vocab_processor=learn.preprocessing.VocabularyProcessor(max_document_length)

datas=np.array(list(vocab_processor.fit_transform(all_texts)))

vocab_size=len(vocab_processor.vocabulary_)

定义placeholder(容器)，存放输入输出

# 容器，存放输入输出

datas_placeholder=tf.placeholder(tf.int32, [None, max_document_length])

labels_placeholder=tf.placeholder(tf.int32, [None])

词向量处理

# 词向量表

embeddings=tf.get_variable("embeddings", [vocab_size, embedding_size],initializer=tf.truncated_normal_initializer)

# 将词索引号转换为词向量[None, max_document_length] => [None, max_document_length, embedding_size]

embedded=tf.nn.embedding_lookup(embeddings, datas_placeholder)

将数据处理为LSTM的输入格式

# 转换为LSTM的输入格式，要求是数组，数组的每个元素代表某个时间戳一个Batch的数据

rnn_input=tf.unstack(embedded, max_document_length,axis=1)

定义LSTM

# 定义LSTM

lstm_cell=BasicLSTMCell(20,forget_bias=1.0)

rnn_outputs, rnn_states=static_rnn(lstm_cell, rnn_input,dtype=tf.float32)

#利用LSTM最后的输出进行预测

logits=tf.layers.dense(rnn_outputs[-1], num_classes)

predicted_labels=tf.argmax(logits,axis=1)

定义损失和优化器

# 定义损失和优化器

losses=tf.nn.softmax_cross_entropy_with_logits(

labels=tf.one_hot(labels_placeholder, num_classes),

logits=logits

)

mean_loss=tf.reduce_mean(losses)

optimizer=tf.train.AdamOptimizer(learning_rate=1e-2).minimize(mean_loss)

执行

withtf.Session()assess:

# 初始化变量

sess.run(tf.global_variables_initializer())

训练# 定义要填充的数据

feed_dict={

datas_placeholder: datas,

labels_placeholder: labels

}

print("开始训练")

forstepinrange(100):

_, mean_loss_val=sess.run([optimizer, mean_loss],feed_dict=feed_dict)

ifstep%10==0:

print("step ={}tmean loss ={}".format(step, mean_loss_val))

预测

print("训练结束，进行预测")

predicted_labels_val=sess.run(predicted_labels,feed_dict=feed_dict)

fori, textinenumerate(all_texts):

label=predicted_labels_val[i]

label_name=label_name_dict[label]

print("{}=>{}".format(text, label_name))

审核编辑黄昊宇

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

LSTM

LSTM

+关注

关注
0

文章
60

浏览量
3874

pyhanlp文本分类与情感分析

得到一个分类器，利用该分类器，我们就可以进行文本分类了。IClassifier classifier = new NaiveBayesClassifier(model);目前分类器接口

发表于 02-20 15:37

TensorFlow的CNN文本分类

在TensorFlow中实现CNN进行文本分类(译)

发表于 10-31 09:27

NLPIR平台在文本分类方面的技术解析

一下NLPIR大数据语义智能分析系统是怎样实现文本分类的。NLPIR大数据语义智能分析平台的文本分类有两种模式：专家规则分类与机器学习分类。

发表于 11-18 17:46

基于apiori算法改进的knn文本分类方法

的，通过实例去学习分类在这方面就很有优势。一般的文本分类分为这几个步骤，首先是建立文档的表示模型，即通过若干特征去表示一个文本，因为一般情况下一篇文章都有着成百上千的特征向量，直接

发表于 11-09 10:25 •9次下载

基于apiori算法改进的knn<b class='flag-5'>文本分类</b>方法

运用多种机器学习方法比较短文本分类处理过程与结果差别

目标从头开始实践中文短文本分类，记录一下实验流程与遇到的坑运用多种机器学习（深度学习 + 传统机器学习）方法比较短

发表于 11-02 15:37 •5406次阅读

运用多种机器<b class='flag-5'>学习</b>方法比较短<b class='flag-5'>文本分类</b>处理过程与结果差别

textCNN论文与原理——短文本分类

是处理图片的torchvision，而处理文本的少有提及，快速处理文本数据的包也是有的，那就是torchtext［1］。下面还是结合上一个案例：【深度学习】textCNN论文与原理——

发表于 12-31 10:08 •2651次阅读

textCNN论文与原理——短<b class='flag-5'>文本分类</b>

文本分类的一个大型“真香现场”来了

任何标注数据啦！哇，真香！当前的文本分类任务需要利用众多标注数据，标注成本是昂贵的。而半监督文本分类虽然减少了对标注数据的依赖，但还是需要领域专家手动进行标注，特别是在类别数目很大的情况下。试想一下，我们人类是如何对新闻

发表于 02-05 11:02 •1962次阅读

基于深度神经网络的文本分类分析

　　随着深度学习技术的快速发展，许多研究者尝试利用深度学习来解决文本分类问题，特别是在卷积神经网络和循环神经网络方面，出现了许多新颖且有效的

发表于 03-10 16:56 •37次下载

基于<b class='flag-5'>深度</b>神经网络的<b class='flag-5'>文本分类</b>分析

集成WL-CNN和SL-Bi-LSTM的旅游问句文本分类算法

学习词序列子空间向量和句序列深层语义信息，通过多头注意力机制将两种深度学习模型进行集成以实现旅游问句文本的语法和语义信息互补，并通过 Sof

发表于 03-17 15:24 •6次下载

集成WL-CNN和SL-Bi-<b class='flag-5'>LSTM</b>的旅游问句<b class='flag-5'>文本分类</b>算法

融合文本分类和摘要的多任务学习摘要模型

文本摘要应包含源文本中所有重要信息，传统基于编码器-解码器架构的摘要模型生成的摘要准确性较低。根据文本分类和文本摘要的相关性，提出一种多任务学习

发表于 04-27 16:18 •11次下载

基于双通道词向量的卷积胶囊网络文本分类算法

的词向量与基于特定文本分类任务扩展的语境词向量作为神经网络的2个输入通道，并采用具有动态路由机制的卷积胶囊网络模型进行文本分类。在多个英文数据集上的实验结果表明，双通道的词向量训练方式优于单通道策略，与LSTM、RAE、 M

发表于 05-24 15:07 •6次下载

基于LSTM的表示学习-文本分类模型

的关键。为了获得妤的文本表示，提高文本分类性能，构建了基于LSTM的表示学习-文本分类模型，其中表示学习

发表于 06-15 16:17 •18次下载

PyTorch文本分类任务的基本流程

文本分类是NLP领域的较为容易的入门问题，本文记录文本分类任务的基本流程，大部分操作使用了**torch**和**torchtext**两个库。 ## 1. 文本数据预处理

发表于 02-22 14:23 •1226次阅读

NLP中的迁移学习：利用预训练模型进行文本分类

迁移学习彻底改变了自然语言处理（NLP）领域，允许从业者利用预先训练的模型来完成自己的任务，从而大大减少了训练时间和计算资源。在本文中，我们将讨论迁移学习的概念，探索一些流行的预训练模型，并通过实际示例演示如何使用这些模型进行文本分类

发表于 06-14 09:30 •506次阅读

卷积神经网络在文本分类领域的应用

在自然语言处理（NLP）领域，文本分类一直是一个重要的研究方向。随着深度学习技术的飞速发展，卷积神经网络（Convolutional Neural Network，简称CNN）在图像识别领域取得了

发表于 07-01 16:25 •926次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

深度学习——如何用LSTM进行文本分类

评论

pyhanlp文本分类与情感分析

TensorFlow的CNN文本分类

NLPIR平台在文本分类方面的技术解析

基于apiori算法改进的knn文本分类方法

运用多种机器学习方法比较短文本分类处理过程与结果差别

textCNN论文与原理——短文本分类

文本分类的一个大型“真香现场”来了

基于深度神经网络的文本分类分析

集成WL-CNN和SL-Bi-LSTM的旅游问句文本分类算法

融合文本分类和摘要的多任务学习摘要模型

基于双通道词向量的卷积胶囊网络文本分类算法

基于LSTM的表示学习-文本分类模型

PyTorch文本分类任务的基本流程

NLP中的迁移学习：利用预训练模型进行文本分类

卷积神经网络在文本分类领域的应用