传统方法和深度学习的情感分析-电子发烧友网

1.问题

Kaggle竞赛Bag of Words Meets Bags of Popcorn是电影评论（review）的情感分析，可以视作为短文本的二分类问题（正向、负向）。标注数据集长这样：

传统方法和深度学习的情感分析

评价指标是AUC。因此，在测试数据集上应该给出概率而不是类别；即为predict_proba而不是predict：

# random frorest result = forest.predict_proba(test_data_features)[:, 1] # not `predict` result = forest.predict(test_data_features)

采用BoW特征、RF (random forest)分类器，预测类别的AUC为0.84436，预测概率的AUC则为0.92154。

2.分析

传统方法

传统方法一般会使用到两种特征：BoW (bag of words)，n-gram。BoW忽略了词序，只是单纯对词计数；而n-gram则是考虑到了词序，比如bigram词对"dog run"、"run dog"是两个不同的特征。BoW可以用CountVectorizer向量化：

from sklearn.feature_extrac tion.text import CountVectorizer vectorizer = CountVectorizer(analyzer="word", tokenizer=None, preprocessor=None, stop_words=None, max_features=5000) train_data_features = vectorizer.fit_transform(clean_train_reviews)

在一个句子中，不同的词重要性是不同的；需要用TFIDF来给词加权重。n-gram特征则可以用TfidfVectorizer向量化：

from sklearn.feature_extraction.text import TfidfVectorizer vectorizer = TfidfVectorizer(max_features=40000, ngram_range=(1, 3), sub linear_tf=True) train_x = vectorizer.fit_transform(clean_train_reviews)

使用unigram、bigram、trigram特征 + RF分类器，AUC为0.93058；如果改成LR分类器，则AUC为0.96330。

深度学习

竞赛tutorial给出用word2vec词向量特征来做分类，并两个生成特征思路：

对每一条评论的所有词向量求平均，将其平均值作为改评论的特征；

对训练的词向量做聚类，然后对评论中的词类别进行计数，把这种bag-of-centroids作为特征。

把生成这种特征喂给分类器，进行分类。但是，这种方法的AUC不是太理想（在0.91左右）。无论是做平均还是聚类，一方面丢失了词向量的特征，另一方面忽略了词序还有词的重要性。因此，分类效果不如tfidf化的n-gram。

大神Mikolov在推出word2vec之后，又鼓捣出了doc2vec（gensim有实现）。简单地说，就是可以把一段文本变成一个向量。与word2vec不同的是，参数除了doc对应的词列表外，还有类别（TaggedDocument)。结果证明doc2vec的效果还不如word2vec生成特征，AUC只有0.87915。

doc2vec = Doc2Vec(sentences, workers=8, size=300, min_count=40, window=10, sample=1e-4)

pangolulu尝试把BoW与doc2vec做ensemble，采用stacking的思路——L1层BoW特征做LR分类、doc2vec特征做RBF-SVM分类，L2层将L1层的预测概率组合成一个新特征，喂给LR分类器；多次迭代后求平均。ensemble结构图如下：

传统方法和深度学习的情感分析

以上所有方法的AUC对比如下：

传统方法和深度学习的情感分析

3.参考资料：

[1] Zygmunt Z.,Classifying text with bag-of-words: a tutorial.

[2] Michael Czerny,Modern Methods for Sentiment Analysis.

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

深度学习

深度学习

+关注

关注
73

文章
5522

浏览量
121683

原文标题：【从传统方法到深度学习】情感分析

文章出处：【微信号：AI_shequ，微信公众号：人工智能爱好者社区】欢迎添加关注！文章转载请注明出处。

微表情识别-深度学习探索情感

来源：易百纳技术社区随着人工智能技术的不断进步，深度学习成为计算机视觉领域的重要技术。微表情识别作为人类情感分析的一种重要手段，受到了越来越多的关注。本文将介绍基于

发表于 08-14 17:27 •2318次阅读

微表情识别-<b class='flag-5'>深度</b><b class='flag-5'>学习</b>探索<b class='flag-5'>情感</b>

#硬声创作季 #深度学习深度学习基础-7.1.1 情感分析及传统求解方法

深度学习

水管工

发布于 :2022年10月27日 18:30:08

[7.1]--7.1情感分析及传统求解方法

深度学习

jf_60701476

发布于 :2022年12月01日 02:28:28

图像分类的方法之深度学习与传统机器学习

实际情况非常复杂，传统的分类方法不堪重负。现在，我们不再试图用代码来描述每一个图像类别，决定转而使用机器学习的方法处理图像分类问题。目前，许多研究者使用CNN等

发表于 09-28 19:43 •0次下载

基于深度学习的卷积神经网络模型分析文本的情感倾向

神经网络模型均未考虑句子的结构信息，并且在训练时很容易发生过拟合。针对这两方面的不足，使用基于深度学习的卷积神经网络模型分析文本的情感倾向，采用分段池化的策略将句子结构考虑进来，分段提

发表于 11-23 15:10 •11次下载

基于CD-RBM深度学习的产品评论情感分析

针对目前大部分情感分析技术需要人工标注建立情感词典提取情感特征的问题，提出一种基于对比散度一受限玻尔兹曼机（ CD-RBM）深度

发表于 12-20 11:24 •2次下载

基于CD-RBM<b class='flag-5'>深度</b><b class='flag-5'>学习</b>的产品评论<b class='flag-5'>情感</b><b class='flag-5'>分析</b>

主题种子词的情感分析方法

方法在自动构建领域主题种子词及主题文本基础上，利用主题种子词监督的情感分析模型（ SAA_SSW）实现主题及其关联情感的联合发现。实验结果表明，相比

发表于 01-04 14:33 •1次下载

基于上下文语境的微博情感分析

传统情感分析方法仅考虑单一文本，对长度短小且口语化严重的微博文本情感极性识别率较低。针对上述问题，提出一种结合上下文消息的

发表于 02-24 11:34 •0次下载

如何使用迁移学习的分层注意力网络情感分析来算法的详细资料概述

文本情感分析的目的是判断文本的情感类型。传统的基于神经网络的研究方法主要依赖于无监督训练的词向量，但这些词向量无法准确体现上下文语境关系;常

发表于 11-14 09:56 •19次下载

如何使用情感分析和深度学习实现宏观经济预测方法

和深度学习的预测方法（SA-LSTM）。首先考虑微博的强时效性，确定了微博爬取和情感分析的方法，

发表于 11-16 10:41 •15次下载

传统CV和深度学习方法的比较

深度学习推动了数字图像处理领域的极限。但是，这并不是说传统计算机视觉技术已经过时了。本文将分析每种方法的优缺点。本文的目的是促进有关是否应保

发表于 11-29 17:09 •1212次阅读

基于深度学习的情感语音识别模型优化策略

情感语音识别技术是一种将人类语音转化为情感信息的技术，其应用范围涵盖了人机交互、智能客服、心理健康监测等多个领域。随着人工智能技术的不断发展，深度学习在

发表于 11-09 16:34 •877次阅读

深度学习与传统机器学习的对比

在人工智能的浪潮中，机器学习和深度学习无疑是两大核心驱动力。它们各自以其独特的方式推动着技术的进步，为众多领域带来了革命性的变化。然而，尽管它们都属于机器学习的范畴，但

发表于 07-01 11:40 •1589次阅读

基于LSTM神经网络的情感分析方法

情感分析是自然语言处理（NLP）领域的一项重要任务，旨在识别和提取文本中的主观信息，如情感倾向、情感强度等。随着深度

发表于 11-13 10:15 •689次阅读

传统机器学习方法和应用指导

用于开发生物学数据的机器学习方法。尽管深度学习（一般指神经网络算法）是一个强大的工具，目前也非常流行，但它的应用领域仍然有限。与深度学习相比

发表于 12-30 09:16 •439次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

传统方法和深度学习的情感分析

评论

微表情识别-深度学习探索情感

#硬声创作季 #深度学习深度学习基础-7.1.1 情感分析及传统求解方法

[7.1]--7.1情感分析及传统求解方法

图像分类的方法之深度学习与传统机器学习

基于深度学习的卷积神经网络模型分析文本的情感倾向

基于CD-RBM深度学习的产品评论情感分析

主题种子词的情感分析方法

基于上下文语境的微博情感分析

如何使用迁移学习的分层注意力网络情感分析来算法的详细资料概述

如何使用情感分析和深度学习实现宏观经济预测方法

传统CV和深度学习方法的比较

基于深度学习的情感语音识别模型优化策略

深度学习与传统机器学习的对比

基于LSTM神经网络的情感分析方法

传统机器学习方法和应用指导