0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

序列数据和文本的深度学习

人工智能君 来源:人工智能君 作者:人工智能君 2022-07-15 09:47 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

用于构建深度学习模型的不同文本数据表示法:
理解递归神经网络及其不同实现,例如长短期记忆网络(LSTM)和门控循环单元(Gated Recurrent Unit,GRU),它们为大多数深度学习模型提供文本和序列化数据;
为序列化数据使用一维卷积。
可以使用RNN构建的一些应用程序如下所示。
文档分类器:识别推文或评论的情感,对新闻文章进行分类。
序列到序列的学习:例如语言翻译,将英语转换成法语等任务。
时间序列预测:根据前几天商店销售的详细信息,预测商店未来的销售情况。

1使用文本数据
文本是常用的序列化数据类型之一。文本数据可以看作是一个字符序列或词的序列。对大多数问题,我们都将文本看作词序列。深度学习序列模型(如RNN及其变体)能够从文本数据中学习重要的模式。这些模式可以解决类似以下领域中的问题:
自然语言理解;
文献分类;
情感分类。
这些序列模型还可以作为各种系统的重要构建块,例如问答(Question and Answering,QA)系统。
虽然这些模型在构建这些应用时非常有用,但由于语言固有的复杂性,模型并不能真正理解人类的语言。这些序列模型能够成功地找到可执行不同任务的有用模式。将深度学习应用于文本是一个快速发展的领域,每月都会有许多新技术出现。我们将会介绍为大多数现代深度学习应用提供支持的基本组件。
与其他机器学习模型一样,深度学习模型并不能理解文本,因此需要将文本转换为数值的表示形式。将文本转换为数值表示形式的过程称为向量化过程,可以用不同的方式来完成,概括如下:
将文本转换为词并将每个词表示为向量;
将文本转换为字符并将每个字符表示为向量;
创建词的n-gram并将其表示为向量。
文本数据可以分解成上述的这些表示。每个较小的文本单元称为token,将文本分解成token的过程称为分词(tokenization)。在Python中有很多强大的库可以用来进行分词。一旦将文本数据转换为token序列,那么就需要将每个token映射到向量。one-hot(独热)编码和词向量是将token映射到向量最流行的两种方法。图6.1总结了将文本转换为向量表示的步骤。

poYBAGLQxUaAZ3AHAAFJHZSB7IU186.png

图6.1
下面介绍分词、n-gram表示法和向量化的更多细节。
6.1.1分词
将给定的一个句子分为字符或词的过程称为分词。诸如spaCy等一些库,它们为分词提供了复杂的解决方案。让我们使用简单的Python函数(如split和list)将文本转换为token。
为了演示分词如何作用于字符和词,让我们看一段关于电影Thor:Ragnarok的小评论。我们将对这段文本进行分词处理:
The action scenes were top notch in this movie. Thor has never been this epic in the MCU.He does some pretty epic sh*t in this movie and he is definitely not under-powered anymore.Thor in unleashed in this, I love that.
1.将文本转换为字符
Python的list函数接受一个字符串并将其转换为单个字符的列表。这样做就将文本转换为了字符。下面是使用的代码和结果:
以下是结果:
结果展示了简单的Python函数如何将文本转换为token。
2.将文本转换为词
我们将使用Python字符串对象函数中的split函数将文本分解为词。split函数接受一个参数,并根据该参数将文本拆分为token。在我们的示例中将使用空格作为分隔符。以下代码段演示了如何使用Python的split函数将文本转换为词:
在前面的代码中,我们没有使用任何的分隔符,默认情况下,split函数使用空格来分隔。
3.n-gram表示法
我们已经看到文本是如何表示为字符和词的。有时一起查看两个、三个或更多的单词非常有用。n-gram是从给定文本中提取的一组词。在n-gram中,n表示可以一起使用的词的数量。看一下bigram(当n= 2时)的例子,我们使用Python的nltk包为thor_review生成一个bigram,以下代码块显示了bigram的结果以及用于生成它的代码:
ngrams函数接受一个词序列作为第一个参数,并将组中词的个数作为第二个参数。以下代码块显示了trigram表示的结果以及用于实现它的代码:
在上述代码中唯一改变的只有函数的第二个参数n的值。
许多有监督的机器学习模型,例如朴素贝叶斯(Naive Bayes),都是使用n-gram来改善它的特征空间。n-gram同样也可用于拼写校正和文本摘要的任务。
n-gram表示法的一个问题在于它失去了文本的顺序性。通常它是和浅层机器学习模型一起使用的。这种技术很少用于深度学习,因为RNN和Conv1D等架构会自动学习这些表示法。
6.1.2向量化
将生成的token映射到数字向量有两种流行的方法,称为独热编码和词向量(word embedding,也称之为词嵌入)。让我们通过编写一个简单的Python程序来理解如何将token转换为这些向量表示。我们还将讨论每种方法的各种优缺点。
1.独热编码
在独热编码中,每个token都由长度为N的向量表示,其中N是词表的大小。词表是文档中唯一词的总数。让我们用一个简单的句子来观察每个token是如何表示为独热编码的向量的。下面是句子及其相关的token表示:
An apple a day keeps doctor away said the doctor.
上面句子的独热编码可以用表格形式进行表示,如下所示。
An 100000000
apple 010000000
a 001000000
day 000100000
keeps 000010000
doctor 000001000
away 000000100
said 000000010
the 000000001
该表描述了token及其独热编码的表示。因为句子中有9个唯一的单词,所以这里的向量长度为9。许多机器学习库已经简化了创建独热编码变量的过程。我们将编写自己的代码来实现这个过程以便更易于理解,并且我们可以使用相同的实现来构建后续示例所需的其他功能。以下代码包含Dictionary类,这个类包含了创建唯一词词表的功能,以及为特定词返回其独热编码向量的函数。让我们来看代码,然后详解每个功能:
上述代码提供了3个重要功能。
初始化函数__init__创建一个word2idx字典,它将所有唯一词与索引一起存储。idx2word列表存储的是所有唯一词,而length变量则是文档中唯一词的总数。
在词是唯一的前提下,add_word函数接受一个单词,并将它添加到word2idx和idx2word中,同时增加词表的长度。
onehot_encoded函数接受一个词并返回一个长度为N,除当前词的索引外其余位置全为0的向量。比如传如的单词的索引是2,那么向量在索引2处的值是1,其他索引处的值全为0。
在定义好了Dictionary类后,准备在thor_review数据上使用它。以下代码演示了如何构建word2idx以及如何调用onehot_encoded函数:
上述代码的输出如下:
单词were的独热编码如下所示:
独热表示的问题之一就是数据太稀疏了,并且随着词表中唯一词数量的增加,向量的大小迅速增加,这也是它的一种限制,因此独热很少在深度学习中使用。
2.词向量
词向量是在深度学习算法所解决的问题中,一种非常流行的用于表示文本数据的方式。词向量提供了一种用浮点数填充的词的密集表示。向量的维度根据词表的大小而变化。通常使用维度大小为50、100、256、300,有时为1000的词向量。这里的维度大小是在训练阶段需要使用的超参数。
如果试图用独热表示法来表示大小为20000的词表,那么将得到20000×20000个数字,并且其中大部分都为0。同样的词表可以用词向量表示为20000×维度大小,其中维度的大小可以是10、50、300等。
一种方法是为每个包含随机数字的token从密集向量开始创建词向量,然后训练诸如文档分类器或情感分类器的模型。表示token的浮点数以一种可以使语义上更接近的单词具有相似表示的方式进行调整。为了理解这一点,我们来看看图6.2,它画出了基于5部电影的二维点图的词向量。

poYBAGLQxbmAW7ZYAAAtSWtggwY721.png

图6.2
图6.2显示了如何调整密集向量,以使其在语义上相似的单词具有较小的距离。由于Superman、Thor和Batman等电影都是基于漫画的动作电影,所以这些电影的向量更为接近,而电影Titanic的向量离动作电影较远,离电影Notebook更近,因为它们都是浪漫型电影。
在数据太少时学习词向量可能是行不通的,在这种情况下,可以使用由其他机器学习算法训练好的词向量。由另一个任务生成的向量称为预训练词向量。下面将学习如何构建自己的词向量以及使用预训练词向量。

审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 序列
    +关注

    关注

    0

    文章

    70

    浏览量

    20268
  • 深度学习
    +关注

    关注

    73

    文章

    5610

    浏览量

    124656
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    深度学习为什么还是无法处理边缘场景?

    [首发于智驾最前沿微信公众号]虽然自动驾驶车辆已经完成了数百万公里的行驶测试,深度学习也已被普遍应用,但依然会在一些看似简单的场景中犯下低级错误。比如在遇到一些从未见到过的边缘场景时,系统可能会
    的头像 发表于 05-04 10:16 2094次阅读
    <b class='flag-5'>深度</b><b class='flag-5'>学习</b>为什么还是无法处理边缘场景?

    深度解析DS1830/A复位序列器:特性、操作与应用

    深度解析DS1830/A复位序列器:特性、操作与应用 在电子系统设计中,复位序列器是确保系统稳定启动和可靠运行的关键组件。今天我们就来深入探讨DALLAS SEMICONDUCTOR(现MAXIM
    的头像 发表于 02-28 15:10 290次阅读

    自然语言处理NLP的概念和工作原理

    自然语言处理 (NLP) 是人工智能 (AI) 的一个分支,它会教计算机如何理解口头和书面形式的人类语言。自然语言处理将计算语言学与机器学习深度学习相结合来处理语音和文本数据,这些
    的头像 发表于 01-29 14:01 627次阅读
    自然语言处理NLP的概念和工作原理

    机器学习深度学习中需避免的 7 个常见错误与局限性

    无论你是刚入门还是已经从事人工智能模型相关工作一段时间,机器学习深度学习中都存在一些我们需要时刻关注并铭记的常见错误。如果对这些错误置之不理,日后可能会引发诸多麻烦!只要我们密切关注数据
    的头像 发表于 01-07 15:37 368次阅读
    机器<b class='flag-5'>学习</b>和<b class='flag-5'>深度</b><b class='flag-5'>学习</b>中需避免的 7 个常见错误与局限性

    穿孔机顶头检测仪 机器视觉深度学习

    顶头状态。 检测顶头算法 引入人工智深度学习技术,通过Keras实现卷积神经网络(CNN),用Numpy实现采集数据的训练,得到符合现场需求的模型,进一步提升检测的准确性和现场的适应性。 应用范围
    发表于 12-22 14:33

    一文读懂LSTM与RNN:从原理到实战,掌握序列建模核心技术

    在AI领域,文本翻译、语音识别、股价预测等场景都离不开序列数据处理。循环神经网络(RNN)作为最早的序列建模工具,开创了“记忆历史信息”的先河;而长短期记忆网络(LSTM)则通过创新设
    的头像 发表于 12-09 13:56 1918次阅读
    一文读懂LSTM与RNN:从原理到实战,掌握<b class='flag-5'>序列</b>建模核心技术

    如何深度学习机器视觉的应用场景

    深度学习视觉应用场景大全 工业制造领域 复杂缺陷检测:处理传统算法难以描述的非标准化缺陷模式 非标产品分类:对形状、颜色、纹理多变的产品进行智能分类 外观质量评估:基于学习的外观质量标准判定 精密
    的头像 发表于 11-27 10:19 353次阅读

    labview怎么读取UTF-16 LE 文本数据

    各位大佬 请问labview怎么读取UTF-16 LE 文本数据 直接读数据出来会有空格 但是空格无法删除,请问怎么获取UTF-16 LE格式数据
    发表于 10-10 11:23

    如何在机器视觉中部署深度学习神经网络

    图 1:基于深度学习的目标检测可定位已训练的目标类别,并通过矩形框(边界框)对其进行标识。 在讨论人工智能(AI)或深度学习时,经常会出现“神经网络”、“黑箱”、“标注”等术语。这些概
    的头像 发表于 09-10 17:38 1079次阅读
    如何在机器视觉中部署<b class='flag-5'>深度</b><b class='flag-5'>学习</b>神经网络

    深度学习对工业物联网有哪些帮助

    、实施路径三个维度展开分析: 一、深度学习如何突破工业物联网的技术瓶颈? 1. 非结构化数据处理:解锁“沉睡数据”价值 传统困境 :工业物联网中70%以上的
    的头像 发表于 08-20 14:56 1251次阅读

    自动驾驶中Transformer大模型会取代深度学习吗?

    [首发于智驾最前沿微信公众号]近年来,随着ChatGPT、Claude、文心一言等大语言模型在生成文本、对话交互等领域的惊艳表现,“Transformer架构是否正在取代传统深度学习”这一话题一直被
    的头像 发表于 08-13 09:15 4392次阅读
    自动驾驶中Transformer大模型会取代<b class='flag-5'>深度</b><b class='flag-5'>学习</b>吗?

    飞书开源“RTV”富文本组件 重塑鸿蒙应用富文本渲染体验

    更高效的富文本解决方案。 富文本作为内容展示和信息交互的重要形式,在内容创作、办公协作、教育学习、企业应用等多种复杂业务场景中扮演着重要角色。随着鸿蒙生态应用类型的不断丰富,富文本渲染
    的头像 发表于 07-11 15:20 806次阅读
    飞书开源“RTV”富<b class='flag-5'>文本</b>组件 重塑鸿蒙应用富<b class='flag-5'>文本</b>渲染体验

    提高IT运维效率,深度解读京东云AIOps落地实践(异常检测篇)

    基于深度学习对运维时序指标进行异常检测,快速发现线上业务问题 时间序列的异常检测是实际应用中的一个关键问题,尤其是在 IT 行业。我们没有采用传统的基于阈值的方法来实现异常检测,而是通过深度
    的头像 发表于 05-22 16:38 1180次阅读
    提高IT运维效率,<b class='flag-5'>深度</b>解读京东云AIOps落地实践(异常检测篇)

    快手上线鸿蒙应用高性能解决方案:数据序列化性能提升90%

    了其数据序列化性能,在典型场景下能够降低约90%的数据转换耗时,为鸿蒙应用带来了更流畅的用户体验和更敏捷的交互响应。 在鸿蒙应用开发过程中,“class-transformer”三方库被广泛应用于将
    发表于 05-15 10:01