0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据科学家必会的六大NLP技术!

jf_uPRfTJDa 来源:CSDN 2023-02-27 13:51 次阅读

自然语言处理(Natural Language Processing,简称NLP)可能是当前数据科学中最受关注的子领域。

NLP不仅有趣、有前途,而且还可以改变我们看待技术的方式。不仅是技术,它还可以改变我们理解人类语言的方式。

自然语言处理是人类语言与技术的结合,如今该项技术在研究和行业领域受到的关注越来越多。自从第一台计算机诞生以来,人们就憧憬着创造出能够理解人类语言的计算机程序。

机器学习人工智能领域的进步推动了自然语言处理的发展,以及人们持续高涨的兴趣。随着自然语言处理为我们的日常生活带来越来越多的便利,人们的兴趣也会越来越高。亚马逊的 Alexa、苹果的 Siri 以及 Google 助手等一系列技术产品的问世,充分表明了这项技术掀起的热浪。

事实上,自然语言处理也是我进入数据科学的缘由。我一直着迷于语言本身及其随着人类的经验和时间的发展。我想了解如何教计算机理解我们的语言,不仅如此,而且我还希望计算机能够使用人类的语言来和我们交流,并理解我们。

在本文中,我将介绍 6 种自然语言处理的基本技术,如果你也想涉足该领域,则应该掌握这些技术。

词形还原与词干提取

数据准备是所有 NLP 项目都必不可少的工作,常见的方式有两种:词形还原与词干提取,你可以选择其中一个方式。它们代表了该领域的核心概念,是你成为 NLP 大师需要学习的第一项技术。

初学者往往会混淆这两种技术。虽然二者有相似之处,但是有很大不同。

词干提取(Stemming):词干提取是去除词缀得到词根的过程,即得到单词最一般的写法,比如:argue、argued、argues、arguing 和 argus 的词干为“argu”。执行词干提取的算法有很多,这些算法需要考虑单词常见的前缀与后缀。英语中常用的算法是 Porter 词干提取器,该算法包含 5 个阶段,需要按顺序进行,最终获取单词的词根。

词形还原(Lemmatization):词形还原是指将一个单词还原为一般形式(能表达完整语义)。比如:“walk”、“walked”、“walks”以及“walking”的一般形式为“walk”。为了克服词干提取的缺点,人们设计了词形还原。这些算法需要了解语言与语法的知识,才能在提取单词词元的时候做出更好的决定。为了词形还原算法执行的准确率,它们需要提取每个单词的词元。因此,通常它们需要语言的词典,才能正确地分类每个单词。

根据这些定义,你应该可以看出词形还原比词干提取更加复杂,而且实现这种算法也需要更多的时间。但是,词形还原更加准确,而且最终分析结果的噪声也更少。

关键字提取

关键字提取,有时又称之为关键字检测或关键字分析,这是一种文本分析的 NLP 技术。这种技术的主要目的是自动地从文本的正文中提取出现频率最高的单词与词组。这种技术常常作为生成本文摘要的第一步,提取文本的主旨。

关键字提取算法借助了机器学习与人工智能的强大力量。这种算法使用神经网络来提取和简化文本,以方便计算机理解。这种算法适合任何类型的文本,从学术文本到社交媒体帖子中常用的口语化文本。

关键字提取在当今世界中有很多应用,包括社交媒体监控、客户服务/反馈、产品分析以及搜索引擎优化。

命名实体识别(NER)

词干提取、词形还原、命名实体识别(Named Entity Recognition,简称NER)是最基本以及核心的 NLP 技术。

NER 是一项从文本的正文中提取实体的技术,这里的实体主要包括人名、地名、机构名、专有名词等,以及时间、数量、货币、比例数值等文字。

NER 算法主要包含两大步骤。第一步,检测文本中的实体;第二步,将实体分类到一个类别集合。NER 的表现极大地依赖于开发模型时使用的训练数据。训练数据越接近真实的数据,最终的结果就越准确。

关系到 NER 模型准确性的另一个因素是构建模型时使用的语言知识。话虽如此,网上有很多预训练的 NER 平台,可供随时使用。

NER 可以应用到多种领域,比如构建推荐系统,在医疗保健中为患者提供更好的服务,以及在学术界中帮助学生获得相关的研究材料。

主题建模

你可以使用提取关键字的方式,将大段的文本压缩成几个主要的关键词和概念。然后在此基础上,提炼出文本的主题。

另外,还有一种更先进的识别文本主题的方式:主题建模。主题建模构建于非监督机器学习的基础之上,这类机器学习的训练不需要带标签的数据。

文本的主题建模算法有很多种,比如相似主题模型(Correlated Topic Model,CTM)、潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)以及潜在语义分析(Latent Semantic Analysis,LSA),其中最常用的方法是 LDA。这种方法可以分析文本,并将文本分解成单词和语句,然后从这些单词和语句中提取不同的主题。你需要做的只是为算法提供文本,接下来的工作全部由算法完成。

文本摘要

还有一个非常实用,且前景非常看好的 NLP 应用,那就是文本摘要。这种算法可以将大段文本压缩成一小块只包含文本大意的文字。这种技术常用于提炼长篇新闻文章,以及提取研究论文的摘要。

文本摘要是一项先进的技术,它使用了上述我们提到的技术(比如主题建模以及关键字提取等)来完成目标工作。这种方法通常包含两大步骤:提取和抽象。

在提取阶段,算法会根据单词在文本中出现的频率,提取文本的主要部分。接着,算法会生成摘要,即通过一段全新的文本来传达原文的主旨。文本摘要的算法有很多种,比如 LexRank 与 TextRank。

LexRank 算法通过一个排名模型来分类文本中的句子。这种排名依据的是句子之间的相似性,某个句子与其余文本的相似性越高,它的排名就越高。

情感分析

情感分析(Sentiment Analysis)是人气最高、知名度最广的 NLP 技术之一。这种技术的核心功能是通过分析文本包含的单词,提取文本所表达的情感。

这项技术最简单的结果是一项表示积极、消极和中性的评分,该结果用数字表示。如果结果是负数,则代表文本背后的情绪为消极;如果结果为正数,则表示文本表达了积极的观点。

情感分析是机器学习技术的广泛应用之一。它可以通过监督学习实现,也可以通过非监督学习实现。最常见的通过监督学习实现的情感分析是使用朴素贝叶斯算法。还有其他机器学习算法也可用于情感分析的实现,比如梯度提升(Gradient Boosting)以及随机森林。

总结

人类对于计算理解自然语言,并使用自然语言与我们交流的渴望由来已久。随着技术与机器学习算法的飞速发展,这种想法已不只是一种憧憬。我们已经可以在日常生活中看到和体验这种技术。这种想法是自然语言处理的核心。

自然语言处理是当今的热门话题之一,也是非常有潜力的领域之一。各大公司和研究机构都在竞相创建能够完全理解并使用人类语言的计算机程序。自从 1960 年代虚拟代理问世以来,这项技术已获得了飞速的发展。

尽管自然语言处理可以执行的任务不同,但为了进军该领域,并建立自己的项目,你必须熟练掌握该领域基本的六大核心技术。

这些技术是所有自然语言处理模型的基础。如果你已经理解了这些技术,并知道何时使用何种技术,那么自然语言处理的大门就会向你敞开。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8382

    浏览量

    132455
  • 自然语言处理

    关注

    1

    文章

    614

    浏览量

    13517
  • nlp
    nlp
    +关注

    关注

    1

    文章

    487

    浏览量

    22017

原文标题:数据科学家必会的六大 NLP 技术!

文章出处:【微信号:5G通信,微信公众号:5G通信】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    TI科学家谈浮点DSP未来发展

    TI科学家谈浮点DSP未来发展 自十多年前浮点数字信号处理器(DSP)诞生以来,便为实时信号处理提供了算术上更为先进的备选方案。不过,定点器件至今仍是业界的主流--当然低成本是主要原因。定点DSP每
    发表于 11-03 15:18

    科学家推出多种波动描记传感器

      美国得克萨斯大学的科学家们最新一项研究结果表明,人们很快将根据肠子的波动情况当场揭穿骗子的谎言。  该大学的科研小组还认为,将来有一天,以记录心脏活动为主的多种波动描记器将极大地提高其工作质量
    发表于 10-24 11:40

    生物电磁波揭密 场导发现(俄罗斯华裔科学家写的脑控技术丛书)

    生物电磁波揭密场导发现(俄罗斯华裔科学家写的脑控技术丛书)
    发表于 03-05 09:31

    通往数据科学家的崎岖道路

    如果你曾经查看过数据科学家的岗位要求,你就知道它的职责范围有多广。有的数据科学家致力于自然语言处理、计算机视觉、深度学习,有的则从事A/B测试、产品分析。确定哪些工作适合自己,哪些不适
    的头像 发表于 07-26 09:17 2550次阅读

    哪些才是对数据科学家最迫切的技能呢?

    AngelList提供的是列出数据科学家岗位的公司数而不是岗位数。我把AngelList从所有分析里面排除掉了,因为其搜索算法似乎按照OR型的逻辑搜索进行,没有办法改成AND。如果你寻找的是“数据
    的头像 发表于 11-19 18:14 3043次阅读

    什么是数据科学家?需要认证吗?

    得以清晰化。”Fleming指出,IBM目前雇佣了大约1.5万名被定义为数据科学家技术人员,预计数据科学家人数的增长速度超过其雇员总数的增
    的头像 发表于 02-14 09:41 6568次阅读

    数据科学家与机器学习工程师怎么区分

    十年来,我们一直在谈论数据科学数据科学家。虽然在怎么才叫“数据科学家”的问题上始终存在着争议,
    的头像 发表于 05-18 11:24 3205次阅读

    数据科学家常犯的10个编程错误

    数据科学家是“比软件工程师更擅长统计学,比统计学家更擅长软件工程的人”。
    的头像 发表于 05-24 14:50 2655次阅读

    数据科学家数据工程师的区别

    数据科学家和数据工程师的主要区别,可以用ETL和DAD的区别来解释。
    的头像 发表于 07-10 17:06 2626次阅读

    企业如何解决数据科学家短缺详细方法什么

     随着企业以数据为中心的文化,以做出决策和规划,数据科学家对全球企业的重要性日益增加。但是企业无法足够快地聘请数据科学家,因为合格候选人仍然
    的头像 发表于 04-18 10:31 3452次阅读

    采访资深数据科学家:成为数据科学家应具有的品质

    作为一门逐渐成熟的新兴领域,与数据科学相关的很多领域开始变得备受青睐,比如数据工程,数据分析以及机器学习和深度学习。数据
    的头像 发表于 06-30 11:28 2280次阅读

    什么是数据科学家的最佳编程语言?

    每个数据科学学习者都最常问的问题:“ 什么是数据科学家的最佳编程语言?”。
    的头像 发表于 07-05 11:32 2486次阅读

    数据科学家和数据工程师能合二为一吗?

    虽然数据科学家和数据工程师的角色似乎截然不同,但数据科学家和数据工程师有许多共同的特点和共技能。这些重叠的技能包括处理和操作大数据集、应用
    的头像 发表于 07-25 10:17 2517次阅读

    深入研究数据科学家使用的常见统计和分析技术

    数据科学技术如今已在许多组织中占有一席之地,数据科学家正迅速成为以数据为中心的组织最受欢迎的角色之一。
    的头像 发表于 01-14 16:09 1968次阅读

    中国联通AI科学家廉士国入选全球前2%顶尖科学家榜单

    %顶尖科学家榜单是Elsevier和斯坦福大学John P.A. Ioannidis教授团队合作的具有全球影响力的项目成果,为全球学术界提供了一个面向科学家长期科研表现的衡量指标,旨在更客观、更真实地反映科学家全球影响力。榜单以
    的头像 发表于 11-07 16:18 2663次阅读