0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

成功的文本分析工作流程的四个步骤

星星科技指导员 来源:嵌入式计算设计 作者:Seth DeLand 2022-06-20 14:53 次阅读

文本分析(从原始人类语言中发现隐藏模式以实现更好的决策和预测的过程)为工业和预测性维护系统提供了多种好处。这些分析使工程师能够利用原始文本数据轻松生成有关维护记录的见解,并构建故障预测算法以预防潜在问题。

以非公路商业空间为例,在建筑工地使用重型设备:如果一台重型设备发生故障,它可能会在修复系统所需的时间和成本以及停机时间之间成为代价高昂的故障。施工停滞时的现场。传统上,来自该设备的遥测数据已被用于构建可预测未来故障的预测性维护模型。但是,机械师和操作员的文字说明中也包含有关过去故障及其原因的宝贵信息。工程师可以利用这些文本数据来增强预测性维护模型,并识别应该解决的模式和故障模式。

文本分析的挑战在于非结构化的原始文本数据集的庞大数量,这可能会使分析工具不堪重负。这使得工程师更难快速、直观地提取用户可能获得的所有有价值的信息。然而,工程师可以通过正确的工具和坚持端到端的工作流程来克服这些障碍。

当谈到端到端的文本分析工作流程时,工程师需要知道什么?工作流程有四个主要阶段:

poYBAGKwGbWAZSGZAAB0svF0DfA535.png

图 1. 端到端文本分析工作流程。

第 1 阶段:数据访问和探索

文本数据将来自多种来源,包括数据库、内部文件存储库和 Internet,并采用多种格式。正确准备数据是成功工作流程的关键因素。适当的数据准备将原始文本数据清理并预处理为“清理数据”以进行分析。

以词云为例。该模型将数据转换为一种格式,使工程师能够快速轻松地可视化正在使用的单词以及数据池中最常用的短语。当与应用他们的领域专业知识的工程师结合使用时,词云等可视化有利于更大的文本分析工作流程,因为工程师可以很容易地发现数据可能遗漏的地方或需要更多清理的地方,因为他们了解给定的典型问题或问题环境或用例。

第 2 阶段:数据预处理

这些可视化还有助于指导需要采取的下一步行动。如图 2 所示,停用词(不增加价值的低信息词)很常见,它们的存在会影响可视化结果。在工程师开始模型开发过程之前,他们必须清理原始文本数据,以便过滤掉这些“停用词”并输入真实、重要的数据以传递给建模过程。预处理阶段允许用户从原始文本中提取有意义的单词。

数据清洗通常是数据分析中最耗时的部分,根据数据量,清洗步骤可能需要多次迭代。但是,由于投入额外的时间和所需资源而产生的投资回报率允许稍后在文本分析工作流程中建立更准确和成功的模型。在许多情况下,干净的词云会传递更多关于文本页面上实际内容的信息。

pYYBAGKwGb6ANMsjAADTUnqbRM0882.png

图 2. 预处理数据。

Text Analytics Toolbox等工具通过为文本数据的预处理、分析和建模提供算法和可视化,帮助用户为模型构建过程做好准备,从而为解决数据清理痛点的工程师提供支持。

这些工具从流行的文件格式中提取文本,对来自设备日志、新闻提要、调查、操作员报告和社交媒体等来源的原始文本进行预处理,提取利用文本、数字和其他类型的数据,将文本转换为数字表示,然后构建统计模型。

第 3 阶段:预测模型构建

清理和预处理数据后,就可以开始使用机器或深度学习算法构建预测模型了。

这就是文本分析的优势所在:它发现数据中的隐藏模式并以直观的格式显示它们,使用户能够消化数据,然后采取纠正措施来解决问题,然后再进一步进入工作流程。

以将纯文本数据转化为数字形式为例。工程师可以应用诸如“词袋”之类的建模方法,它根据提供的文本数据创建一个数字矩阵,显示每个词的使用频率。然后,工程师可以从那里使用预测模型,例如潜在狄利克雷分配 (LDA) 模型,该模型可以拟合到词/频矩阵,以发现文本数据集中隐藏的主题和见解。

如图 3 所示,LDA 模型可以生成与数据中的“隐藏主题”相关的词云,显示模式如何从将文本数据拟合到该预测模型中开始出现,有助于为相应问题的创建解决方案提供信息。

poYBAGKwGcWAb6TOAANzQjKFti4838.png

图 3. 使用 LDA 方法自动识别工厂报告数据中的主题。主题 2 与电子问题有关。主题 3 与流体系统的问题有关。

一旦模型(例如上面示例中的模型)使用新的叙述进行测试以验证模型的预测是否正确,就可以建立自动警报,以便系统在任何需要注意的问题上向响应团队发送标志。如果位置数据也可用,结果会发现某些主题(例如,标记的问题)与其位置数据之间存在相关性,因此该模型还可以通过使用多个数据流来补充文本数据,提醒响应团队注意基础设施方面潜在的更大问题。

第 4 阶段:洞察力和预测模型部署

使用文本分析设置模型并验证可接受的性能后,有多种方法可以与工程团队和/或管理层共享结果和模型,包括生成报告或交互式笔记本(例如,MATLAB 实时编辑器)、沟通将数据传输到桌面或 Web 应用程序(例如,MATLAB App Designer),或将应用程序托管在生产服务器或 Web 应用程序服务器上。

对于工业自动化、机械、汽车制造、航空航天设计或能源分配等行业的工程师来说,文本分析可以帮助他们执行复杂的数值分析,以识别可以带来更好结果并改进预测性维护等功能的想法和概念组。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • matlab
    +关注

    关注

    182

    文章

    2963

    浏览量

    230171
  • 编辑器
    +关注

    关注

    1

    文章

    801

    浏览量

    31120
  • 航空航天
    +关注

    关注

    1

    文章

    379

    浏览量

    24239
收藏 人收藏

    评论

    相关推荐

    浅谈无刷电机的工作流程

    上一期的芝识课堂,我们跟大家一起分析了无刷电机的四个功能单元,并详细分析了PWM和逆变器单元的工作情况,今天我们继续来熟悉无刷电机工作流程
    的头像 发表于 11-12 13:46 359次阅读
    浅谈无刷电机的<b class='flag-5'>工作流程</b>

    逻辑组件中的流程块节点通常出于什么用途

    逻辑组件中的流程块节点是流程图、状态图、序列图等图表中的基本元素,它们用于表示业务流程工作流程、算法步骤、系统状态等。这些节点在软件开发、
    的头像 发表于 10-15 14:38 122次阅读

    利用TensorFlow实现基于深度神经网络的文本分类模型

    要利用TensorFlow实现一基于深度神经网络(DNN)的文本分类模型,我们首先需要明确几个关键步骤:数据预处理、模型构建、模型训练、模型评估与调优,以及最终的模型部署(尽管在本文中,我们将重点放在前
    的头像 发表于 07-12 16:39 701次阅读

    卷积神经网络在文本分类领域的应用

    在自然语言处理(NLP)领域,文本分类一直是一重要的研究方向。随着深度学习技术的飞速发展,卷积神经网络(Convolutional Neural Network,简称CNN)在图像识别领域取得了
    的头像 发表于 07-01 16:25 624次阅读

    自动化IC封装模拟分析工作流程

    在IC封装制程的制程模拟中,为了同时提升工作效率与质量,CAE团队常会面临到许多挑战。在一般的CAE分析流程中,仿真分析产生结构性网格,是非常繁琐且相当花时间的。必须要先汇入2D(或3
    的头像 发表于 06-26 08:35 278次阅读
    自动化IC封装模拟<b class='flag-5'>分析</b><b class='flag-5'>工作流程</b>

    鸿蒙原生应用元服务-访问控制(权限)开发工作流程相关

    是否属于用户授权类。如果是,应用需要使用动态授权弹框来提供用户授权界面,请求用户授权目标权限。 当用户授予应用所需权限后,应用可成功访问目标数据或执行目标操作。 应用使用权限的工作流程如图所示。 1
    发表于 04-19 15:27

    Ansys与SynMatrix合作,简化无线通信射频滤波器设计工作流程

    Ansys扩展其电子系列产品组合,以简化无线通信射频滤波器设计工作流程
    的头像 发表于 04-08 09:45 723次阅读
    Ansys与SynMatrix合作,简化无线通信射频滤波器设计<b class='flag-5'>工作流程</b>

    推挽放大电路工作流程

    ”),另一在负半周期拉动负载(“挽”),因此称为“推挽”。这种结构允许放大电路在信号的两半周期内都能提供能量,从而有效地将输入信号的功率放大到更高的水平。 推挽放大电路的工作流程如下: 信号分离:输入信号首先被送到一
    的头像 发表于 02-03 17:23 1291次阅读
    推挽放大电路<b class='flag-5'>工作流程</b>

    BUCK电路工作原理四个阶段

    BUCK电路工作原理四个阶段  BUCK电路是一种常用的降压转换器,广泛应用于电源管理领域。其工作原理可以分为四个阶段:导通、关断、自阻抗、反馈调节。 1. 导通阶段: 在导通阶段,输
    的头像 发表于 01-31 16:08 915次阅读

    四个单片机能共用一晶振时钟频率来工作吗?

    四个单片机能共用一晶振时钟频率来工作吗? 四个单片机共用一晶振时钟频率来工作是可能的。在实际
    的头像 发表于 01-31 11:31 1585次阅读

    SOLIDWORKS 2024通过自动化和缩短工作流程来实现智能工作

    随着科技的快速发展,工程设计和制造业正在经历变革。在这个过程中,SOLIDWORKS 2024的发布为我们提供了一全新的视角,以实现更智能的工作流程。本文将探讨SOLIDWORKS 2024如何通过自动化和缩短工作流程来实现智
    的头像 发表于 01-10 11:37 511次阅读
    SOLIDWORKS 2024通过自动化和缩短<b class='flag-5'>工作流程</b>来实现智能<b class='flag-5'>工作</b>

    人工智能中文本分类的基本原理和关键技术

    在本文中,我们全面探讨了文本分类技术的发展历程、基本原理、关键技术、深度学习的应用,以及从RNN到Transformer的技术演进。文章详细介绍了各种模型的原理和实战应用,旨在提供对文本分类技术深入理解的全面视角。
    的头像 发表于 12-16 11:37 1179次阅读
    人工智能中<b class='flag-5'>文本分</b>类的基本原理和关键技术

    设计和模拟厘米尺度超透镜的工作流程

    本文介绍了设计和模拟厘米尺度超透镜的工作流程
    的头像 发表于 12-16 11:02 1017次阅读
    设计和模拟厘米尺度超透镜的<b class='flag-5'>工作流程</b>

    彩色多普勒血流显像仪的工作流程

    彩色多普勒血流显像仪是一种在医学影像诊断中广泛使用的设备,主要用于观察和分析人体内部器官和组织的血流情况。其工作流程可以分为以下几个步骤: 一、设备准备 在使用彩色多普勒血流显像仪之前,需要先进
    的头像 发表于 12-13 10:45 896次阅读

    vlookup函数的四个参数含义

    VLOOKUP函数是一种用于在Excel中查找和提取数据的功能强大的函数。它的四个参数含义分别是:查找值、查找范围、返回列索引和区域或表标志。 首先,让我们来详细了解这四个参数的含义,并讨论如何正确
    的头像 发表于 12-01 09:57 6968次阅读