0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

深入研究数据分析技术

星星科技指导员 来源:嵌入式计算设计 作者:Seth DeLand 2022-07-06 14:17 次阅读

数据的海啸为企业提供了优化流程和提供差异化​​产品的机会。一套新的算法​​和基础设施已经出现,允许企业使用大数据或机器学习等关键数据分析技术来利用这些机会。

此外,大数据或机器学习背后的这种新基础设施导致了许多不同的技术,这些技术支持构建数据分析算法的迭代过程。正是构建算法的迭代过程的这个开始阶段可以让企业走向成功。这个迭代过程涉及尝试多种策略,例如寻找其他数据源以及不同的机器学习方法和特征转换。

鉴于要尝试的组合可能无限多,因此快速迭代至关重要。领域专家非常适合快速迭代,因为他们可以利用他们的知识和直觉来避免不太可能产生强大结果的方法。具有领域知识的工程师越快将他们的知识应用到支持快速迭代的工具中,企业就能越快获得竞争优势。

但在深入研究支持这项活动的技术之前,让我们先来看看这个迭代过程的一个例子,以及在此过程中要问的一些问题。

迭代数据集

假肢公司知道,如果它知道客户会做什么活动(站立、坐着、走路等),它可以制造更智能的假肢。因此,它提出的第一个问题是:我们可以使用哪些数据来确定这一点?

该公司的工程师知道他们的大多数客户都有智能手机,因此他们希望使用来自智能手机传感器的数据来确定他们的活动。该公司的工程师首先记录加速度计的数据。他们将机器学习算法直接应用于数据,但学习结果不如他们希望的那么好。迭代过程开始了,工程师接着问:我们是否有其他方法可以为机器学习准备数据,从而产生更好的结果?

该公司的工程师应用信号处理技术从传感器数据中提取频率内容,并再次尝试机器学习技术。结果更好,但还没有完全达到,所以他们问:我们可以使用其他数据来源来改进我们的预测吗?

他们决定还记录来自智能手机的陀螺仪数据,并将其与加速度计数据相结合。再次训练他们的机器学习模型,他们现在对结果感到满意,并开始生产。

工程师在迭代过程中可能会问的其他问题包括:

有哪些可用数据?

还有其他数据源吗?

可以使用哪些类型的流程从数据中提取高级信息

该模型将在哪里运行?

某些类型的错误分类是否比其他类型的错误分类成本更高?

我们如何才能快速进行实验来验证想法并回答上述问题?

既然您已经看到了迭代过程的示例和要问的问题,那么这个过程背后的技术呢?

大数据迭代

随着越来越多的数据产生,系统需要发展以处理所有数据。在这个“大数据”领域,两个大型项目重塑了格局:Hadoop 和 Spark。这两个项目都是 Apache 软件基金会的一部分。它们共同使存储和分析大量数据变得更容易、更便宜。

这些技术可以极大地影响工程师的工作。对于习惯于在台式机、网络驱动器或传统数据库中处理文件中数据的工程师来说,这些新工具需要一种不同的方式来访问数据,然后才能考虑进行分析。在许多情况下,可能会造成人为的数据孤岛和低效率,例如每次执行新分析时都需要联系某人将数据从大数据系统中提取出来。

工程师在处理大数据时面临的另一个挑战是需要改变他们的计算方法。当数据小到足以放入内存时,标准的工作流程是加载数据并执行计算;计算通常会很快,因为数据已经在内存中。但是对于大数据,通常会有磁盘读/写,以及跨网络的数据传输,这会减慢计算速度。

当工程师设计一种新算法时,他们需要能够快速迭代许多设计。结果是一个新的工作流程,包括获取数据样本并在本地使用它,从而实现快速迭代和轻松使用有用的开发工具,如调试器。一旦算法在样本上经过审查,它就会针对大数据系统中的完整数据集运行。

这些挑战的解决方案是一个系统,让工程师可以使用熟悉的环境编写代码,该代码既可以在本地数据样本上运行,也可以在大数据系统中的完整数据集上运行。MATLAB 等工具与 Hadoop 等大数据系统建立连接。可以下载数据样本,并在本地制作算法原型。利用延迟评估框架的新计算模型用于以性能优化的方式在完整数据集上运行算法。对于工程和数据科学工作流程中常见的迭代分析,这种延迟评估模型是减少完成完整数据集分析所需时间的关键,这通常可能是几分钟或几小时的数量级。

大数据技术一直是数据科学发展的关键推动力。随着大量数据的收集,需要新的算法来对这些数据进行推理,这导致了机器学习的使用热潮。

机器学习

机器学习用于识别数据中的潜在趋势和结构。机器学习分为无监督学习和监督学习。

在无监督学习中,我们试图发现数据中的关系,例如所有相似的数据点组。例如,我们可能想查看驾驶数据,以了解人们驾驶汽车的模式是否不同。通过聚类分析,我们可能会发现不同的趋势,例如城市驾驶与高速公路驾驶,或者更有趣的是,不同风格的驾驶员(例如,激进的司机)。

在监督学习中,我们得到输入和输出数据,目标是训练一个模型,该模型在给定新输入的情况下可以预测新输出。监督学习通常用于图像中的预测性维护、欺诈检测和面部识别等应用。

机器学习的每个领域——无监督学习和监督学习——都有几十种流行的算法(还有数百种不太流行的算法)。但是,很难知道这些算法中的哪一种最适合您正在处理的特定问题。通常,最好的办法就是尝试一下并比较结果。这在某些环境中可能是相当大的挑战,因为研究人员根据他们的问题和偏好构建具有不同接口的算法。

成熟的机器学习工具为各种算法提供一致的界面,并且可以轻松快速地尝试不同的方法。这对于执行数据科学的领域专家来说至关重要,因为它使他们能够识别机器学习比传统方法提供改进的“速赢”。这种方法还可以防止他们花费数天或数周的时间将机器学习模型调整为不适合机器学习的数据集。MATLAB 等工具通过提供训练和比较多个机器学习模型的点击式应用​​程序来解决这个问题。

迭代更快

大数据和机器学习相结合,有望为长期存在的业务问题带来新的解决方案。底层技术掌握在非常熟悉这些业务问题的领域专家手中,可以产生显着的成果。例如,贝克休斯的工程师使用机器学习技术来预测他们的天然气和石油开采卡车上的泵何时会出现故障。他们从这些卡车上收集了近 1 TB 的数据,然后使用信号处理技术来识别相关的频率内容。领域知识在这里至关重要,因为他们需要了解卡车上可能出现在传感器读数中的其他系统,但这对预测泵故障没有帮助。他们应用了机器学习技术,可以区分健康的泵和不健康的泵。由此产生的系统预计将减少 1000 万美元的总成本。在整个过程中,他们对泵车系统的了解使他们能够深入挖掘数据并快速迭代。

利用处理大数据和应用机器学习的工具,贝克休斯的工程师能够很好地解决改善业务成果的问题。凭借对这些复杂系统的领域知识,工程师们将这些工具远远超出了网络和营销应用程序的传统用途。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • matlab
    +关注

    关注

    185

    文章

    2974

    浏览量

    230449
  • 机器学习
    +关注

    关注

    66

    文章

    8416

    浏览量

    132616
  • 大数据
    +关注

    关注

    64

    文章

    8886

    浏览量

    137432
收藏 人收藏

    评论

    相关推荐

    Mathematica 在数据分析中的应用

    数据分析是现代科学研究和商业决策中不可或缺的一部分。随着数据量的爆炸性增长,对数据分析工具的需求也在不断增加。Mathematica,作为一种强大的计算软件,以其独特的符号计算能力和广
    的头像 发表于 12-26 15:41 34次阅读

    数据可视化与数据分析的关系

    在当今这个信息爆炸的时代,数据无处不在。无论是企业运营、科学研究还是个人决策,我们都需要从海量的数据中提取有价值的信息。数据分析数据可视化
    的头像 发表于 12-06 17:09 338次阅读

    深入解析:海外IP代理在跨境电商与数据分析中的应用

    海外IP代理在跨境电商与数据分析中的应用广泛,其重要性不容忽视。
    的头像 发表于 11-20 08:27 270次阅读

    eda与传统数据分析的区别

    EDA(Exploratory Data Analysis,探索性数据分析)与传统数据分析之间存在显著的差异。以下是两者的主要区别: 一、分析目的和方法论 EDA 目的 :EDA的主要目的是对
    的头像 发表于 11-13 10:52 319次阅读

    raid 在大数据分析中的应用

    的具体应用: 一、提高性能 并行读写 :RAID技术通过并行读写多个磁盘,可以显著提高数据的读写速度。在大数据分析环境中,数据读写速度是影响分析
    的头像 发表于 11-12 09:44 247次阅读

    SUMIF函数在数据分析中的应用

    在商业和科学研究中,数据分析是一项基本且关键的技能。Excel作为最常用的数据分析工具之一,提供了多种函数来帮助用户处理和分析数据。SUMI
    的头像 发表于 11-11 09:14 319次阅读

    云计算在大数据分析中的应用

    云计算在大数据分析中的应用广泛且深入,它为用户提供了存储、计算、分析和预测的强大能力。以下是对云计算在大数据分析中应用的介绍: 一、存储和处理海量
    的头像 发表于 10-24 09:18 450次阅读

    数据分析除了spss还有什么

    数据分析是当今世界中一个非常重要的领域,它涉及到从大量数据中提取有用信息、发现模式和趋势,并为决策提供支持。SPSS(Statistical Package for the Social
    的头像 发表于 07-05 15:01 619次阅读

    数据分析的工具有哪些

    数据分析是一个涉及收集、处理、分析和解释数据以得出有意义见解的过程。在这个过程中,使用正确的工具至关重要。以下是一些主要的数据分析工具,以及它们的功能和用途的介绍。 Excel Exc
    的头像 发表于 07-05 14:54 856次阅读

    数据分析有哪些分析方法

    数据分析是一种重要的技能,它可以帮助我们从大量的数据中提取有价值的信息,从而做出更明智的决策。在这篇文章中,我们将介绍数据分析的各种方法,包括描述性分析、诊断性
    的头像 发表于 07-05 14:51 582次阅读

    伦敦商学院深入研究中国神州数码战略转型

    China)数字化转型历程的深入研究为基础,共同撰写了案例研究「神州数码的转型:驾驭数据、云和人工智能的潜力(The Transformation of Digital China
    的头像 发表于 07-02 11:25 506次阅读
    伦敦商学院<b class='flag-5'>深入研究</b>中国神州数码战略转型

    机器学习在数据分析中的应用

    随着大数据时代的到来,数据量的爆炸性增长对数据分析提出了更高的要求。机器学习作为一种强大的工具,通过训练模型从数据中学习规律,为企业和组织提供了更高效、更准确的
    的头像 发表于 07-02 11:22 619次阅读

    求助,关于AD采集到的数据分析问题

    问题描述:使用AD采集一个10Hz到2MHz的脉冲,脉冲底部可能大于零,由采集到的数据分析出该脉冲的上升时间,幅值和占空比。 备注:在分析的时候已经知道脉冲的频率,精度为2X10^-5. 在分析
    发表于 05-09 07:40

    态势数据分析系统软件

    智慧华盛恒辉态势分析软件系统的功能描述、部署环境、界面使用、技术支持及一些常见问题及其解决办法等。为数据态势分析软件系统的管理人员和使用人员提供说明。 智慧华盛恒辉态势
    的头像 发表于 04-22 11:36 444次阅读

    基于振弦采集仪的工程监测数据分析方法研究

    基于振弦采集仪的工程监测数据分析方法研究 基于振弦采集仪的工程监测数据分析方法研究主要涉及以下几个方面: 基于振弦采集仪的工程监测数据分析
    的头像 发表于 01-02 15:12 402次阅读
    基于振弦采集仪的工程监测<b class='flag-5'>数据分析</b>方法<b class='flag-5'>研究</b>