深入研究数据分析技术-电子发烧友网

数据的海啸为企业提供了优化流程和提供差异化产品的机会。一套新的算法和基础设施已经出现，允许企业使用大数据或机器学习等关键数据分析技术来利用这些机会。

此外，大数据或机器学习背后的这种新基础设施导致了许多不同的技术，这些技术支持构建数据分析算法的迭代过程。正是构建算法的迭代过程的这个开始阶段可以让企业走向成功。这个迭代过程涉及尝试多种策略，例如寻找其他数据源以及不同的机器学习方法和特征转换。

鉴于要尝试的组合可能无限多，因此快速迭代至关重要。领域专家非常适合快速迭代，因为他们可以利用他们的知识和直觉来避免不太可能产生强大结果的方法。具有领域知识的工程师越快将他们的知识应用到支持快速迭代的工具中，企业就能越快获得竞争优势。

但在深入研究支持这项活动的技术之前，让我们先来看看这个迭代过程的一个例子，以及在此过程中要问的一些问题。

迭代数据集

假肢公司知道，如果它知道客户会做什么活动（站立、坐着、走路等），它可以制造更智能的假肢。因此，它提出的第一个问题是：我们可以使用哪些数据来确定这一点？

该公司的工程师知道他们的大多数客户都有智能手机，因此他们希望使用来自智能手机传感器的数据来确定他们的活动。该公司的工程师首先记录加速度计的数据。他们将机器学习算法直接应用于数据，但学习结果不如他们希望的那么好。迭代过程开始了，工程师接着问：我们是否有其他方法可以为机器学习准备数据，从而产生更好的结果？

该公司的工程师应用信号处理技术从传感器数据中提取频率内容，并再次尝试机器学习技术。结果更好，但还没有完全达到，所以他们问：我们可以使用其他数据来源来改进我们的预测吗？

他们决定还记录来自智能手机的陀螺仪数据，并将其与加速度计数据相结合。再次训练他们的机器学习模型，他们现在对结果感到满意，并开始生产。

工程师在迭代过程中可能会问的其他问题包括：

有哪些可用数据？

还有其他数据源吗？

可以使用哪些类型的流程从数据中提取高级信息？

该模型将在哪里运行？

某些类型的错误分类是否比其他类型的错误分类成本更高？

我们如何才能快速进行实验来验证想法并回答上述问题？

既然您已经看到了迭代过程的示例和要问的问题，那么这个过程背后的技术呢？

大数据迭代

随着越来越多的数据产生，系统需要发展以处理所有数据。在这个“大数据”领域，两个大型项目重塑了格局：Hadoop 和 Spark。这两个项目都是 Apache 软件基金会的一部分。它们共同使存储和分析大量数据变得更容易、更便宜。

这些技术可以极大地影响工程师的工作。对于习惯于在台式机、网络驱动器或传统数据库中处理文件中数据的工程师来说，这些新工具需要一种不同的方式来访问数据，然后才能考虑进行分析。在许多情况下，可能会造成人为的数据孤岛和低效率，例如每次执行新分析时都需要联系某人将数据从大数据系统中提取出来。

工程师在处理大数据时面临的另一个挑战是需要改变他们的计算方法。当数据小到足以放入内存时，标准的工作流程是加载数据并执行计算；计算通常会很快，因为数据已经在内存中。但是对于大数据，通常会有磁盘读/写，以及跨网络的数据传输，这会减慢计算速度。

当工程师设计一种新算法时，他们需要能够快速迭代许多设计。结果是一个新的工作流程，包括获取数据样本并在本地使用它，从而实现快速迭代和轻松使用有用的开发工具，如调试器。一旦算法在样本上经过审查，它就会针对大数据系统中的完整数据集运行。

这些挑战的解决方案是一个系统，让工程师可以使用熟悉的环境编写代码，该代码既可以在本地数据样本上运行，也可以在大数据系统中的完整数据集上运行。MATLAB 等工具与 Hadoop 等大数据系统建立连接。可以下载数据样本，并在本地制作算法原型。利用延迟评估框架的新计算模型用于以性能优化的方式在完整数据集上运行算法。对于工程和数据科学工作流程中常见的迭代分析，这种延迟评估模型是减少完成完整数据集分析所需时间的关键，这通常可能是几分钟或几小时的数量级。

大数据技术一直是数据科学发展的关键推动力。随着大量数据的收集，需要新的算法来对这些数据进行推理，这导致了机器学习的使用热潮。

机器学习

机器学习用于识别数据中的潜在趋势和结构。机器学习分为无监督学习和监督学习。

在无监督学习中，我们试图发现数据中的关系，例如所有相似的数据点组。例如，我们可能想查看驾驶数据，以了解人们驾驶汽车的模式是否不同。通过聚类分析，我们可能会发现不同的趋势，例如城市驾驶与高速公路驾驶，或者更有趣的是，不同风格的驾驶员（例如，激进的司机）。

在监督学习中，我们得到输入和输出数据，目标是训练一个模型，该模型在给定新输入的情况下可以预测新输出。监督学习通常用于图像中的预测性维护、欺诈检测和面部识别等应用。

机器学习的每个领域——无监督学习和监督学习——都有几十种流行的算法（还有数百种不太流行的算法）。但是，很难知道这些算法中的哪一种最适合您正在处理的特定问题。通常，最好的办法就是尝试一下并比较结果。这在某些环境中可能是相当大的挑战，因为研究人员根据他们的问题和偏好构建具有不同接口的算法。

成熟的机器学习工具为各种算法提供一致的界面，并且可以轻松快速地尝试不同的方法。这对于执行数据科学的领域专家来说至关重要，因为它使他们能够识别机器学习比传统方法提供改进的“速赢”。这种方法还可以防止他们花费数天或数周的时间将机器学习模型调整为不适合机器学习的数据集。MATLAB 等工具通过提供训练和比较多个机器学习模型的点击式应用程序来解决这个问题。

迭代更快

大数据和机器学习相结合，有望为长期存在的业务问题带来新的解决方案。底层技术掌握在非常熟悉这些业务问题的领域专家手中，可以产生显着的成果。例如，贝克休斯的工程师使用机器学习技术来预测他们的天然气和石油开采卡车上的泵何时会出现故障。他们从这些卡车上收集了近 1 TB 的数据，然后使用信号处理技术来识别相关的频率内容。领域知识在这里至关重要，因为他们需要了解卡车上可能出现在传感器读数中的其他系统，但这对预测泵故障没有帮助。他们应用了机器学习技术，可以区分健康的泵和不健康的泵。由此产生的系统预计将减少 1000 万美元的总成本。在整个过程中，他们对泵车系统的了解使他们能够深入挖掘数据并快速迭代。

利用处理大数据和应用机器学习的工具，贝克休斯的工程师能够很好地解决改善业务成果的问题。凭借对这些复杂系统的领域知识，工程师们将这些工具远远超出了网络和营销应用程序的传统用途。

审核编辑：郭婷

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉