使用大数据正迅速成为科学发现和工程过程中的关键步骤。随着智能传感器和物联网 (IoT) 等技术能够从科学仪器、制造系统、联网汽车和飞机中收集大量详细数据,这种情况正在发生。
这些数据具有重要价值,因为它可以显示重要的物理现象或提供有关系统运行环境、效率和健康状况的信息。借助适当的工具和技术,这些数据可用于进行快速的科学发现,并在您的产品、服务和制造过程中开发和整合更多智能。这可以使您的公司以性能更好的产品或服务脱颖而出,并有助于符合法规要求(例如满足发动机燃油效率标准或提供辅助驾驶能力)。
获得访问权和使用数据可能听起来很有趣,但也很艰巨。由于这些数据的价值和大小,它通常在大型文件共享、数据库或 Hadoop 或 Spark 等大数据系统中存储和管理。不久前,为了将机器学习等先进技术应用于大量数据,具有 IT 系统经验的计算机科学家将与工程和科学专家一起工作。该团队将共同支持一个工作流程,其中包括:
访问文件、数据库或 Hadoop 分布式文件系统 (HDFS) 中的大数据
在专门的计算集群上探索、处理和分析这些数据
如今,MATLAB等软件分析和建模工具已通过处理大数据的新功能得到增强。这使具有领域知识和经验的工程师和科学家能够利用这些数据做出设计和业务决策。然后,工程师和科学家无论身在何处都可以方便地访问这些数据,并使用熟悉的语法和功能轻松使用它。
让我们看一个工程师如何使用大数据的实际示例。贝克休斯的工程师为石油和天然气运营商提供服务的供应商,需要开发一种预测性维护系统,以降低泵设备成本和石油和天然气开采卡车的停机时间。如果活动现场的卡车出现泵故障,贝克休斯必须立即更换卡车以确保连续运行。向每个站点发送备用卡车会使公司损失数千万美元的收入,如果它们在另一个站点积极使用,这些收入可能会在其他地方产生。无法准确预测阀门和泵何时需要维护是其他成本的基础。过于频繁的维护会浪费精力,并导致零件在仍然可用时被更换,而过于不频繁的维护可能会损坏泵而无法修复。
从石油和天然气开采卡车上收集了数 TB 的数据,这些数据用于开发一个应用程序,该应用程序可以预测设备何时需要维护或更换。MATLAB 为 Baker Hughes 的工程师提供了开发预测模型和将多种数据(包括来自专有文件格式的传感器数据)合并到一个分析应用程序中所需的功能。
访问大量数据
处理大数据的第一个挑战是确定如何访问大型数据集,因为它们有多种不同的形式并存储在各种类型的系统中。
文件
许多大型工程和科学数据集由大量中小型文件组成,尽管文件变得越来越大,并且无法放入单台计算机的内存中。这些文件通常位于共享驱动器上的一个或多个目录中,可能包含分隔文本、电子表格、图像、视频和各种专有格式。
数据库
有多种数据库类型可用于存储和管理大量数据:
关系型 (SQL):广泛用于业务应用程序,在 IT 开发人员中很受欢迎。
数据仓库:基于关系 (SQL) 数据库,存储关键业务数据,并为关键业务应用程序提供分析能力和快速访问。
NoSQL:针对不适合关系数据库的数据进行了优化。
数据历史学家:针对通常从工业设备收集的基于时间的生产和过程数据进行了优化。
物联网数据聚合器:通常包括基于云的服务,用于聚合来自连接的传感器和设备的时间序列数据。这些服务通常通过 Web 服务调用来访问。
Hadoop
Hadoop是一种基于分布式计算和存储原理的大数据集存储和处理系统。它由在计算服务器集群上共存的两个主要子系统组成:
HDFS:一种大型、抗故障的文件系统,称为 Hadoop 分布式文件系统。
YARN:管理在 Hadoop 上运行的应用程序,包括批处理框架,例如 MapReduce 和 Spark,以及 SQL 接口,例如 Hive 和 Impala。
为了有效地利用大数据的优势,工程师和科学家需要一个可扩展的工具,例如 MATLAB,以提供对用于存储和管理数据的各种系统和格式的访问。这在可能使用不止一种类型的系统和格式的情况下尤其重要。存储在共享驱动器文件中的传感器或图像数据可能需要与存储在数据库中的元数据相结合;就贝克休斯而言,许多不同格式的数据必须一起使用,以了解系统的行为并开发预测模型。
处理大数据的能力正迅速成为科学发现和工程的一个重要方面。这些数据集中包含宝贵的数据,提供了区分您的产品和服务的方法。作为科学家或工程师,您拥有使用这些数据做出设计和业务决策的领域知识和经验,但可能需要易于使用的软件分析和建模工具。使用 MATLAB 等工具可提供可扩展性和效率,同时为您的公司提供在全球市场上的竞争优势。
审核编辑:郭婷
-
传感器
+关注
关注
2549文章
50817浏览量
752404 -
matlab
+关注
关注
182文章
2963浏览量
230247 -
大数据
+关注
关注
64文章
8866浏览量
137332
发布评论请先 登录
相关推荐
评论