0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

国际纸业:为机器学习魔兽馈送数据

倩倩 来源:lq 作者:国际纸业流程信息 2019-09-20 11:06 次阅读

国际纸业公司拥有 55,000 名员工,年销售额超过 210 亿美元,是世界上最大的纸浆和造纸公司。大规模的生产也会带来大规模的数据:该公司目前跟踪着全球 37 家工厂,近 200 万个活跃的数据点。国际纸业公司的 PI System会产生大量的数据,可以从这些生产数据中挖掘业务洞察力。通过使用 PI System工具深入研究如何收集和组织数据,工程师们能够将数据处理时间缩短 80% 以上,从而使公司新推出的机器学习计划能够更快执行。

国际纸业训练机器算法,作为其“未来之战”现代化计划的一部分

国际纸业公司的工程师致力于高效地处理他们正在使用和生成的海量数据。“我们的工程师们需要花费他们 80% 到 90%的时间来检索和清理数据,”国际纸业公司的化学工程师和流程信息经理Rick Smith 在 OSIsoft 的 PI World 2018 旧金山大会上这样说。“我们支付工资让他们进行决策并改进我们的流程。我们需要以适当的频率向工程师提供正确的数据,以便于他们工作。”

几年前,公司在减少数据检索时间方面做了一些努力。使用 PI OLEDB 工具后,工程师可以将 PI System 数据存档视为关系数据库。通过运行 SQL 查询可以将提取出来的数据自动填充到 Microsoft Excel 电子表格中,而无需在 Excel 内运行耗时的计算。采用这种方法后,国际纸业能够将审计中经常使用的数据检索过程从 3-12小时缩短到 15-45 分钟。

这是一个良好的开端,但后面还有更大的挑战。2017 年,国际纸业发起了一个以数据和机器学习为核心的试点项目,作为其“未来之战”现代化计划的一部分。为了训练机器算法,工程师需要同时在数千个标签上提取几年的历史数据并将这些数据输入机器学习引擎。

为了获取数据检索过程所需的时间值,Smith提出了一个他称之为“年标签”的时间单位:即从单个 PI 数据标签中检索一年的信息所需的时间。因为不同的标签收集数据的间隔不同,所以各个标签的“年标签”值不尽相同,有些甚至差异极大。

Smith 有关检索数据所需时间的初步估计发人深省。使用 10,000 个数据标签一到三年的数据,数据采集间隔为一分钟,会产生大约 160 亿行数据,整个过程需要耗时数月。

“对于我们的数据标签,如果所有标签都是上面这种情形,那么读取三年的数据,将需要100 到 200 天的时间来检索数据。我不了解其他公司的情况,但我们的副总裁可不想等待200 天才开始这个项目,” Smith 说。

国际纸业创建了另外的数据标签,每隔一分钟而不是每隔 1-2 秒写一次数据,从而简化了大数据机器学习的数据提取过程。

优秀的数据管理员的价值

使用 PI System 工具,Smith 开始研究数据,探索如何能减少不必要的存储与数据处理。他发现,在一家造纸厂,不到百分之一的数据标签占据了存档空间的近 37%。对于不同类型的分析,可能需要以不同的频率采集数据。Smith 采用 Asset framework(PI Server 的一部分)为采集频率密集的标签同时设置了较低的采集频率,以较长的间隔来收集相同的数据,在确保数据存档丰富性的同时,实现更快的检索速度。

对于某些数据标签,密集的数据收集频率对于存档很重要,但并非所有分析都需要细粒度的数据。在对一组数据标签进行分析时,Smith发现,与一秒钟间隔的数据相比,一分钟间隔的数据其数据读取时间可以减少 85%。

对数据进行适当的管理和组织,也会使数据检索时间在原来长度的基础上大幅减少。在一项分析中,Smith 使用了 50 个数据标签并在Asset framework 为它们构建了一个结构,这一举措将读取一年数据的时间从 15 分钟以上缩短到 5 分钟以内。通过使用数据平均值而不是工厂仪表上传感器的原始值,将另一项分析的时间从 14 小时缩短到 40 秒。

仔细研究公司的数据如何生成、存储和处理,这一工作平淡无奇,但它所产生的结果却令人瞩目。

“所有系统都需要管理者,”Smith 说。“每个人都想成为架构师。但我们更需要脚踏实地的数据管理员。”

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4622

    浏览量

    93058
  • 数据采集
    +关注

    关注

    39

    文章

    6164

    浏览量

    113784
  • 机器学习
    +关注

    关注

    66

    文章

    8425

    浏览量

    132772
收藏 人收藏

    评论

    相关推荐

    传统机器学习方法和应用指导

    用于开发生物学数据机器学习方法。尽管深度学习(一般指神经网络算法)是一个强大的工具,目前也非常流行,但它的应用领域仍然有限。与深度学习相比
    的头像 发表于 12-30 09:16 259次阅读
    传统<b class='flag-5'>机器</b><b class='flag-5'>学习</b>方法和应用指导

    海康威视携手太阳纸业共推造纸行业数字化转型

    近日,海康威视高级副总裁徐习明带队赴山东济宁太阳纸业,与太阳纸业管理团队探讨交流未来合作方向。后续,双方将基于造纸行业生产、运营环节中的实际需求,探索场景落地数字化应用,共同推动造纸行业数字化转型。
    的头像 发表于 11-19 11:12 347次阅读

    什么是机器学习?通过机器学习方法能解决哪些问题?

    计算机系统自身的性能”。事实上,由于“经验”在计算机系统中主要以数据的形式存在,因此机器学习需要设法对数据进行分析学习,这就使得它逐渐成为智
    的头像 发表于 11-16 01:07 447次阅读
    什么是<b class='flag-5'>机器</b><b class='flag-5'>学习</b>?通过<b class='flag-5'>机器</b><b class='flag-5'>学习</b>方法能解决哪些问题?

    NPU与机器学习算法的关系

    在人工智能领域,机器学习算法是实现智能系统的核心。随着数据量的激增和算法复杂度的提升,对计算资源的需求也在不断增长。NPU作为一种专门深度学习
    的头像 发表于 11-15 09:19 518次阅读

    人工智能、机器学习和深度学习存在什么区别

    人工智能指的是在某种程度上显示出类似人类智能的设备。AI有很多技术,但其中一个很大的子集是机器学习——让算法从数据学习
    发表于 10-24 17:22 2507次阅读
    人工智能、<b class='flag-5'>机器</b><b class='flag-5'>学习</b>和深度<b class='flag-5'>学习</b>存在什么区别

    【《时间序列与机器学习》阅读体验】+ 时间序列的信息提取

    本人有些机器学习的基础,理解起来一点也不轻松,加油。 作者首先说明了时间序列的信息提取是时间序列分析的一个重要环节,目标是从给定的时间序列数据中提取出有用的信息和特征,以支持后续的分析和预测任务,可以
    发表于 08-14 18:00

    【「时间序列与机器学习」阅读体验】+ 简单建议

    这本书以其系统性的框架和深入浅出的讲解,读者绘制了一幅时间序列分析与机器学习融合应用的宏伟蓝图。作者不仅扎实地构建了时间序列分析的基础知识,更巧妙地展示了机器
    发表于 08-12 11:21

    【《时间序列与机器学习》阅读体验】+ 了解时间序列

    收到《时间序列与机器学习》一书,彩色印刷,公式代码清晰,非常精美。感谢作者,感谢电子发烧友提供了一个让我学习时间序列及应用的机会! 前言第一段描述了编写背景: 由此可知,这是一本关于时间序列进行大
    发表于 08-11 17:55

    机器学习中的数据分割方法

    机器学习中,数据分割是一项至关重要的任务,它直接影响到模型的训练效果、泛化能力以及最终的性能评估。本文将从多个方面详细探讨机器学习
    的头像 发表于 07-10 16:10 1944次阅读

    机器学习中的数据预处理与特征工程

    机器学习的整个流程中,数据预处理与特征工程是两个至关重要的步骤。它们直接决定了模型的输入质量,进而影响模型的训练效果和泛化能力。本文将从数据预处理和特征工程的基本概念出发,详细探讨这
    的头像 发表于 07-09 15:57 487次阅读

    机器学习算法原理详解

    机器学习作为人工智能的一个重要分支,其目标是通过让计算机自动从数据学习并改进其性能,而无需进行明确的编程。本文将深入解读几种常见的机器
    的头像 发表于 07-02 11:25 1136次阅读

    机器学习数据分析中的应用

    随着大数据时代的到来,数据量的爆炸性增长对数据分析提出了更高的要求。机器学习作为一种强大的工具,通过训练模型从
    的头像 发表于 07-02 11:22 656次阅读

    深度学习与传统机器学习的对比

    在人工智能的浪潮中,机器学习和深度学习无疑是两大核心驱动力。它们各自以其独特的方式推动着技术的进步,众多领域带来了革命性的变化。然而,尽管它们都属于
    的头像 发表于 07-01 11:40 1433次阅读

    机器学习的经典算法与应用

    关于数据机器学习就是喂入算法和数据,让算法从数据中寻找一种相应的关系。Iris鸢尾花数据集是一个经典数据
    的头像 发表于 06-27 08:27 1679次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>的经典算法与应用

    魔兽世界》未采用生成式AI,利用机器学习实现护甲套装配置

    同时,海特还谈及了团队利用机器学习进行实验的情况。得益于此,《魔兽世界》的 24 个种族已配备新护甲套装。“此前,我们的美术师需每个角色设计单独护甲,再依身高、体态、犄角乃至尾巴等特
    的头像 发表于 04-03 11:38 324次阅读