工业大数据建模：两个灵魂拷问-电子发烧友网

“

伴随着工业企业对数字化应用需求的日益高涨，基于工业大数据建模，已成为行业内的热议话题。然而在这一过程中，人们常常过度强调数据算法，却忽视业务相关的知识，这给工业模型的实用性和可靠性带来了重重挑战。

”

为什么工业大数据的数据建模如此重要？在建模过程中，企业首要考虑的因素有哪些？又该如何搭建一个符合自身实际需求的模型呢？

请看原宝钢首席研究员、工业大数据资深专家郭朝辉博士，在2022（第十一届）全球自动化和制造主题峰会上的演讲。

郭朝晖演讲内容梗概

工业大数据建模：两个灵魂拷问

为什么有了理论模型，还要数据建模？

任何一个理论模型都需要参数，牛顿定律也不例外，更何况对于复杂的工业系统，若干个子系统都需要各自的参数。但这些参数往往是吃不准，或者有很大误差，或者没法测量，在这个情况下，机理模型不是没有，而是没有用的条件。

工业中有大量知识，这些知识的特点是都可以用物理学原理推导出来。即使算不出来也没关系，把它记录下来下次就会有标准和依据。它也不是理论推导不出来，而是不方便推导，在应用过程中，直接用实际的结果来算就完事了。

很多工业关键知识都实现了标准化，

为什么还要建模？

标准往往都是固定的，所以应对不稳定的生产过程，标准是需要修改的。静态的标准往往不成，我们需要用动态标准来以变应变，这就需要用模型来帮助我们制定标准，所以模型其实也是有用的。

解决完这两个问题，我们要知道标准从何而来。在工业大数据时代，有一种很好的办法——历史上这样发生过，下次再出现问题，就让计算机“跟着学”（NN、KNN、CBR）。我们不用把它想的太复杂，比如深度学习、神经元等，在多数情况下都没那么复杂。

然而，在数据不多的时候，能跟着谁去学呢？过去，对一台设备的故障进行诊断，数据记住后，故障如果十年发生一次，再过10年设备就报废了，有了数据也没机会学。而工业互联网，可以把成千上万台类似的设备放在一起，发生一次故障就可以作为一个知识记下来，这也是工业大数据真正的意义所在。

常见的模型：基准选择+矫正

至于如何提高模型精度，由于生产过程参数在不断变化，“一竿进洞”往往很难达到，这就需要我们分步走，即首先跟着成功案例，选择一个基准来学习，再根据差别进行补缺和调整，以获得更高的精度。当然，现实中调整是需要数据来提供支持的。

比如说X测不到，但你知道变量Z，就可以根据它的变动来做调整。在工业大数据的背景下，数据条件也会越来越好，跟X接近的变量会越来越多，模型也会越来越好。然而，这个过程中也会产生新的问题。过去是Y=f(X,C)，用了Z后真正的数据模型就是Y=H(Z,C)，选不同的Z，H就会不一样。所以工业过程由于缺少数据，由于变量不同，数据模型的结果可能也完全不一样。

现实数据模型和理论模型不一样

那么，工业建模在数据不完整的情况下，如何选择变量？我们需要明确一点，精度并不代表一切，应用价值好才是最终目的。这看似不能接受，但哪怕是微积分在内也是这样。数据建模和机理模型往往是不一样的，但是在一定的范围内有用就行了。

正确认识现实的模型：对错与实用是两码事

当然，在工业大数据的基础上，我们有机会在保障精度的同时追求真实性，这就是所谓的“第四范式”。但这个事情非常难，可能需要一二十年的功夫，因此多数企业在做选择时要慎重。精度、正确性和它的应用范围，有可能是存在矛盾的，要根据实际的需求来决定。

理解实用的模型：精度与可靠性

实用模型的关键有三点：精度、应用范围，以及二者是否是可知和稳定。众所周知，工业领域对于稳定性的要求非常高，模型正确的时候能带来好处，但错误的时候同样会带来坏处。人们常说的平均精度高，就是需要在过程稳定的时候高，而稳定可能占了99%的情况，但人们往往是在过程不稳定的时候需要模型。

传统模型往往只适合特殊情况，因此，如果精度不能持续，精度再高都没用。工业大数据之所以能适合于各种各样的场景，是因为它能拿到对象方方面面的属性，且提供了更多角度来识别场景，以便在具体场景下，也能做识别和精度调整。

此外，很多人对机器学习也有理解偏差。首先，机器学习并不意味着要做多么复杂的模型；另外，智能化时代的模型往往针对大系统，而大系统的参数本身是不断漂移的，如果没有跟着漂移的机制，模型用几天就慢慢不能用了，所以针对生产过程的模型，机器学习就是来应对模型参数漂移的。

此外，只要是基于数据的定量模型，几乎都会有误差，当然有的逻辑模型可能没有误差，或者有的能知道有多大误差等。因此，我们就要考虑误差和应用场景需求的匹配，这非常重要。

实用模型的背后：数据质量是关键

模型使用的根本是高质量的数据。当建立数学模型的时候，人们总希望它的稳定度高，而现实中不稳定是一种常态，对同一对象，这个月和下个月建出的模型，它的数据参数会相差很远。

有一个重要的原因是，我们建模总会在一个工作点，或者特定的场景附近，这样做测量的时候，它的波动相当大的一部分，不是对象参数的波动，而是由于测量过程的干扰。测量精度决定了控制精度，测量误差和实际波动，往往是处在一个数量级上的。

此外，在建模的时候，输入误差不可忽略，这就会导致“有偏估计”，即误差最小的模型往往是错的，因为输入是错的，误差小是“错错得对”引发的。任何一种方程或是建模方法，只要你追求的是误差最小，其实它都会偏离真实的问题。

因此，在模型精度不高时，首先应该关注的不是算法，而是数据质量。宝钢信息技术的奠基人何麟生先生曾提过“数据不落地”，即为了保证数据的真实性，数据的产生和存储过程不经过人。因为很多数据，不是为了建模而产生的，它的质量往往不能达到要求。这涉及到了数据采集过程的标准化，只有解决数据的质量问题，才能把数据建模做好。

工业大数据的意义在于促进智能化

除此之外，数据建模的基本条件，是要让数据的因果关系能对应得上。这听起来简单，但做起来难。数据质量不仅是数据精度的问题，更重要的是数据对应关系，这与采样频度等因素息息相关。我们要知道，工业大数据并不等同于互联网大数据。工业大数据数据“大”，并不能保证做的好，但是数据“大”能为提高数据质量创造条件，并为后期数据建模、根因分析铺平道路。

软件角度看模型：关键还是可靠

现代工业，尤其是自动化程度很高的行业，执行工艺都会让计算机执行，所以现代化工业知识和诀窍，也都写在计算机里面。因此如果不懂计算机软件，是把握不住工艺的细节的，学习知识就会面对“天花板”。

从工业软件的角度认识“模型”

早在20多年前，当时本人建议宝钢公司重视数学模型，领导也给予了充分重视。通过知识和数学模型计算的融合，宝钢经过10多年的努力，全部掌握了引进技术，彻底解决了这类问题，中国钢铁行业再也不会被卡脖子了。

那么，工艺的数学模型是什么？举个例子，工业生产的过程中，在各种事件和场景变化下，我们想要控制某个参数，比如一个钢胚的表面温度，这和传统控制的固定工作点做自动控制是不一样的，需要计算和数学模型两者间进行融合。

有一种计算机概念叫“自动机”，而工业界所说的数学模型，其实就是一种工业APP。要在工业场景不断变化的过程中执行任务，完成控制靠自动化能力，而感知场景的不断变化，则需要通过信息系统，因此，信息系统和控制系统的集成至关重要。

现如今，模型开发80%的时间都会花在保障可靠性上，这也是难点所在。比如要考虑模型运行是否会出现意外、歧义和异常，处理异常的方法是否完备等，为了稳定可靠性，模型的编程方式也会不一样。

软件开发追求的重点不是效率、新颖，而是稳定

结语

我个人认为，软件编程开发适合“有罪推定”原则，即如果你不能证明你的代码是正确的，你就要拿回去重写。因为现场无小事，无论是软件开发还是建模的过程，开发效率高、模型精度高都是次要的，安全稳定性才是最重要的，只有这个问题解决了，模型的实用性才能得到保障。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

建模

建模

+关注

关注
1

文章
309

浏览量
60784
数字化

数字化

+关注

关注
8

文章
8771

浏览量
61880
工业大数据

工业大数据

+关注

关注
0

文章
72

浏览量
7854

原文标题：郭朝晖：回答工业大数据建模的两个灵魂拷问

文章出处：【微信号：控制工程中文版，微信公众号：控制工程中文版】欢迎添加关注！文章转载请注明出处。

ADC124S021同时使用两个通道，两个通道的转换数据发生串扰怎么解决？

用DSP的SPI接口接ADC124S021，如果只是进行单通道的信号采集，则转换后的数值稳定，但是同时使用两个通道时则两个通道的数据发生串扰现象。如，我单独使用2通道，则转换后数值稳定，但是如果

发表于 12-30 07:41

ad如何设置两个元器件的距离

在Altium Designer（简称AD）中设置两个元器件之间的距离，主要是通过设置元器件间的安全间距（Clearance）规则来实现的。这个规则定义了元器件之间、元器件与走线之间以及其他设计元素

发表于 09-02 15:31 •7509次阅读

触发器的两个稳定状态分别是什么

触发器作为数字电路中的基本逻辑单元，具有两个稳定状态，这两个状态通常用于表示二进制数码中的0和1。

发表于 08-12 11:01 •1386次阅读

双稳态电路的两个稳定状态是什么

双稳态电路是一种具有两个稳定状态的电子电路，广泛应用于数字电路、通信系统、存储器等领域。双稳态电路的基本概念双稳态电路是一种具有两个稳定状态的电路，即在没有外部输入信号的情况下，电路可以保持在

发表于 08-11 15:00 •1541次阅读

双稳态触发器的两个基本性质是什么

双稳态触发器（Bistable Trigger）是一种具有两个稳定状态的逻辑电路，广泛应用于数字电路设计中。它具有两个基本性质：记忆性和切换性。一、双稳态触发器的基本概念 1.1 双稳态触发器

发表于 08-11 10:08 •735次阅读

工业大数据云平台在设备预测性维护中的作用

，只有保证设备的安全稳定运行才能保障生产的持续，质量的可靠，提升企业产品竞争力。因此，企业就需要加强对设备状况的及时把握，并一定程度上实现工业设备预测性维护。为此，数之能提供的工业大数据云平台可以全面接入

发表于 06-28 15:31 •261次阅读

两个PLC之间如何交互信号

在工业自动化系统中，PLC（Programmable Logic Controller，可编程逻辑控制器）是核心的控制设备。在许多复杂的应用场景中，需要两个或多个PLC之间进行信号交互，以实现更高

发表于 06-14 16:57 •4520次阅读

请问ad9171的两个输出端口是否支持同时输出两个不同的频率？

你好，关于AD9171芯片我有一个问题，数据手册显示该芯片具有两个输出通道，芯片内部有DAC0和DAC1共两个DAC通道，那么这两个通道是

发表于 05-28 06:20

两个铜片可以形成原电池吗

两个铜片本身不能形成原电池，因为原电池的工作原理依赖于两个不同电位的电极材料之间的氧化还原反应。

发表于 05-21 16:23 •1009次阅读

工业大模型的五个基本问题

工业业大模型是大模型为赋能工业应用所产生的产业新形态，是制造业数字化转型3.0的重要载体，是一个新质体。

发表于 04-23 16:04 •723次阅读

<b class='flag-5'>工业大</b>模型的五<b class='flag-5'>个</b>基本问题

工业大数据发展面临的问题

工业大数据作为工业与数字经济之间的桥梁纽带，对加快工业数字化转型、推进数实融合，支撑新型工业化建设意义重大。

发表于 04-16 11:52 •553次阅读

gis建模与空间分析的区别

进行比较和解析。首先，GIS建模是指将现实世界的地理实体和现象通过计算机技术和方法表达出来，用数字化的方式模拟、描述和分析。GIS建模可以分为两个方面，即地理数据模型和地理过程模型。

发表于 02-25 14:57 •981次阅读

arcgis中如何关联两个属性表

在ArcGIS中，关联两个属性表是一个重要的操作，可以通过此操作将两个表中的数据关联起来，以便进行分析和查询。下面是详细介绍如何在ArcGIS中实现属性表的关联。首先，我们需要明确

发表于 02-25 11:01 •4304次阅读

两个电位器两地控制一个变频器，如何接线？

两个电位器两地控制一个变频器，如何接线？接线方式如下： 1. 首先，明确需要使用的电器设备。在这个场景中，我们需要两个电位器（即可变电阻器）和一个

发表于 02-05 10:13 •5432次阅读

两个机器的时钟怎么同步？

两个机器的时钟怎么同步？在现代社会中，时间同步对于各种科学研究、工业生产和通信技术都具有重要意义。在许多应用程序中，如分布式系统、计算机网络和数据同步等领域，为了确保数据的一致性和准

发表于 01-16 14:26 •1731次阅读

搜索历史