0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

SparkMLlib GBDT算法工业大数据的实战案例

电子设计 来源:电子设计 作者:电子设计 2020-12-25 17:42 次阅读

在格物汇之前发表的《工业大数据挖掘的利器——Spark MLlib》中提到,Spark 的MLlib组件能够对工业现场海量数据进行高效挖掘,快速呈现结果给业务分析人员。接下来将向大家介绍SparkMLlib 中的GBDT算法,并将应用该算法对工业数据进行代码实战。

1算法概念

GB(Gradient Boosting)梯度提升算法,GB 共需要进行M次迭代,通过采用梯度下降的方法,每次迭代向损失函数的负梯度方向进行移动,从而使损失函数越来越小,进而使模型越来越精确。算法伪代码如下:

GB算法跟原始的Boosting算法相比较,还是有比较明显的区别。

Boosting算法开始的时候,是会给每个样本附上权重的,在每次迭代的时候就会增加错的样本的权重,减少对的样本的权重,经过N次迭代之后,会得到N个分类器,然后我们再将他们组合起来,得到最终模型。

GB算法与Boosting区别是,他的每一次迭代的目标都是减少上一次的残差,所以在残差减少的方向上建立一个新的模型。在GB算法框架上加入决策树,就是GBDT(GradientBoost Decision Tree)算法。

GBDT主要的优点有:

1) 可以灵活处理各种类型的数据,包括连续值和离散值。

2) 在相对少的调参时间情况下,预测的准备率也可以比较高。这个是相对SVM来说的。

3)使用一些健壮的损失函数,对异常值的鲁棒性非常强。比如 Huber损失函数和Quantile损失函数。

4) 很好的利用了弱分类器进行级联。

5) 充分考虑的每个分类器的权重。

6) 可以得到变量间的重要性排序。

GBDT的主要缺点有:

1)由于弱学习器之间存在依赖关系,难以并行训练数据,不过可以通过自采样的SGBT来达到部分并行。

2完整代码实例

工业生产中,产品在制程过程中会有很多特性值,如果能对产品的特性值及时进行预测,得到特性值的具体数值,那么就会帮组业务人员知晓产品的质量,实现产品的全检,并能防止异常产品后流,造成不必要的浪费。

本次实战代码的采用的数据是半导体制程中某一道工序的机台的制程参数值,通过采用SparkMLlib中的GBDT算法对工业现场机台的制程参数进行建模,预测出经过该机台生产之后产品的膜层厚度。

模型最后输出模型性能指标如下:

Mape(Mean Absolute Percentage Error):0.23%

通过上图模型输出的预测值与实际值对比,发现预测出来的产品膜厚的数值走势跟实际数值走势基本符合,mape达到0.5%以内,拟合度相当可观,后续还可以通过样本筛选以及特征工程等手段对该模型进行进一步调优。

在模型达到业务需求的拟合度等指标后,通过该模型进行部署,实现产品的“实时全检”,从而实现产品质量的全面监控,杜绝异常产品后流;与工厂内的抽检系统结合后,降低产品的抽检率,提高工厂的效率。

GBDT算法的用途还是比较广泛的,它不仅可以处理分类问题,能对线性与非线性回归问题进行处理,还能通过输出变量间重要因子排序,方便业务人员快速定位异常变量。在工业现场的顽固异常分析还是产品特性预测等领域,GBDT算法确实是很值得数据分析人员考虑的一种算法。

本文作者:

格创东智大数据工程师黄欢(转载请注明作者及来源)


审核编辑:符乾江
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 智能计算
    +关注

    关注

    0

    文章

    175

    浏览量

    16453
  • 智能制造
    +关注

    关注

    48

    文章

    5475

    浏览量

    76257
  • 工业互联网
    +关注

    关注

    28

    文章

    4297

    浏览量

    94044
  • 工业大数据
    +关注

    关注

    0

    文章

    72

    浏览量

    7824
收藏 人收藏

    评论

    相关推荐

    西北工业大学OpenHarmony技术俱乐部正式揭牌成立

    11月15日,由OpenAtom OpenHarmony(以下简称“OpenHarmony”)项目群技术指导委员会与西北工业大学共同举办的“西北工业大学OpenHarmony技术俱乐部成立大会”在
    的头像 发表于 11-19 18:04 105次阅读
    西北<b class='flag-5'>工业大</b>学OpenHarmony技术俱乐部正式揭牌成立

    基于大数据与深度学习的穿戴式运动心率算法

    性能的关键手段。然而,在复杂多变的运动环境中,准确测量心率数据对于传统算法而言具有较大的技术瓶顶。本文将探讨如何运用大数据和深度学习技术来开发创新的穿戴式运动心率算
    的头像 发表于 09-10 08:03 215次阅读
    基于<b class='flag-5'>大数据</b>与深度学习的穿戴式运动心率<b class='flag-5'>算法</b>

    小鹏汽车荣获2024年机械工业大型重点骨干企业

    近日,由中国机械工业联合会主办的“2024年机械工业大型重点骨干企业发展论坛暨机械、钢铁产业链融通发展大会”在北京举行,小鹏汽车荣获“机械工业大型重点骨干企业”称号。
    的头像 发表于 08-05 10:26 467次阅读

    工业大数据云平台在设备预测性维护中的作用

    ,只有保证设备的安全稳定运行才能保障生产的持续,质量的可靠,提升企业产品竞争力。 因此,企业就需要加强对设备状况的及时把握,并一定程度上实现工业设备预测性维护。为此,数之能提供的工业大数据云平台可以全面接入
    的头像 发表于 06-28 15:31 226次阅读

    感谢湖北工业大学对我司高低温试验箱的认可

    近日,我们收到了来自湖北工业大学的一份重要认可函,这份函件是对我们公司研发的高低温试验箱的高度评价和肯定。在此,我们深感荣幸,并对湖北工业大学表示衷心的感谢。感谢湖北工业大学对我司高低温试验箱的认可
    的头像 发表于 05-29 09:59 271次阅读
    感谢湖北<b class='flag-5'>工业大</b>学对我司高低温试验箱的认可

    海清智元与某央企银行签订行业大模型和AI算法战略合作协议

    海清智元与某央企银行签订行业大模型和AI算法战略合作协议
    的头像 发表于 05-14 14:58 450次阅读
    海清智元与某央企银行签订行<b class='flag-5'>业大</b>模型和AI<b class='flag-5'>算法</b>战略合作协议

    工业大模型的五个基本问题

    工业业大模型是大模型为赋能工业应用所产生的产业新形态,是制造业数字化转型3.0的重要载体,是一个新质体。
    发表于 04-23 16:04 658次阅读
    <b class='flag-5'>工业大</b>模型的五个基本问题

    工业大数据发展面临的问题

    工业大数据作为工业与数字经济之间的桥梁纽带,对加快工业数字化转型、推进数实融合,支撑新型工业化建设意义重大。
    的头像 发表于 04-16 11:52 491次阅读

    什么是国密算法工业网关为什么要支持国密算法

    工业网关是应用于工业物联网关的常见通信交换传输设备,由于在使用过程中通常涉及工业敏感数据,因此也需要支持国密算法实现
    的头像 发表于 01-31 16:55 1095次阅读
    什么是国密<b class='flag-5'>算法</b>?<b class='flag-5'>工业</b>网关为什么要支持国密<b class='flag-5'>算法</b>?

    大数据技术是干嘛的 大数据核心技术有哪些

    大数据技术是指用来处理和存储海量、多类型、高速的数据的一系列技术和工具。现如今,大数据已经渗透到各个行业和领域,对企业决策和业务发展起到了重要作用。本文将详细介绍大数据技术的概念、发展
    的头像 发表于 01-31 11:07 3064次阅读

    基于工业大数据和物联网的智能工厂如何实现

    在中国制造2025及工业4.0技术的加持下,离散制造业的流程工业实现生产设备网络化、生产数据可视化、生产现场无人化等现金数据应用,做到横向与纵向的集成,实现边缘到云端的
    的头像 发表于 12-25 15:32 536次阅读

    诚邀报名|黄向东邀您共话开源工业物联网大数据

    2023 开放原子开发者大会 OPEN ATOM DEVELOPERS CONFERENCE 开源工业物联网大数据分论坛 2023.12.17 物联网与大数据技术的飞速进步,为工业数字
    的头像 发表于 12-20 16:54 348次阅读
    诚邀报名|黄向东邀您共话开源<b class='flag-5'>工业</b>物联网<b class='flag-5'>大数据</b>

    开源工业物联网大数据分论坛圆满举办

    物联网与大数据技术的快速发展,为工业数字化提供了技术支撑。推进新型工业化建设过程中,工业复杂场景离不开底层操作系统、物联网数据采集、
    的头像 发表于 12-20 09:40 834次阅读
    开源<b class='flag-5'>工业</b>物联网<b class='flag-5'>大数据</b>分论坛圆满举办

    诚邀报名|黄向东邀您共话开源工业物联网大数据

    2023开放原子开发者大会 . OPEN ATOM DEVELOPERS CONFERENCE 开源工业物联网大数据分论坛 2023.12.17 物联网与大数据技术 的飞速进步,为工业
    的头像 发表于 12-05 19:35 526次阅读
    诚邀报名|黄向东邀您共话开源<b class='flag-5'>工业</b>物联网<b class='flag-5'>大数据</b>

    电梯物联网大数据平台是什么意思?

    电梯物联网大数据化平台是将电梯的使用时间和管理中的各项数据进行采集,整合及利用大数据分析能力和计算机视觉技术、结合关联分析、空间分析和多维分析等多种分析手段,挖掘对应数据业务
    的头像 发表于 11-23 11:01 789次阅读