0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

利用机器学习(CART)来预测合格率

MinitabUG 来源:MinitabUG 作者:MinitabUG 2022-06-01 14:57 次阅读

人类一直试图让机器具有智能,也就是人工智能(Artificial Intelligence)。从上世纪50年代,人工智能的发展经历了“推理期”,通过赋予机器逻辑推理能力使机器获得智能,当时的AI程序能够证明一些著名的数学定理,但由于机器缺乏知识,远不能实现真正的智能。因此,70年代,人工智能的发展进入“知识期”,即将人类的知识总结出来教给机器,使机器获得智能。 无论是“推理期”还是“知识期”,机器都是按照人类设定的规则和总结的知识运作,永远无法超越其创造者,其次人力成本太高。于是,一些学者就想到,如果机器能够自我学习问题不就迎刃而解了吗!机器学习(Machine Learning)方法应运而生,人工智能进入“机器学习时期”。机器学习的核心是“使用算法解析数据,从中学习,然后对世界上的某件事情做出决定或预测”。机器学习最大的突破是2006年的深度学习。深度学习是一类机器学习,目的是模仿人脑的思维过程,经常用于图像和语音识别。深度学习的出现导致了我们今天使用的(可能是理所当然的)许多技术。当你问你的iPhone关于今天的天气时,你的话语会用一种复杂的语音解析算法进行分析。如果没有深度学习,这一切都是不可能的。

机器学习与统计区别

pYYBAGKXDWKACMKNAAA4bACKLDA711.png

poYBAGKXDWWAQAX6AAA5Z5bbFYg105.png

机器学习是一类算法的总称,这些算法企图从大量历史数据中挖掘出其中隐含的规律,并用于预测或者分类,更具体的说,机器学习可以看作是寻找一个函数,输入是样本数据,输出是期望的结果,只是这个函数过于复杂,以至于不太方便形式化表达。
通常学习一个好的函数,分为以下三步:
1、选择一个合适的模型,这通常需要依据实际问题而定,针对不同的问题和任务需要选取恰当的模型。
2、判断一个函数的好坏,这需要确定一个衡量标准,如回归问题一般采用欧式距离,分类问题一般采用交叉验证函数。
3、找出“最好”的函数,如何从众多函数中最快的找出“最好”的那一个,学习得到“最好”的函数后,需要在新样本上进行测试,只有在新样本上表现很好,才算是一个“好”的函数。
机器学习的核心是“使用算法解析数据,从中学习,然后对世界上的某件事情做出决定或预测”。这意味着,与其显式地编写程序来执行某些任务,不如教计算机如何开发一个算法来完成任务。有三种主要类型的机器学习:监督学习、非监督学习和强化学习。

pYYBAGKXDW6ADHLpAABfld12yy8326.png

poYBAGKXDXOAD3JYAAB2N-WRkBM572.png


【案例分享】为了预测过程输出性能,提高客户满意度及产品质量,现从数据库中批量导入了2019年5月份生产报表,检测产品能否满足规格要求及相关生产环境,试分析影响产品质量的相关原因及预测结果。
本例共有9个变量,近5000个测试数据,其数据表如下:

poYBAGKXDXyAOiVTAAFW-HVv7y4985.png

在Minitab最新发布的版本Minitab19.2020中,除了可以将Python的脚本可以导入Minitab加载分析之外,还增加了机器学习的CART分析法。我们将上述案例用CART分析步骤如下:
1、统计---预测分析---CART分类,将响应和影响因子分别填入对应位置

pYYBAGKXDYSAY9L2AAB5JPyPozw611.png

2、点击 先验/成本,设置误分类成本

poYBAGKXDYqAYpQmAABYxWzMidc554.png

误分类成本就是判断错误的风险,例如,在医学影像检测中,把健康的人误诊为病人还不是最糟的情况,只要医生能对诊断结果进行复查,并把健康的这个人找出来就可以了。但反过来,未能诊断出真正的病人而不提供给他任何治疗,则就非常危险了。默认情况下,Minitab 使用相等的成本 1。
3、点击 验证,选择验证方法

pYYBAGKXDY-ATIAGAABmK-smvtA744.png

设置模型验证:数据通常被分为训练数据和测试数据
训练数据(学习数据)通常被用来创建模型及评估模型的系数;测试数据通常检模型性能,通过测试数据得到拟合值,在用训练数据的数据和对应的拟合值进行比较来检验模型的预测性能通过验证,防止模型过度拟合若用同一组数据来拟合模型并评估模型的拟合优度,会导致过度拟合,过度拟合的模型并不能用于很好的预测…..

pYYBAGKXDZSAaRnaAAAi3Ku8Ckg631.png

poYBAGKXDZmAUIZrAABqBExbbyo262.png

4、点击 选项,设置节点分裂方式

poYBAGKXDaCAS7HaAAB89bjVzsY333.png

默认的节点分裂,选择 基尼

pYYBAGKXDaWAWtd6AAAMQM6RLR4860.png

对所有对话框点击 确定,查看Minitab输出(部分):

poYBAGKXDamAbZ2eAABaPxEN2dE293.png


默认情况下,Minitab 为误分类成本在最小误分类成本 1 个标准误内的最小树生成输出。也可以识别最优树的序列中探索其他树。终端节点数越多,模型就越复杂。

pYYBAGKXDa2APy3QAACjjrSgDQI944.png

poYBAGKXDbGARjSOAABWvCxAVaA760.png

ROC曲线指受试者工作特征曲线 / 接收器操作特性曲线(receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。
点击ROC图左下角的预测,可以根据模型预测不同场景下的输出概率。

pYYBAGKXDbiAPR3CAABneA62wHc255.png

总结:

机器学习是目前业界最为火热的一项技术,从网上的每一次淘宝的购买东西,到自动驾驶汽车技术,以及网络攻击抵御系统等等,都有机器学习的因子在内,同时机器学习也是最有可能使人类完成“AI 梦”的一项技术,各种人工智能目前的应用,如微软小冰聊天机器人,到计算机视觉技术的进步,都有机器学习努力的成分。作为全球领先的统计分析软件,Minitab在2018年收购了SPM,并在Minitab.19.2020版中增加了预测分析的CART分类和CART回归功能,能够帮助我们了解一些机器学习的相关知识与概念,更好的理解为我们带来莫大便利技术的背后原理,以及让我们更好的理解当代科技的进程。

审核编辑:符乾江

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 预测分析
    +关注

    关注

    0

    文章

    11

    浏览量

    6440
  • Minitab
    +关注

    关注

    0

    文章

    175

    浏览量

    11707
  • 机器学习
    +关注

    关注

    66

    文章

    8422

    浏览量

    132743
收藏 人收藏

    评论

    相关推荐

    什么是机器学习?通过机器学习方法能解决哪些问题?

    来源:Master编程树“机器学习”最初的研究动机是让计算机系统具有人的学习能力以便实现人工智能。因为没有学习能力的系统很难被认为是具有智能的。目前被广泛采用的
    的头像 发表于 11-16 01:07 437次阅读
    什么是<b class='flag-5'>机器</b><b class='flag-5'>学习</b>?通过<b class='flag-5'>机器</b><b class='flag-5'>学习</b>方法能解决哪些问题?

    制造商利用云技术优化深度学习机器视觉的运行效率

    机器视觉,作为推动中国制造业蓬勃发展的关键技术,已在半导体、电子制造、汽车、医药及食品包装等多个领域展现其广泛应用价值。在此背景下,高工产业研究所(GGII)预测,至2024年,中国机器视觉市场规模将有望超过200亿元,年增长
    的头像 发表于 10-22 14:10 319次阅读

    AI引擎机器学习阵列指南

    云端动态工作负载以及超高带宽网络,同时还可提供高级安全性功能。AI 和数据科学家以及软硬件开发者均可充分利用高计算密度的优势加速提升任何应用的性能。AI 引擎机器学习拥有先进的张量计
    的头像 发表于 09-18 09:16 417次阅读
    AI引擎<b class='flag-5'>机器</b><b class='flag-5'>学习</b>阵列指南

    【《时间序列与机器学习》阅读体验】+ 时间序列的信息提取

    本人有些机器学习的基础,理解起来一点也不轻松,加油。 作者首先说明了时间序列的信息提取是时间序列分析的一个重要环节,目标是从给定的时间序列数据中提取出有用的信息和特征,以支持后续的分析和预测任务,可以
    发表于 08-14 18:00

    【「时间序列与机器学习」阅读体验】+ 鸟瞰这本书

    清晰,从时间序列分析的基础理论出发,逐步深入到机器学习算法在时间序列预测中的应用,内容全面,循序渐进。每一章都经过精心设计,对理论知识进行了详细的阐述,对实际案例进行了生动的展示,使读者在理论与实践
    发表于 08-12 11:28

    【「时间序列与机器学习」阅读体验】+ 简单建议

    这本书以其系统性的框架和深入浅出的讲解,为读者绘制了一幅时间序列分析与机器学习融合应用的宏伟蓝图。作者不仅扎实地构建了时间序列分析的基础知识,更巧妙地展示了机器学习如何在这一领域发挥巨
    发表于 08-12 11:21

    【《时间序列与机器学习》阅读体验】+ 了解时间序列

    。 可以探索现象发展变化的规律,对某些社会经济现象进行预测利用时间序列可以在不同地区或国家之间进行对比分析,这也是统计分析的重要方法之一。 而《时间序列与机器学习》一书的后几章分别
    发表于 08-11 17:55

    【「时间序列与机器学习」阅读体验】全书概览与时间序列概述

    数据中提取特征并将其转化为交易策略,以及机器学习在其他金融领域(包括资产定价、资产配置、波动预测)的应用。 全书彩版印刷,内容结构严整,条理清晰,循序渐进,由浅入深,是很好的时间序列
    发表于 08-07 23:03

    选择对的气密性检测仪,提升汽车塑料盖子合格率

    汽车塑料盖子的合格率具有至关重要的作用。气密性检测仪,顾名思义,是一种用于检测产品密封性能的设备。在汽车塑料盖子的生产过程中,通过气密性检测仪可以精确地测量出盖子
    的头像 发表于 08-01 11:21 207次阅读
    选择对的气密性检测仪,提升汽车塑料盖子<b class='flag-5'>合格率</b>

    深度学习与传统机器学习的对比

    在人工智能的浪潮中,机器学习和深度学习无疑是两大核心驱动力。它们各自以其独特的方式推动着技术的进步,为众多领域带来了革命性的变化。然而,尽管它们都属于机器
    的头像 发表于 07-01 11:40 1420次阅读

    机器学习的经典算法与应用

    关于数据机器学习就是喂入算法和数据,让算法从数据中寻找一种相应的关系。Iris鸢尾花数据集是一个经典数据集,在统计学习机器学习领域都经常被
    的头像 发表于 06-27 08:27 1675次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>的经典算法与应用

    名单公布!【书籍评测活动NO.35】如何用「时间序列与机器学习」解锁未来?

    量化交易的概念、发展历程,如何通过因子挖掘从时间序列数据中提取特征并将其转化为交易策略,以及机器学习在其他金融领域(包括资产定价、资产配置、波动预测)的应用。 本书的两位作者在时间
    发表于 06-25 15:00

    请问PSoC™ Creator IDE可以支持IMAGIMOB机器学习吗?

    我的项目使用 POSC62 MCU 进行开发,由于 UDB 模块是需求的重要组成部分,所以我选择了PSoC™ Creator IDE 进行项目开发。 但现在,由于需要扩展,我不得不使用机器学习模块
    发表于 05-20 08:06

    机器学习怎么进入人工智能

    ,人工智能已成为一个热门领域,涉及到多个行业和领域,例如语音识别、机器翻译、图像识别等。 在编程中进行人工智能的关键是使用机器学习算法,这是一类基于样本数据和模型训练进行
    的头像 发表于 04-04 08:41 340次阅读

    机器学习8大调参技巧

    今天给大家一篇关于机器学习调参技巧的文章。超参数调优是机器学习例程中的基本步骤之一。该方法也称为超参数优化,需要搜索超参数的最佳配置以实现最佳性能。
    的头像 发表于 03-23 08:26 637次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>8大调参技巧