0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

R-sq越高代表模型拟合越好?

MinitabUG 来源:MinitabUG 作者:MinitabUG 2023-03-07 14:13 次阅读

在统计建模中,究竟R-sq应该取多大? 我们经常听到这个疑问。以前,我们分享过如何解释R-Sq,我们还纠正了一个统计上的误区,即较低的R-sq不一定差,较高的R-sq不一定好。显然,“R-sq应该多高”的答案就是:视情况而定。

盲目追求高R-sq的模型很容易掉入过度拟合的陷阱,这一点在大数据建模中经常发现。

什么是好的模型?

我们在建模的时候最不愿意看到两种情况:过度拟合和欠拟合。使用与拟合模型相同的数据来评估模型,经常会导致过度拟合,如下图:

pYYBAGQG2IWAORIbAAAkpuvn0QE877.png

而这种过度拟合的模型如果用来预测的话,效果往往不好。

poYBAGQG2JiASTt0AAAZ4mFmppE906.png

那么什么才算一个好的模型呢?一个好的模型需要在高方差(过度拟合)和高偏差(欠拟合)之间找到一种权衡。

poYBAGQG2MmAVoDiAABNYN1tXU8011.jpg

上图就是由于模型太简单导致存在高的偏差。

poYBAGQG2NuAH5kjAAAjt0NISbo311.png

上图就是由于模型过度拟合导致存在高的方差。

过度拟合与欠拟合之间的权衡

那么如何去找到“高偏差”与“高方差”之间的权衡呢?这就需要用到“验证”法了。

大数据建模把数据分为两大类:训练集和测试集。训练集用来创建模型,而测试集来评估模型的性能,这样我们就可以来权衡过度拟合和欠拟合的模型。

举个例子,对于同一组数据我们可以下面三个不同的模型,看起来立方模型是最好的。

pYYBAGQG2PGAVEDLAABOIXviUzk898.png

但当我们常用验证法,从下图中我们可知,用训练集来建模时,模型越复杂模型误差确实越小,但再来看看测试集你会发现当模型复杂到一定程度,它的误差会随着模型复杂度的增加而增大。也就是说,太简单和太复杂的模型都不能很好的用来预测。看来找到这个权衡点很重要,这是如何做到的呢?这就要来说说所谓的“验证”法了。

poYBAGQG2P-ABdDCAABjtypNRAQ092.jpg

三种验证方法

在Minitab 21版本的回归(拟合回归模型、拟合二值Logistic模型、拟合Poisson模型)和预测分析模块中包含三种用于验证的方法:

poYBAGQG2Q-AW7W_AAAnwRzTu-M593.png

对这三种验证方法做一个简单介绍:

1. 留一验证法

这种方法正如其名,留一留一,就是留下一行yi,再用其他所有数据来建模,得到模型后再把留下来这一行代入得到的模型就会得到对应的拟合者,其过程如下所示:

poYBAGQG2R-AIlRjAABQ8EY-PFY898.jpg

接下来,我们计算预测的残差平方和(Predicted Residual Sum of Squares)

poYBAGQG2S-AVPisAAAQShzkUp8360.png

有了PRESS就可以来计算R-sq(预测)了,到这里是不是很熟悉了。

poYBAGQG2USAW6t2AAAUAAaQT0w449.png

pYYBAGQG2U6AH3KzAAA0t6HnzEc488.png

2. 测试集验证法

随机保留一定比例(Minitab 21默认保留30%)的数据(测试集),用剩余的数据来拟合模型(训练集)。

poYBAGQG2WSAcIAFAAH2asczHwo877.png

3. K折交叉验证法

将数据拆分个K个子集,以其中一份为测试数据,其它K-1份用于训练数据来拟合模型。使用测试数据计算误差,重复k次,每次忽略一份,基于测试数据误差统计汇总信息选择模型。

pYYBAGQG2XeAV1x-AAK9wLH7ku4772.png

小结

当你询问R-sq应该取多大时,可能是因为你想确定当前模型是否能够满足要求。我希望你有更好的方法来解决这这个问题而不是只通过R-sq,尤其当你的数据量和数据维度比较大的时候。

审核编辑黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Minitab
    +关注

    关注

    0

    文章

    173

    浏览量

    11681
  • 统计建模
    +关注

    关注

    0

    文章

    3

    浏览量

    5704
收藏 人收藏

    评论

    相关推荐

    matlab应用-曲线拟合工具箱拟合曲线模型

    R-square: 0.997RMSE: 0.8263analysis功能是曲线拟合工具箱拟合仅能拟合单变量曲线模型
    发表于 11-03 15:31

    电容额定电压越高越好

    `  谁来阐述一下电容额定电压是否越高越好?`
    发表于 09-19 09:03

    模型的过拟合之欠拟合总体解决方案

    15 模型的过拟合 & 欠拟合 & 总体解决方案
    发表于 05-15 07:49

    电池容量越高越好吗?

    电池容量越高越好吗?不同型号(特别是不同体积)的电池,他的容量越高,提供使用的时间越长.抛开体积和重量的因素,当然容量越高越好. 但是同样的
    发表于 09-07 01:48 1854次阅读

    电池的容量越高越好吗 ?

    电池的容量越高越好吗? 同型号(特别是不同体积)的电池,他的容量越高,提供使用的时间越长.抛开体积和重量的因素,当然容量越高越好. 但是同
    发表于 10-21 10:19 1510次阅读

    对讲机灵敏度是否越高越好

    对讲机灵敏度是否越高越好 灵敏度并非越高越好 有人经常常吹嘘灵敏度越高越好,然而
    发表于 02-08 08:48 8063次阅读

    电池容量越高越好吗?

    电池容量越高越好吗? 不同型号(特别是不同体积)的电池,他的容量越高,提供使用的时间越长.抛开体积和重量的因素,当然容量越高
    发表于 09-06 11:07 1540次阅读

    为什么AD位数越高越好AD位数是如何影响信号幅值的

    数据采集设备一个重要的指标就是AD位数,我们都知道AD位数越高越好。但这个“好”到底体现在哪些方面呢?AD位数到底对数据采集有哪些影响呢?
    的头像 发表于 02-03 08:29 2.4w次阅读
    为什么AD位数<b class='flag-5'>越高</b><b class='flag-5'>越好</b>AD位数是如何影响信号幅值的

    处理器频率越高越好

    CPU处理器作为电脑最核心的硬件,大家在买CPU的时候,一般都是看CPU主频、核心数等参数。现在问题来了,CPU主频越高越好吗?笔记本电脑在长时间的高温状态下运行会影响硬件寿命,那么我们可以稍微手动限制CPU频率。下面,小编给大家介绍cpu是否主频
    的头像 发表于 04-02 14:58 3.7w次阅读

    显示器上的色域是什么 是不是越高越好

    究竟什么是色域,色域是不是越高越好
    的头像 发表于 10-23 09:56 9.7w次阅读

    手机处理器越高越好

     处理器对系统性能有着很大的影响,那么手机处理器频率越高就越好吗?
    发表于 01-03 07:31 1.8w次阅读

    导热胶带的导热系数越高是否代表性能越好

    很多人都有同一个观念,就是以为导热胶带的导热系数越高代表这个产品性能越好,而市面上呢,也已经有标着导热系数1.5w/mk或更高的导热胶带出现,若不是近期小编的一个客户一直纠结要求提供1.5w/mk
    发表于 04-18 09:13 1614次阅读

    选择振动传感器,测量精度越高越好

    如何选择振动传感器?测量精度越高越好?快来听听专业人士的解答吧!
    的头像 发表于 03-21 11:40 626次阅读
    选择振动传感器,测量精度<b class='flag-5'>越高</b><b class='flag-5'>越好</b>?

    磁环绕线电感精度等级越高越好

    电子发烧友网站提供《磁环绕线电感精度等级越高越好吗.docx》资料免费下载
    发表于 05-23 09:23 0次下载

    避雷针的接闪概率越高越好还是越低越好

    电子发烧友网站提供《避雷针的接闪概率越高越好还是越低越好.docx》资料免费下载
    发表于 08-01 14:19 0次下载