为什么要使用集成学习机器学习建模的偏差和方差-电子发烧友网

我们在生活中做出的许多决定都是基于其他人的意见，而通常情况下由一群人做出的决策比由该群体中的任何一个成员做出的决策会产生更好的结果，这被称为群体的智慧。集成学习（Ensemble Learning）类似于这种思想，集成学习结合了来自多个模型的预测，旨在比集成该学习器的任何成员表现得更好，从而提升预测性能（模型的准确率），预测性能也是许多分类和回归问题的最重要的关注点。

集成学习（Ensemble Learning）是将若干个弱分类器（也可以是回归器）组合从而产生一个新的分类器。（弱分类器是指分类准确率略好于随机猜想的分类器，即error rate 《 0.5）。

集成机器学习涉及结合来自多个熟练模型的预测，该算法的成功在于保证弱分类器的多样性。而且集成不稳定的算法也能够得到一个比较明显的性能提升。集成学习是一种思想。当预测建模项目的最佳性能是最重要的结果时，集成学习方法很受欢迎，通常是首选技术。

为什么要使用集成学习？

（1）性能更好：与任何单个模型的贡献相比，集成可以做出更好的预测并获得更好的性能；

（2）鲁棒性更强：集成减少了预测和模型性能的传播或分散，平滑了模型的预期性能。

（3）更加合理的边界：弱分类器间存在一定差异性，导致分类的边界不同。多个弱分类器合并后，就可以得到更加合理的边界，减少整体的错误率，实现更好的效果；

（4）适应不同样本体量：对于样本的过大或者过小，可分别进行划分和有放回的操作产生不同的样本子集，再使用样本子集训练不同的分类器，最后进行合并；

（5）易于融合：对于多个异构特征数据集，很难进行融合，可以对每个数据集进行建模，再进行模型融合。

机器学习建模的偏差和方差

机器学习模型产生的错误通常用两个属性来描述：偏差和方差。

偏差是衡量模型可以捕获输入和输出之间的映射函数的接近程度。它捕获了模型的刚性：模型对输入和输出之间映射的函数形式的假设强度。

模型的方差是模型在拟合不同训练数据时的性能变化量。它捕获数据的细节对模型的影响。

理想情况下，我们更喜欢低偏差和低方差的模型，事实上，这也是针对给定的预测建模问题应用机器学习的目标。模型性能的偏差和方差是相关的，减少偏差通常可以通过增加方差来轻松实现。相反，通过增加偏差可以很容易地减少方差。

与单个预测模型相比，集成用在预测建模问题上实现更好的预测性能。实现这一点的方式可以理解为模型通过添加偏差来减少预测误差的方差分量（即权衡偏差-方差的情况下）。

集成学习之Bagging思想

Bagging又称自举汇聚法（Bootstrap Aggregating），涉及在同一数据集的不同样本上拟合许多学习器并对预测进行平均，通过改变训练数据来寻找多样化的集成成员。

Bagging思想就是在原始数据集上通过有放回的抽样，重新选择出N个新数据集来分别训练N个分类器的集成技术。模型训练数据中允许存在重复数据。

使用Bagging方法训练出来的模型在预测新样本分类的时候，会使用多数投票或者取平均值的策略来统计最终的分类结果。

基于Bagging的弱学习器（分类器/回归器）可以是基本的算法模型，如Linear、Ridge、Lasso、Logistic、Softmax、ID3、C4.5、CART、SVM、KNN、Naive Bayes等。

随机森林（Random Forest）

1. 随机森林算法原理

随机森林是在Bagging策略的基础上进行修改后的一种算法，方法如下：（1）使用Bootstrap策略从样本集中进行数据采样；（2）从所有特征中随机选择K个特征，构建正常决策树；（3）重复1，2多次，构建多棵决策树；（4）集成多棵决策树，形成随机森林，通过投票表决或取平均值对数据进行决策。

2. 随机森林OOB Error

在随机森林中可以发现Bootstrap采样每次约有1/3的样本不会出现在Bootstrap所采样的样本集合中，当然也没有参加决策树的建立，而这部分数据称之为袋外数据OOB（out of bag），它可以用于取代测试集误差估计方法。

对于已经生成的随机森林，用袋外数据测试其性能，假设袋外数据总数为O，用这O个袋外数据作为输入，带进之前已经生成的随机森林分类器，分类器会给出O个数据相应的分类，因为这O条数据的类型是已知的，则用正确的分类与随机森林分类器的结果进行比较，统计随机森林分类器分类错误的数目，设为X，则袋外数据误差大小为X/O。

优点：这已经经过证明是无偏估计的，所以在随机森林算法中不需要再进行交叉验证或者单独的测试集来获取测试集误差的无偏估计。

缺点：当数据量较小时，Bootstrap采样产生的数据集改变了初始数据集的分布，这会引入估计偏差。

随机森林算法变种

RF算法在实际应用中具有比较好的特性，应用也比较广泛，主要应用在：分类、归回、特征转换、异常点检测等。

以下为常见的RF变种算法：

Extra Trees （ET）

Totally Random Trees Embedding （TRTE）

Isolation Forest （IForest）

1. Extra Trees （ET）

Extra-Trees（Extremely randomized trees，极端随机树）是由Pierre Geurts等人于2006年提出。是RF的一个变种，原理基本和RF一样。

但该算法与随机森林有两点主要的区别：（1）随机森林会使用Bootstrap进行随机采样，作为子决策树的训练集，应用的是Bagging模型；而ET使用所有的训练样本对每棵子树进行训练，也就是ET的每个子决策树采用原始样本训练；（2）随机森林在选择划分特征点的时候会和传统决策树一样（基于信息增益、信息增益率、基尼系数、均方差等），而ET是完全随机的选择划分特征来划分决策树。

对于某棵决策树，由于它的最佳划分特征是随机选择的，因此它的预测结果往往是不准确的，但是多棵决策树组合在一起，就可以达到很好的预测效果。

当ET构建完成，我们也可以应用全部训练样本得到该ET的误差。因为尽管构建决策树和预测应用的都是同一个训练样本集，但由于最佳划分属性是随机选择的，所以我们仍然会得到完全不同的预测结果，用该预测结果就可以与样本的真实响应值比较，从而得到预测误差。如果与随机森林相类比的话，在ET中，全部训练样本都是OOB样本，所以计算ET的预测误差，也就是计算这个OOB误差。

由于Extra Trees是随机选择特征值的划分点，会导致决策树的规模一般大于RF所生成的决策树。也就是说Extra Trees模型的方差相对于RF进一步减少。在某些情况下，ET具有比随机森林更强的泛化能力。

2. Totally Random Trees Embedding （TRTE）

TRTE是一种非监督学习的数据转化方式。它将低维的数据映射到高维，从而让映射到高维的数据更好的应用于分类回归模型。

TRTE算法的转换过程类似RF算法的方法，建立T个决策树来拟合数据。当决策树构建完成后，数据集里的每个数据在T个决策子树中叶子节点的位置就定下来了，将位置信息转换为向量就完成了特征转换操作。

例如，有3棵决策树，每棵决策树有5个叶子节点，某个数据特征x划分到第一个决策树的第3个叶子节点，第二个决策树的第1个叶子节点，第三个决策树的第5个叶子节点。则x映射后的特征编码为（0，0，1，0，0 1，0，0，0，0 0，0，0，0，1），有15维的高维特征。特征映射到高维之后，就可以进一步进行监督学习。

3. Isolation Forest （IForest）IForest是一种异常点检测算法，使用类似RF的方式来检测异常点。

IForest算法和RF算法的区别在于：

（1）在随机采样的过程中，一般只需要少量数据即可；

（2）在进行决策树构建过程中，IForest算法会随机选择一个划分特征，并对划分特征随机选择一个划分阈值；

（3） IForest算法构建的决策树一般深度max_depth是比较小的。

IForest的目的是异常点检测，所以只要能够区分异常数据即可，不需要大量数据；另外在异常点检测的过程中，一般不需要太大规模的决策树。

对于异常点的判断，则是将测试样本x拟合到T棵决策树上。计算在每棵树上该样本的叶子结点的深度ht（x）。从而计算出平均深度h（x）；然后就可以使用下列公式计算样本点x的异常概率值，p（s，m）的取值范围为［0，1］，越接近于1，则是异常点的概率越大。

m为样本个数，ξ 为欧拉常数

随机森林优缺点总结

本文我们一起了解了Bagging思想及其原理，以及基于Bagging的随机森林相关知识。最后，让我们一起总结下随机森林的优缺点：

优点

训练可以并行化，对于大规模样本的训练具有速度的优势；

由于进行随机选择决策树划分特征列表，这样在样本维度比较高的时候，仍然具有比较好的训练性能；

由于存在随机抽样，训练出来的模型方差小，泛化能力强；

实现简单；

对于部分特征缺失不敏感；

可以衡量特征的重要性。

缺点

在某些噪声比较大的特征上，易过拟合；

取值比较多的划分特征对RF的决策会产生更大的影响，从而有可能影响模型的效果。

编辑：jq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

集成学习

集成学习

+关注

关注
0

文章
10

浏览量
7314
分类器

分类器

+关注

关注
0

文章
152

浏览量
13165
数据采样

数据采样

+关注

关注
0

文章
8

浏览量
6654

原文标题：机器学习建模中的Bagging思想

文章出处：【微信号：sessdw，微信公众号：三星半导体互动平台】欢迎添加关注！文章转载请注明出处。

NPU与机器学习算法的关系

在人工智能领域，机器学习算法是实现智能系统的核心。随着数据量的激增和算法复杂度的提升，对计算资源的需求也在不断增长。NPU作为一种专门为深度学习等机器

发表于 11-15 09:19 •128次阅读

eda在机器学习中的应用

在机器学习项目中，数据预处理和理解是成功构建模型的关键。探索性数据分析（EDA）是这一过程中不可或缺的一部分。 1. 数据清洗数据清洗是机器学习

发表于 11-13 10:42 •87次阅读

具身智能与机器学习的关系

具身智能（Embodied Intelligence）和机器学习（Machine Learning）是人工智能领域的两个重要概念，它们之间存在着密切的关系。 1. 具身智能的定义具身智能是指智能体

发表于 10-27 10:33 •256次阅读

人工智能、机器学习和深度学习存在什么区别

人工智能指的是在某种程度上显示出类似人类智能的设备。AI有很多技术，但其中一个很大的子集是机器学习——让算法从数据中学习。

发表于 10-24 17:22 •2428次阅读

人工智能、机器学习和深度学习是什么

在科技日新月异的今天，人工智能（Artificial Intelligence, AI）、机器学习（Machine Learning, ML）和深度学习（Deep Learning, DL）已成为

发表于 07-03 18:22 •1043次阅读

机器学习算法原理详解

机器学习作为人工智能的一个重要分支，其目标是通过让计算机自动从数据中学习并改进其性能，而无需进行明确的编程。本文将深入解读几种常见的机器学习

发表于 07-02 11:25 •711次阅读

机器学习在数据分析中的应用

随着大数据时代的到来，数据量的爆炸性增长对数据分析提出了更高的要求。机器学习作为一种强大的工具，通过训练模型从数据中学习规律，为企业和组织提供了更高效、更准确的数据分析能力。本文将深入探讨机器

发表于 07-02 11:22 •527次阅读

深度学习与传统机器学习的对比

在人工智能的浪潮中，机器学习和深度学习无疑是两大核心驱动力。它们各自以其独特的方式推动着技术的进步，为众多领域带来了革命性的变化。然而，尽管它们都属于机器

发表于 07-01 11:40 •1134次阅读

机器学习的经典算法与应用

关于数据机器学习就是喂入算法和数据，让算法从数据中寻找一种相应的关系。Iris鸢尾花数据集是一个经典数据集，在统计学习和机器学习领域都经常被

发表于 06-27 08:27 •1552次阅读

Allan 方差理论及测量方法

Allan方差起初是为了评估原子钟振荡器的稳定性而提出的，它提供了在不同时间尺度上频率稳定性的可靠测量，而标准偏差等统计量却没有考虑到这一点。在本白皮书中，我们将回顾Allan方差的数学基础，并

发表于 06-07 08:16 •905次阅读

机器学习模型偏差与方差详解

数据集的任何变化都将提供一个不同的估计值，若使用统计方法过度匹配训练数据集时，这些估计值非常准确。一个一般规则是，当统计方法试图更紧密地匹配数据点，或者使用更灵活的方法时，偏差会减少，但方差会增加。

发表于 03-26 11:18 •846次阅读

机器学习8大调参技巧

今天给大家一篇关于机器学习调参技巧的文章。超参数调优是机器学习例程中的基本步骤之一。该方法也称为超参数优化，需要搜索超参数的最佳配置以实现最佳性能。

发表于 03-23 08:26 •554次阅读

人工智能和机器学习的顶级开发板有哪些？

机器学习（ML）和人工智能（AI）不再局限于高端服务器或云平台。得益于集成电路（IC）和软件技术的新发展，在微型控制器和微型计算机上实现机器学习

发表于 02-29 18:59 •735次阅读

英飞凌科技旗下Imagimob可视化Graph UX改变边缘机器学习建模

。用户现在可以将他们的机器学习（ML）建模流程可视化，并利用各种先进功能更加高效、快速地开发适用于边缘设备的模型。Imagimob边缘设备AI/ML开发平台的最新版本对用户体验进行了一次重要升级。全新

发表于 02-19 14:08 •295次阅读

如何使用TensorFlow构建机器学习模型

在这篇文章中，我将逐步讲解如何使用 TensorFlow 创建一个简单的机器学习模型。

发表于 01-08 09:25 •896次阅读