决策树和随机森林模型-电子发烧友网

这是一个系列教程，试图将机器学习这门深奥的课程，以更加浅显易懂的方式讲出来，让没有理科背景的读者都能看懂。

前情提要：这是一个系列教程。如果你刚好第一次看到这篇文章，那么你可能需要收藏一下本篇文章，然后先看一下这个系列的前一篇《文科生都能看懂的机器学习教程：梯度下降、线性回归、逻辑回归》。如果你已经看过了，那么就不再多说，让我们继续吧。

本次主要讲的是决策树和随机森林模型，

决策树

决策树是个超简单结构，我们每天都在头脑中使用它。它代表了我们如何做出决策的表现形式之一，类似if-this-then-that：

首先从一个问题开始；然后给出这个问题的可能答案，然后是这个答案的衍生问题，然后是衍生问题的答案…直到每个问题都有答案。程序员和PM应该这个流程非常熟悉的。

先看一个决策树的例子，决定某人是否应该在特定的一天打棒球。

图片来源：Ramandeep Kaur的 “ 机器学习与决策树”

这棵树从上往下，首先提出一个问题：今天的天气预期如何？接下来会有三种可能的答案：晴；阴；雨。

1. if 天气=晴天，那么判断湿度如何

1. if 湿度高，then 取消

2. if 湿度低，then 去玩

2. if 天气=阴天，then 去

3. if 天气=下雨，then 取消

一棵简单的决策树就出来了。决策树具备以下特性：

决策树用于建模非线性关系（与线性回归模型和逻辑回归模型相反）

决策树可以对分类和连续结果变量进行建模，尽管它们主要用于分类任务（即分类结果变量）

决策树很容易理解！您可以轻松地对它们进行可视化，并准确找出每个分割点发生的情况。您还可以查看哪些功能最重要

决策树容易过拟合。这是因为无论通过单个决策树运行数据多少次，因为只是一系列if-this-then-that语句，所以总是会得到完全相同的结果。这意味着决策树可以非常精确地适配训练数据，但一旦开始传递新数据，它可能无法提供有用的预测

决策树有多种算法，最常用的是ID3（ID代表“迭代二分法”）和CART（CART代表“分类和回归树”）。这些算法中的每一个都使用不同的度量来决定何时分割。ID3树使用信息增益，而CART树使用基尼指数。

ID3树和信息增益

基本上ID3树的全部意义在于最大限度地提高信息收益，因此也被称为贪婪的树。

从技术上讲，信息增益是使用熵作为杂质测量的标准。好吧。我们先来了解一下熵。

简单地说，熵是（dis）顺序的衡量标准，它能够表示信息的缺失流量，或者数据的混乱程度。缺失大量信息的东西被认为是无序的（即具有高度熵），反之则是低度熵。

举例说明：

假设一个凌乱的房间，地板上是脏衣服，也许还有一些乐高积木，或者switch、iPad等等。总之房间非常乱，那么它就是熵很高、信息增益很低。

现在你开始清理这个房间，把散落各处的东西意义归类。那么就是低熵和高信息增益。

好，回到决策树。ID3树将始终做出让他们获得最高收益的决定，更多信息、更少的熵。

在决策树中的可视化的熵

在上面的树中，你可以看到起始点的熵为0.918，而停止点的熵为0.这棵树以高信息增益和低熵结束，这正是我们想要的。

除了向低熵方向发展外，ID3树还将做出让他们获得最高纯度的决定。因为ID3希望每个决定都尽可能清晰，具有低熵的物质也具有高纯度，高信息增益=低熵=高纯度。

其实结合到现实生活中，如果某些事情令人困惑和混乱（即具有高熵），那么对该事物的理解就会是模糊的，不清楚的或不纯的。

CART树和基尼指数

和ID3算法不同，CART算法的决策树旨在最小化基尼指数。

基尼指数可以表示数据集中随机选择的数据点可能被错误分类的频率。我们总是希望最小化错误标记数据可能性对吧，这就是CART树的目的。

线性模型下线性函数的可视化

随机森林

随机森林可以说是初学数据科学家最受欢迎的集合模型。

集合模型顾名思义。是许多其他模型的集合。

来自KDNuggets的随机森林结构。

正如你在左边的图表中看到的3个决策树，像Random Forest这样的集合模型只是一堆决策树。

像随机森林这样的集合模型，旨在通过使用引导聚集算法（装袋算法）来减少过度拟合和方差。

我们知道决策树容易过拟合。换句话说，单个决策树可以很好地找到特定问题的解决方案，但如果应用于以前从未见过的问题则非常糟糕。俗话说三个臭皮匠赛过诸葛亮，随机森林就利用了多个决策树，来应对多种不同场景。

然而在数据科学领域，除了过度拟合，我们还要解决另一个问题叫做方差。具有“高方差”的模型，尽管输入最微小的位改变，其结果也会有很大的变化，类似于失之毫厘谬以千里，这意味着具有高方差的模型不能很好地概括为新数据。

装袋算法

在深入研究随机森林依赖的装袋算法之前，仍然了解一个概念：learner。

在机器学习中，分为弱learner和强learner，装袋算法主要用于处理弱learner。

弱learner

弱learner构成了随机森林模型的支柱，它是一种算法，可以准确地对数据进行预测/分类！

像随机森林这样的集合模型使用装袋算法来避免高方差和过度拟合的缺陷，而单个决策树等更简单的模型更容易出现。

当算法通过随机数据样本建立决策树时，所有数据都是可以被利用起来的。

综上所述：随机森林模型使用装袋算法来构建较少的决策树，每个决策树与数据的随机子集同时构建。

随机森林模型中的每个树不仅包含数据的子集，每个树也只使用数据的特征子集。

随机森林模型的基本结构（随机森林，决策树和集合方法由Dylan Storey 解释）

通过这篇文章，我们学习了所有关于决策树、过度拟合和方差以及随机森林等集合模型。第三部分将介绍两个线性模型：SVM和朴素贝叶斯。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器学习

机器学习

+关注

关注
66

文章
8373

浏览量
132391
数据集

数据集

+关注

关注
4

文章
1205

浏览量
24635
决策树

决策树

+关注

关注
2

文章
96

浏览量
13537

原文标题：文科生也能看懂的机器学习教程2：决策树和随机森林

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

关于决策树，这些知识点不可错过

的一种算法。它既是分类算法，也是回归算法，还可以用在随机森林中。咱们学计算机的同学经常敲if 、else if、else其实就已经在用到决策树的思想了。决策树是一种简单常用的分类器，通

发表于 05-23 09:38

介绍支持向量机与决策树集成等模型的应用

本文主要介绍支持向量机、k近邻、朴素贝叶斯分类、决策树、决策树集成等模型的应用。讲解了支持向量机SVM线性与非线性模型的适用环境，并对核函数技巧作出深入的分析，对线性Linear核函

发表于 09-01 06:57

决策树的生成资料

在本文中，我们将讨论一种监督式学习算法。最新一代意法半导体 MEMS 传感器内置一个基于决策树分类器的机器学习核心（MLC）。这些产品很容易通过后缀中的 X 来识别（例如，LSM6DSOX）。这种

发表于 09-08 06:50

决策树的介绍

关于决策树的介绍，是一些很基础的介绍，不过是英文介绍。

发表于 09-18 14:55 •0次下载

解读决策树与随机森林模型的概念

为什么要引入随机森林呢。我们知道，同一批数据，我们只能产生一颗决策树，这个变化就比较单一了，这就有了集成学习的概念。

发表于 10-18 17:47 •3672次阅读

解读<b class='flag-5'>决策树</b>与<b class='flag-5'>随机</b><b class='flag-5'>森林</b><b class='flag-5'>模型</b>的概念

决策树的构建设计并用Graphviz实现决策树的可视化

种涉及到的算法进行总结并附上自己相关的实现代码。所有算法代码以及用于相应模型的训练的数据都会放到GitHub上。本文中我将一步步通过MLiA的隐形眼镜处方数集构建决策树并使用Graphviz将决策树可视化。

发表于 11-15 13:10 •1.5w次阅读

<b class='flag-5'>决策树</b>的构建设计并用Graphviz实现<b class='flag-5'>决策树</b>的可视化

人工智能机器学习之随机森林(RF)

决策树主要用来解决分类和回归问题，但是决策树（DT）会产生过拟合现象，导致泛化能力变弱。过拟合是建立决策树模型时面临的重要挑战之一。鉴于决策树

发表于 05-30 06:59 •3268次阅读

决策树的原理和决策树构建的准备工作，机器学习决策树的原理

希望通过所给的训练数据学习一个贷款申请的决策树，用于对未来的贷款申请进行分类，即当新的客户提出贷款申请时，根据申请人的特征利用决策树决定是否批准贷款申请。

发表于 10-08 14:26 •5969次阅读

什么是决策树模型，决策树模型的绘制方法

决策树是一种解决分类问题的算法，本文将介绍什么是决策树模型，常见的用途，以及如何使用“亿图图示”软件绘制决策树模型。

发表于 02-18 10:12 •1.3w次阅读

基于遗传优化决策树的建筑能耗预测模型

基于遗传优化决策树的建筑能耗预测模型

发表于 06-27 16:19 •6次下载

使用TensorFlow决策森林创建提升树模型

　　随机森林和梯度提升树这类的决策森林模型通常是处理表格数据最有效的可用工具。与神经网络相比，

发表于 04-19 10:46 •1699次阅读

大数据—决策树

大数据————决策树（decision tree） 决策树（decision tree）：是一种基本的分类与回归方法，主要讨论分类的决策树。在分类问题中，表示基于特征对实例进行分类的过程，可以

发表于 10-20 10:01 •1164次阅读

什么是随机森林？随机森林的工作原理

随机森林使用名为“bagging”的技术，通过数据集和特征的随机自助抽样样本并行构建完整的决策树。虽然决策树基于一组固定的特征，而且经常过拟

发表于 03-18 14:27 •3369次阅读

搜索历史

决策树和随机森林模型

评论

关于决策树，这些知识点不可错过

机器学习的决策树介绍

ML之决策树与随机森林

介绍支持向量机与决策树集成等模型的应用

决策树的生成资料

决策树的介绍

解读决策树与随机森林模型的概念

决策树的构建设计并用Graphviz实现决策树的可视化

人工智能机器学习之随机森林(RF)

决策树的原理和决策树构建的准备工作，机器学习决策树的原理

什么是决策树模型，决策树模型的绘制方法

基于遗传优化决策树的建筑能耗预测模型

使用TensorFlow决策森林创建提升树模型

大数据—决策树

什么是随机森林？随机森林的工作原理