决策树的构建设计并用Graphviz实现决策树的可视化 - 全文

最近打算系统学习下机器学习的基础算法，避免眼高手低，决定把常用的机器学习基础算法都实现一遍以便加深印象。本文为这系列博客的第一篇，关于决策树(Decision Tree)的算法实现，文中我将对决策树种涉及到的算法进行总结并附上自己相关的实现代码。所有算法代码以及用于相应模型的训练的数据都会放到GitHub上。

本文中我将一步步通过MLiA的隐形眼镜处方数集构建决策树并使用Graphviz将决策树可视化。

决策树学习

决策树学习是根据数据的属性采用树状结构建立的一种决策模型，可以用此模型解决分类和回归问题。常见的算法包括 CART, ID3, C4.5等。我们往往根据数据集来构建一棵决策树，他的一个重要任务就是为了数据中所蕴含的知识信息，并提取出一系列的规则，这些规则也就是树结构的创建过程就是机器学习的过程。

决策树的结构

以下面一个简单的用于是否买电脑预测的决策树为例子，树中的内部节点表示某个属性，节点引出的分支表示此属性的所有可能的值，叶子节点表示最终的判断结果也就是类型。

决策树的构建设计并用Graphviz实现决策树的可视化

借助可视化工具例如Graphviz，matplotlib的注解等等都可以讲我们创建的决策树模型可视化并直接被人理解，这是贝叶斯神经网络等算法没有的特性。

决策树算法

决策树算法主要是指决策树进行创建中进行树分裂(划分数据集)的时候选取最优特征的算法，他的主要目的就是要选取一个特征能够将分开的数据集尽量的规整，也就是尽可能的纯. 最大的原则就是: 将无序的数据变得更加有序。

这里总结下三个常用的方法:
1.信息增益
2.增益比率
3.基尼不纯度

信息增益

这里涉及到了信息论中的一些概念：某个事件的信息量，信息熵，信息增益等, 关于事件信息的通俗解释可以看知乎上的一个回答

某个事件 i 的信息量: 这个事件发生的概率的负对数

信息熵就是平均而言一个事件发生得到的信息量大小，也就是信息量的期望值

决策树的构建设计并用Graphviz实现决策树的可视化

任何一个序列都可以获取这个序列的信息熵，也就是将此序列分类后统计每个类型的概率，再用上述公式计算，使用Python实现如下:
def get_shanno_entropy(self, values):
''' 根据给定列表中的值计算其Shanno Entropy
'''
uniq_vals = set(values)
val_nums = {key: values.count(key) for key in uniq_vals}
probs = [v/len(values) for k, v in val_nums.items()]
entropy = sum([-prob*log2(prob) for prob in probs])
return entropy

信息增益

我们将一组数据集进行划分后，数据的信息熵会发生改变，我们可以通过使用信息熵的计算公式分别计算被划分的子数据集的信息熵并计算他们的平均值(期望值)来作为分割后的数据集的信息熵。新的信息熵的相比未划分数据的信息熵的减小值便是信息增益了. 这里我在最初就理解错了，于是写出的代码并不能创建正确的决策树。

假设我们将数据集D划分成kk 份D1,D2,…,Dk，则划分后的信息熵为:

信息增益便是两个信息熵的差值

在这里我主要使用信息增益来进行属性选择，具体的实现代码如下:
def choose_best_split_feature(self, dataset, classes):
''' 根据信息增益确定最好的划分数据的特征

:param dataset: 待划分的数据集
:param classes: 数据集对应的类型

:return: 划分数据的增益最大的属性索引
'''
base_entropy = self.get_shanno_entropy(classes)

feat_num = len(dataset[0])
entropy_gains = []
for i in range(feat_num):
splited_dict = self.split_dataset(dataset, classes, i)
new_entropy = sum([
len(sub_classes)/len(classes)*self.get_shanno_entropy(sub_classes)
for _, (_, sub_classes) in splited_dict.items()
])
entropy_gains.append(base_entropy - new_entropy)

return entropy_gains.index(max(entropy_gains))

增益比率

增益比率是信息增益方法的一种扩展，是为了克服信息增益带来的弱泛化的缺陷。因为按照信息增益选择，总是会倾向于选择分支多的属性，这样会是的每个子集的信息熵最小。例如给每个数据添加一个第一无二的id值特征，则按照这个id值进行分类是获得信息增益最大的，这样每个子集中的信息熵都为0，但是这样的分类便没有任何意义，没有任何泛化能力，类似过拟合。

因此我们可以通过引入一个分裂信息来找到一个更合适的衡量数据划分的标准，即增益比率。

分裂信息的公式表示为:

可见如果数据分的越多，分裂信息的值就会越大

这时候把分裂信息的值放到分母上便会中和信息增益带来的弊端。

当然SplitInfo有可能趋近于0，这个时候增益比率就会变得非常大而不可信，因此有时还需在分母上添加一个平滑函数，具体的可以参考参考部分列出的文章

基尼不纯度(Gini impurity)

基尼不纯度的定义:

其中m 表示数据集D 中类别的个数, pi 表示某种类型出现的概率。可见当只有一种类型的时候基尼不纯度的值为0，此时不纯度最低。

针对划分成k个子数据集的数据集的基尼不纯度可以通过如下式子计算:

由此我们可以根据不纯度的变化来选取最有的树分裂属性

树分裂

有了选取最佳分裂属性的算法，下面我们就需要根据选择的属性来将树进一步的分裂。所谓树分裂只不过是根据选择的属性将数据集划分，然后在总划分出来的数据集中再次调用选取属性的方法选取子数据集的中属性。实现的最好方式就是递归了.

关于用什么数据结构来表示决策树，在Python中可以使用字典很方便的表示决策树的嵌套，一个树的根节点便是属性，属性对应的值又是一个新的字典，其中key为属性的可能值，value为新的子树。

下面是我使用Python实现的根据数据集创建决策树：
def create_tree(self, dataset, classes, feat_names):
''' 根据当前数据集递归创建决策树

:param dataset: 数据集
:param feat_names: 数据集中数据相应的特征名称
:param classes: 数据集中数据相应的类型

:param tree: 以字典形式返回决策树
'''
# 如果数据集中只有一种类型停止树分裂
if len(set(classes)) == 1:
return classes[0]

# 如果遍历完所有特征，返回比例最多的类型
if len(feat_names) == 0:
return get_majority(classes)

# 分裂创建新的子树
tree = {}
best_feat_idx = self.choose_best_split_feature(dataset, classes)
feature = feat_names[best_feat_idx]
tree[feature] = {}

# 创建用于递归创建子树的子数据集
sub_feat_names = feat_names[:]
sub_feat_names.pop(best_feat_idx)

splited_dict = self.split_dataset(dataset, classes, best_feat_idx)
for feat_val, (sub_dataset, sub_classes) in splited_dict.items():
tree[feature][feat_val] = self.create_tree(sub_dataset,
sub_classes,
sub_feat_names)
self.tree = tree
self.feat_names = feat_names

return tree

树分裂的终止条件有两个

一个是遍历完所有的属性
可以看到，在进行树分裂的时候，我们的数据集中的数据向量的长度是不断缩短的，当缩短到0时，说明数据集已经将所有的属性用尽，便也分裂不下去了, 这时我们选取最终子数据集中的众数作为最终的分类结果放到叶子节点上.

另一个是新划分的数据集中只有一个类型。
若某个节点所指向的数据集都是同一种类型，那自然没有必要在分裂下去了即使属性还没有遍历完.

构建一棵决策树

这我用了一下MLiA书上附带的隐形眼镜的数据来生成一棵决策树，数据中包含了患者眼部状况以及医生推荐的隐形眼镜类型.

首先先导入数据并将数据特征同类型分开作为训练数据用于生成决策树
from trees import DecisionTreeClassifier

lense_labels = ['age', 'prescript', 'astigmatic', 'tearRate']
X = []
Y = []

with open('lenses.txt', 'r') as f:
for line in f:
comps = line.strip().split('\t')
X.append(comps[: -1])
Y.append(comps[-1])

生成决策树:
clf = DecisionTreeClassifier()
clf.create_tree(X, Y, lense_labels)

查看生成的决策树:
In [2]: clf.tree
Out[2]:
{'tearRate': {'normal': {'astigmatic': {'no': {'age': {'pre': 'soft',
'presbyopic': {'prescript': {'hyper': 'soft', 'myope': 'no lenses'}},
'young': 'soft'}},
'yes': {'prescript': {'hyper': {'age': {'pre': 'no lenses',
'presbyopic': 'no lenses',
'young': 'hard'}},
'myope': 'hard'}}}},
'reduced': 'no lenses'}}

可视化决策树

直接通过嵌套字典表示决策树对人来说不好理解，我们需要借助可视化工具可视化树结构，这里我将使用Graphviz来可视化树结构。为此实现了讲字典表示的树生成Graphviz Dot文件内容的函数，大致思想就是递归获取整棵树的所有节点和连接节点的边然后将这些节点和边生成Dot格式的字符串写入文件中并绘图。

递归获取树的节点和边，其中使用了uuid给每个节点添加了id属性以便将相同属性的节点区分开.
def get_nodes_edges(self, tree=None, root_node=None):
''' 返回树中所有节点和边
'''
Node = namedtuple('Node', ['id', 'label'])
Edge = namedtuple('Edge', ['start', 'end', 'label'])

if tree is None:
tree = self.tree

if type(tree) is not dict:
return [], []

nodes, edges = [], []

if root_node is None:
label = list(tree.keys())[0]
root_node = Node._make([uuid.uuid4(), label])
nodes.append(root_node)

for edge_label, sub_tree in tree[root_node.label].items():
node_label = list(sub_tree.keys())[0] if type(sub_tree) is dict else sub_tree
sub_node = Node._make([uuid.uuid4(), node_label])
nodes.append(sub_node)

edge = Edge._make([root_node, sub_node, edge_label])
edges.append(edge)

sub_nodes, sub_edges = self.get_nodes_edges(sub_tree, root_node=sub_node)
nodes.extend(sub_nodes)
edges.extend(sub_edges)

return nodes, edges

生成dot文件内容
def dotify(self, tree=None):
''' 获取树的Graphviz Dot文件的内容
'''
if tree is None:
tree = self.tree

content = 'digraph decision_tree {\n'
nodes, edges = self.get_nodes_edges(tree)

for node in nodes:
content += ' "{}" [label="{}"];\n'.format(node.id, node.label)

for edge in edges:
start, label, end = edge.start, edge.label, edge.end
content += ' "{}" -> "{}" [label="{}"];\n'.format(start.id, end.id, label)
content += '}'

return content

隐形眼镜数据生成Dot文件内容如下:
digraph decision_tree {
"959b4c0c-1821-446d-94a1-c619c2decfcd" [label="call"];
"18665160-b058-437f-9b2e-05df2eb55661" [label="to"];
"2eb9860d-d241-45ca-85e6-cbd80fe2ebf7" [label="your"];
"bcbcc17c-9e2a-4bd4-a039-6e51fde5f8fd" [label="areyouunique"];
"ca091fc7-8a4e-4970-9ec3-485a4628ad29" [label="02073162414"];
"aac20872-1aac-499d-b2b5-caf0ef56eff3" [label="ham"];
"18aa8685-a6e8-4d76-bad5-ccea922bb14d" [label="spam"];
"3f7f30b1-4dbb-4459-9f25-358ad3c6d50b" [label="spam"];
"44d1f972-cd97-4636-b6e6-a389bf560656" [label="spam"];
"7f3c8562-69b5-47a9-8ee4-898bd4b6b506" [label="i"];
"a6f22325-8841-4a81-bc04-4e7485117aa1" [label="spam"];
"c181fe42-fd3c-48db-968a-502f8dd462a4" [label="ldn"];
"51b9477a-0326-4774-8622-24d1d869a283" [label="ham"];
"16f6aecd-c675-4291-867c-6c64d27eb3fc" [label="spam"];
"adb05303-813a-4fe0-bf98-c319eb70be48" [label="spam"];
"959b4c0c-1821-446d-94a1-c619c2decfcd" -> "18665160-b058-437f-9b2e-05df2eb55661" [label="0"];
"18665160-b058-437f-9b2e-05df2eb55661" -> "2eb9860d-d241-45ca-85e6-cbd80fe2ebf7" [label="0"];
"2eb9860d-d241-45ca-85e6-cbd80fe2ebf7" -> "bcbcc17c-9e2a-4bd4-a039-6e51fde5f8fd" [label="0"];
"bcbcc17c-9e2a-4bd4-a039-6e51fde5f8fd" -> "ca091fc7-8a4e-4970-9ec3-485a4628ad29" [label="0"];
"ca091fc7-8a4e-4970-9ec3-485a4628ad29" -> "aac20872-1aac-499d-b2b5-caf0ef56eff3" [label="0"];
"ca091fc7-8a4e-4970-9ec3-485a4628ad29" -> "18aa8685-a6e8-4d76-bad5-ccea922bb14d" [label="1"];
"bcbcc17c-9e2a-4bd4-a039-6e51fde5f8fd" -> "3f7f30b1-4dbb-4459-9f25-358ad3c6d50b" [label="1"];
"2eb9860d-d241-45ca-85e6-cbd80fe2ebf7" -> "44d1f972-cd97-4636-b6e6-a389bf560656" [label="1"];
"18665160-b058-437f-9b2e-05df2eb55661" -> "7f3c8562-69b5-47a9-8ee4-898bd4b6b506" [label="1"];
"7f3c8562-69b5-47a9-8ee4-898bd4b6b506" -> "a6f22325-8841-4a81-bc04-4e7485117aa1" [label="0"];
"7f3c8562-69b5-47a9-8ee4-898bd4b6b506" -> "c181fe42-fd3c-48db-968a-502f8dd462a4" [label="1"];
"c181fe42-fd3c-48db-968a-502f8dd462a4" -> "51b9477a-0326-4774-8622-24d1d869a283" [label="0"];
"c181fe42-fd3c-48db-968a-502f8dd462a4" -> "16f6aecd-c675-4291-867c-6c64d27eb3fc" [label="1"];
"959b4c0c-1821-446d-94a1-c619c2decfcd" -> "adb05303-813a-4fe0-bf98-c319eb70be48" [label="1"];
}

这样我们便可以使用Graphviz将决策树绘制出来
with open('lenses.dot', 'w') as f:
dot = clf.tree.dotify()
f.write(dot)

dot -Tgif lenses.dot -o lenses.gif

效果如下:

决策树的构建设计并用Graphviz实现决策树的可视化

使用生成的决策树进行分类

对未知数据进行预测，主要是根据树中的节点递归的找到叶子节点即可。z这里可以通过为递归进行优化，代码实现如下:
def classify(self, data_vect, feat_names=None, tree=None):
''' 根据构建的决策树对数据进行分类
'''
if tree is None:
tree = self.tree

if feat_names is None:
feat_names = self.feat_names

# Recursive base case.
if type(tree) is not dict:
return tree

feature = list(tree.keys())[0]
value = data_vect[feat_names.index(feature)]
sub_tree = tree[feature][value]

return self.classify(feat_names, data_vect, sub_tree)

决策树的存储

通过字典表示决策树，这样我们可以通过内置的pickle或者json模块将其存储到硬盘上，同时也可以从硬盘中读取树结构，这样在数据集很大的时候可以节省构建决策树的时间.
def dump_tree(self, filename, tree=None):
''' 存储决策树
'''
if tree is None:
tree = self.tree

with open(filename, 'w') as f:
pickle.dump(tree, f)

def load_tree(self, filename):
''' 加载树结构
'''
with open(filename, 'r') as f:
tree = pickle.load(f)
self.tree = tree
return tree

总结

本文一步步实现了决策树的实现, 其中使用了ID3算法确定最佳划分属性，并通过Graphviz可视化了构建的决策树。

参考:

《Machine Learning in Action》

数据挖掘系列（6）决策树分类算法

阅读全文

上一页 1 2 3全文

本文导航

机器学习(130423) 机器学习(130423)

机器学习中常用的决策树算法技术解析

决策树是最重要的机器学习算法之一，其可被用于分类和回归问题。本文中，我们将介绍分类部分。

2020-10-12 16:39:34

1112

一种基于决策树的飞机级故障诊断建模方法研究

、预测和管理飞机的运行状态。鉴于此，将机器学习中的决策树算法应用到故障诊断技术中，建立了复杂的数学模型，提出了一种基于飞机状态参数构成的决策树的飞机级故障诊断建模方法，对飞机健康管理应用的发展具有一定的参考意义，有利于健康管理系统朝着更加综合化、智能化、网络化和标准化的方向发展。

2023-11-16 16:40:27

453

决策树：技术全解与案例实战

决策树算法是机器学习领域的基石之一，其强大的数据分割能力让它在各种预测和分类问题中扮演着重要的角色。

2023-12-13 09:49:56

400

决策支持系统在电子政务中的应用

(G2G)和***机构内部事务处理三大方面n1。电子政务系统构建包括电子政务网络平台建设、***门户网站建设、***内部办公自动化建设、***内部管理系统、决策支持系统等系统的建设．为***信息管理

2011-03-04 14:16:26

决策树在机器学习的理论学习与实践

决策树在机器学习的理论学习与实践

2019-09-20 12:48:44

决策树的生成资料

MLC 可以在传感器中以极低的功耗执行程序化决策树。关于这些设备中机器学习核心的更多详细信息请参见相关应用笔记（LSM6DSOX 请参见 AN5259、LSM6DSRX 请参见 AN5393

2023-09-08 06:50:22

可视化MES系统软件

和客户都会造成损失，为了更好的满足客户需求、实现企业信息化，目前企业制造过程中主要还存在以下需求：（1）数据可视化方面。MES系统软件之所以能有效的监控整个车间的生产过程，主要是通过对制造过程中

2018-11-30 19:55:32

Excel的分类算法

Excel-分类算法-决策树

2019-05-10 11:05:28

ISM330DHCX中可用的机器学习内核功能信息

本文档旨在提供 ISM330DHCX 中可用的机器学习内核功能信息。机器学习处理能力允许将一些算法从应用处理器转移到 MEMS传感器，从而持续降低功耗。通过决策树逻辑获得机器学习处理能力。决策树是由

2023-09-08 07:53:52

ML之决策树与随机森林

ML--决策树与随机森林

2020-07-08 12:31:39

keras可视化介绍

, 0.24421487748622894]5 训练过程的可视化：keras + Tensorboard Tensorboard提供训练过程可视化的功能，是通过keras的回调函数来实现的。 # 截取部分代码如下

2023-08-18 07:53:59

三维可视化的应用和优势

的整体态势。　　比如设备在偏僻区域（海下、深山、沙漠、分布全国各地等），可以实现无人检测，无需消耗人力物力进行检测，通过三维数据的分析可以直观的探测出设备状态和产能。　　设备运行可视化：根据图像

2020-12-02 11:52:33

不可错过 | 集成学习入门精讲

的估计区间 4、随机森林随机森林（Random Forest）是Bagging的扩展变体。随机森林在以决策树为基学习器构建Bagging集成的基础上，进一步在决策树的训练过程中引入了随机属性选择。简单

2018-06-06 10:11:38

人工智能基本概念机器学习算法

目录人工智能基本概念机器学习算法1. 决策树2. KNN3. KMEANS4. SVM5. 线性回归深度学习算法1. BP2. GANs3. CNN4. LSTM应用人工智能基本概念数据集：训练集

2021-09-06 08:21:17

人工智能算法有哪些？

决策树决策树是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形

2022-03-05 14:15:07

介绍支持向量机与决策树集成等模型的应用

本文主要介绍支持向量机、k近邻、朴素贝叶斯分类、决策树、决策树集成等模型的应用。讲解了支持向量机SVM线性与非线性模型的适用环境，并对核函数技巧作出深入的分析，对线性Linear核函数、多项式

2021-09-01 06:57:36

关于决策树，这些知识点不可错过

可以实现对未知的数据进行高效分类。从开头狼人杀的例子中也可以看出，决策树模型具有较好的可读性和描述性，能够帮助我们更高效率地去分析问题。举个例子，普通人去银行贷款的时候，银行会根据相应条件，来判断贷款人

2018-05-23 09:38:48

分类与回归方法之决策树

统计学习方法决策树

2019-11-05 13:40:43

基于决策树的CART算法识别印第安人糖尿病患者

利用决策树中CART算法识别印第安人糖尿病患者

2019-05-06 12:16:27

基于无线的应急现场可视化协作系统设计

的BYOD应用环境，从而实现随时、随地、随心地跨网络、跨系统、跨设备的应急现场实时再现、可视化沟通与协作，达到应急快速响应、无障碍联动协作、远程应急指挥和决策等。系统可实现的应急现场主要业务有：（1）当

2013-07-26 18:10:02

基于机器学习的车位状态预测方法

本发明公开一种基于机器学习的车位状态预测方法，基于历史数据，建立回归决策树模型进而构建改进决策树模型，对每个区域的停车率进行预测，基于停车率和用户喜好度为用户推荐相应的停车区域，获取相应停车区域

2023-09-21 07:24:58

奥威BI数据可视化软件|让业务独立自主分析

增加。怎么才能提高分析效率？BI数据可视化软件的零编程构建分析模型，让业务独立自助分析的做法也就应运而生了。零编程构建分析模型这种做法有两个明显的好处，一个是提高了数据分析的效率，另一个则是提高了数据

2023-04-11 10:29:43

如何在STM32cube中使用最终模型？

的我正在使用 LSM6DSOX 和 ProfiMEMS 板。我基于 WEKA（决策树）创建了我的模型，并在 Unico v.8 中对其进行了测试并且它有效。现在的问题是如何在 STM32cube 中使用我的最终模型（我在 MLC 中加载的模型）？程序如何？预先感谢您的帮助。

2023-01-12 09:14:43

如何把AD中非可视化区域物件移到可视化区域？

AD中非可视化区域物件怎么移到可视化区域？？？

2019-09-10 05:36:41

如何用UNICO来配置元分类器呢？

我正在开发一个超低功耗应用程序，其中 LSM6DSO32X 的 MLC 用于在发生有趣的事情时唤醒 mcu，特别是我实现了两个决策树，每个决策树都专注于模式检测。为了减少错误唤醒，我想仅在两棵树中

2022-12-22 06:26:34

如何规划出完美的机器学习入门路径？| AI知识科普

的分类器，通过训练好的决策树可以实现对未知的数据进行高效分类。举个例子，普通人去银行贷款的时候，银行会根据相应条件，来判断贷款人是否具有还贷能力。贷款用户主要具备三个属性：房产、婚姻、平均月收入。拥有

2018-07-27 12:54:20

怎样使用UNICO生成具有多个决策树的UCF文件呢

使用 UNICO（v9.10.0.0），生成具有多个决策树的 UCF 文件的过程似乎是：1.加载所有决策树的所有测试数据，像对单个树一样标记每个数据集（大概标签需要在所有树中是唯一的）2.使用MLC

2022-12-26 06:30:11

数据挖掘十大经典算法，你都知道哪些！

的所有需求。而这三类里又包含许多经典算法。而今天，小编就给大家介绍下数据挖掘中最经典的十大算法，希望它对你有所帮助。一、分类决策树算法C4.5C4.5，是机器学习算法中的一种分类决策树算法，它是决策树

2018-11-06 17:02:30

有数据中台，企业级数据决策效率会更高吗？

数据中台能够快速集中多个数据源，统一数据分析口径，打破数据孤岛，便于企业更精准、及时地匹配数据，执行智能数据可视化分析程序。单从这一点看，有数据中台的辅助，确实能够提升企业级数据决策效率，更何况除了

2021-11-04 09:49:57

机器学习核心输出数据速率ODR延迟怎样去解决呢

和可视化来自 IMU 的数据和决策树输出。现在，对于此配置，考虑到 104Hz 的 MLC 数据速率以及样本窗口以相同速率填充的事实，我希望在超过阈值后树输出的变化不超过 10 毫秒左右。结果与此相去甚远

2022-12-20 06:45:43

机器学习的决策树介绍

机器学习——决策树算法分析

2020-04-02 11:48:38

机器学习的分类器

各种机器学习的应用场景分别是什么？例如，k近邻,贝叶斯，决策树，svm，逻辑斯蒂回归和最大熵模型

2019-09-10 10:53:10

李航统计学习第五章之决策树

李航统计学习第五章-决策树

2020-04-29 15:12:25

比较研究欧洲与中国限制在电子电气产品中使用有害物质的环保措施

......................................................9图1 与中国RoHS 规定符合的决定行动的决策树

2008-07-24 00:29:35

通过excel构筑字模可视化的教程分享

通过excel构筑字模可视化的教程分享

2022-01-21 06:14:56

决策树技术在汽车销售中的应用

介绍了决策树分类技术，并用其对汽车销售企业的调查问卷进行数据分析，挖掘出最近一年内有购车意愿的客户的特征，从而提高营销的成功率。证明了决策树数据挖掘技术在汽车

2009-09-09 15:49:08

一个基于粗集的决策树规则提取算法

一个基于粗集的决策树规则提取算法:摘要：决策树是数据挖掘任务中分类的常用方法。在构造决策树的过程中，分离属性的选择标准直接影响到分类的效果，传统的决策树算法往往

2009-10-10 15:13:34

基于属性相似度的决策树算法

基于属性相似度的决策树算法:针对ID3 算法的多值偏向问题，提出一种基于属性相似度的、能够避免多值偏向问题的ID3 改进算法——NewDtree 算法，并应用理论分析方法对NewDtree 算

2009-10-17 23:07:49

基于决策树与相异度的离群数据挖掘方法

在数据挖掘中我们往往会忽略离群数据，可是这些数据却往往包含重要的信息。本文采用了将决策树与相异度相结合的方式进行离群数据的挖掘。通过计算决策树中各属性的信息

2010-01-15 14:28:05

基于决策树的数据挖掘算法应用研究

以决策树数据挖掘分类算法在金融客户关系管理（CRM）中的应用为例，进行了数据挖掘的尝试，从中发现企业产品的销售规律和客户群特征，从而提高CRM对市场活动和销售活动的分

2010-08-02 12:18:08

#硬声创作季超全的人工智能基础知识：17 决策树可视化

人工智能可视化

Mr_haohao发布于 2022-09-20 22:21:32

用于大规模数据集的决策树采样策略

为提高大规模数据集生成树的准确率,提出一种预生成一棵基于这个数据集的决策树,采用广度优先遍历将其划分为满足预定义的限制的数据集,再对各数据集按照一定比例进行随机采样,最后将采样结果整合为目标数据集的数据采样方法.通过对一UCI数据集进行采样,并用现

2011-02-14 15:15:15

电子称重仪表决策树建模研究

引入了基于粗糙集理论的属性约简进行属性的降噪和排序处理，然后结合决策树理论的C4.5算法来对自诊断电子称重仪表进行分析，取信息增益率最大的结点作为决策树的根，以此使分裂

2011-10-08 14:43:10

改进决策树算法的应用研究

该方法利用决策树算法构造决策树,通过对分类结果中主客观属性进行标记并逻辑运算,最终得到较客观的决策信息,并进行实验验证。

2012-02-07 11:38:03

[8.1.1]--决策树原理

机器学习

jf_90840116发布于 2022-12-10 19:47:17

[5.1]--5.1决策树基础

机器学习

jf_75936199发布于 2023-02-01 11:34:02

[6.2.1]--6.2决策树

人工智能

学习电子知识发布于 2023-02-17 20:09:21

[4.1.1]--决策树基本流程

机器学习

jf_90840116发布于 2023-02-22 11:17:45

[4.4.1]--决策树的剪枝

机器学习

jf_90840116发布于 2023-02-22 11:21:41

基于决策树学习的智能机器人控制方法

基于决策树学习的智能机器人控制方法！资料来源网络，如有侵权，敬请见谅

2015-11-30 11:33:44

决策树的介绍

关于决策树的介绍，是一些很基础的介绍，不过是英文介绍。

2016-09-18 14:55:04

CART构建决策树算法(2)#Python

数据函数代码python

未来加油dz发布于 2023-08-23 18:32:37

解读决策树与随机森林模型的概念

为什么要引入随机森林呢。我们知道，同一批数据，我们只能产生一颗决策树，这个变化就比较单一了，这就有了集成学习的概念。

2017-10-18 17:47:37

3445

采用ID3和C4.5算法生成决策树在学生管理系统中应用

决策树算法最早源于人工智能的机器学习技术，用以实现数据内在规律的探究和新数据对象的分类预测U。由于其出色的数据分析能力和直观易懂的结果展示等特点，决策树成为一种重要的数据挖掘技术。随着信息化技术

2017-10-28 12:58:36

基于ID3的决策树算法研究

路径最短，从而提升分类的速度和准确率。通过实例对改进算法生成决策树产生的结果分析，表明了该算法生成的决策树结构更简单，时间复杂度更优。算法更有效。

2017-11-14 14:08:05

机器学习：决策树--python

今天，我们介绍机器学习里比较常用的一种分类算法，决策树。决策树是对人类认知识别的一种模拟，给你一堆看似杂乱无章的数据，如何用尽可能少的特征，对这些数据进行有效的分类。 决策树借助了一种层级分类的概念

2017-11-16 01:50:01

1429

基于Bagging决策树优化算法

针对经典C4.5决策树算法存在过度拟合和伸缩性差的问题，提出了一种基于Bagging的决策树改进算法，并基于MapReduce模型对改进算法进行了并行化。首先，基于Bagging技术对C4.5算法

2017-11-21 11:57:08

一种新型的决策树剪枝优化算法

目前关于决策树剪枝优化方面的研究主要集中于预剪枝和后剪枝算法。然而，这些剪枝算法通常作用于传统的决策树分类算法，在代价敏感学习与剪枝优化算法相结合方面还没有较好的研究成果。基于经济学中的效益成本

2017-11-30 10:05:19

基于贪心算法的非一致决策表的决策树分析方法

决策树技术在数据挖掘的分类领域中被广泛采用。采用决策树从一致决策表f即条件属性值相同的样本其决策值相同）中挖掘有价值信息的相关研究较为成熟，而对于非一致决策表（即条件属性值相同的样本其决策

2017-12-05 14:30:45

使决策树规模最小化算法

决策树技术在数据挖掘的分类领域应用极其广泛，可以从普通决策表（每行记录包含一个决策值）中挖掘有价值的信息，但是要从多值决策表（每行记录包含多个决策值）中挖掘潜在的信息则比较困难。多值决策表中每行记录

2017-12-05 15:47:26

MATLAB编译生成AUTOLISP代码实现可变ID3基因分型决策树分类图的绘制

图看起来非常直观，并且可以从建树的原始数据集中挖掘出一些关键的信息，因此决策树图的绘制是非常必要的。本研究从分子生物学领域中的基因分型决策树绘制为实例，浅谈如何使用MALAB语言编译生成AUTOLISP代码，从而实现可变ID3基因

2017-12-07 11:23:03

机器学习之决策树生成详解

根据给定的数据集创建一个决策树就是机器学习的课程，创建一个决策树可能会花费较多的时间，但是使用一个决策树却非常快。创建决策树时最关键的问题就是选取哪一个特征作为分类特征，好的分类特征能够最大化

2021-08-27 14:38:54

18636

决策树C4.5算法属性取值优化研究

决策树算法是一种最简单、最直接、最有效的文本分类算法。最早的决策树算法是ID3算法，于1986年由Quinlan提出，该算法是一种基于信息熵的决策树分类算法。由于该算法是以信息熵作为属性选择的标准

2017-12-12 11:20:55

基于粗决策树的动态规则提取算法

针对静态算法对大数据和增量数据处理不足的问题，构造了基于粗决策树的动态规则提取算法，并将其应用于旋转机械故障诊断中。将粗集与决策树结合，用增量方式实现样本抽取；经过动态约简、决策树构造、规则提取

2017-12-29 14:24:05

海量嘈杂数据决策树算法

针对当前决策树算法较少考虑训练集的嘈杂程度对模型的影响，以及传统驻留内存算法处理海量数据困难的问题，提出一种基于Hadoop平台的不确定概率C4.5算法-IP-C4.5算法。在训练模型

2018-01-13 09:41:38

基于决策树的在轨卫星故障诊断知识挖掘

针对目前卫星在轨故障诊断后验证知识获取困难，随着卫星在轨运行功能或性能退化导致门限诊断精度下降的问题，本文深入研究了卫星在轨管理过程中积累的异常数据和故障案例，提出了一种基于决策树的在轨卫星故障诊断

2018-02-23 10:50:30

带你了解一下人工智能中的决策树(DT)

决策树（DT）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。从数据产生决策树的机器学习技术叫做决策树学习。

2018-05-29 07:12:00

1801

大神教你怎么用Python抓取婚恋网用户数据，用决策树生成自己择偶观

机器学习中，决策树是一个预测模型，它代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，而每个叶结点则对应从根节点到该叶节点所经历的路径

2018-05-28 10:53:25

3913

构建一个决策树并查看它如何进行预测

正如你所看到的，决策树非常直观，他们的决策很容易解释。这种模型通常被称为白盒模型。相反，正如我们将看到的，随机森林或神经网络通常被认为是黑匣子模型。他们做出了很好的预测，并且我们可以轻松检查他们执行的计算以进行这些预测; 然而，通常很难用简单的术语来解释为什么会做出预测。

2018-07-16 17:12:01

13941

数据挖掘算法：决策树算法如何学习及分裂剪枝

决策树（decision tree）算法基于特征属性进行分类，其主要的优点：模型具有可读性，计算量小，分类速度快。决策树算法包括了由Quinlan提出的ID3与C4.5，Breiman等提出的CART。其中，C4.5是基于ID3的，对分裂属性的目标函数做出了改进。

2018-07-21 10:13:29

5369

结合深度神经网络和决策树的完美方案

“ANT的出发点与mGBDT类似，都是期望将神经网络的表示学习和决策树的特点做一个结合，不过，ANT依旧依赖神经网络BP算法进行的实现，”冯霁说：“而深度森林（gcForest/mGBDT）的目的

2018-07-25 09:39:01

9057

深度神经决策树：深度神经网络和树模型结合的新模型

近日，来自爱丁堡大学的研究人员提出了一种结合深度神经网络和树模型的新型模型——深度神经决策树(Deep Neural Decision Trees, DNDT)。

2018-08-19 09:14:44

11858

决策树的原理和决策树构建的准备工作，机器学习决策树的原理

希望通过所给的训练数据学习一个贷款申请的决策树，用于对未来的贷款申请进行分类，即当新的客户提出贷款申请时，根据申请人的特征利用决策树决定是否批准贷款申请。

2018-10-08 14:26:09

5616

基于决策树算法的电能表故障预测方法

今天为大家介绍一项国家发明授权专利——基于决策树算法的电能表故障预测方法。该专利由国电南瑞科技股份有限公司申请，并于2018年11月30日获得授权公告。

2018-12-17 11:40:35

1538

什么是决策树?决策树算法思考总结

C4.5算法：基于ID3算法的改进，主要包括：使用信息增益率替换了信息增益下降度作为属性选择的标准；在决策树构造的同时进行剪枝操作；避免了树的过度拟合情况；可以对不完整属性和连续型数据进行处理，提升了算法的普适性。

2019-02-04 09:45:00

10306

如何使用针对不平衡数据进行决策树改进方法资料说明

针对异常检测中异常数据与正常数据的比例严重不平衡导致决策树性能下降的问题，提出了C4.5决策树的三种改进方法一C4.5 +δ、均匀分布熵（ UDE）和改进分布熵函数（IDEF）。首先，推导了C4.5

2019-03-27 10:56:06

如何使用最优二叉决策树分类模型进行奶牛运动行为的识别

针对奶牛行为分类过程中决策树算法构建主观性强、阈值选取无确定规则，易导致分类精度差的问题，该文提出一种基于最优二叉决策树分类模型的奶牛运动行为识别方法，首先选取描述奶牛腿部三轴加速度数值大小、对称性

2019-04-24 08:00:00

决策树和随机森林模型

我们知道决策树容易过拟合。换句话说，单个决策树可以很好地找到特定问题的解决方案，但如果应用于以前从未见过的问题则非常糟糕。俗话说三个臭皮匠赛过诸葛亮，随机森林就利用了多个决策树，来应对多种不同场景。

2019-04-19 14:38:02

7526

详解机器学习决策树的优缺点

决策树（Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。

2020-01-19 17:06:00

7325

详谈机器学习的决策树模型

决策树模型是白盒模型的一种，其预测结果可以由人来解释。我们把机器学习模型的这一特性称为可解释性，但并不是所有的机器学习模型都具有可解释性。

2020-07-06 09:49:06

3073

一文知道决策树的优缺点

决策树易于理解和解释，可以可视化分析，容易提取出规则。

2020-08-27 09:50:07

16399

决策树的构成要素及算法

决策树是一种解决分类问题的算法，决策树算法采用树形结构，使用层层推理来实现最终的分类。

2020-08-27 09:52:48

3753

建立决策树的逻辑

像上面的这样的二叉树状决策在我们生活中很常见，而这样的选择方法就是决策树。机器学习的方法就是通过平时生活中的点点滴滴经验转化而来的。

2020-10-10 10:44:19

2316

使用基尼不纯度拆分决策树的步骤

决策树是机器学习中使用的最流行和功能最强大的分类算法之一。顾名思义，决策树用于根据给定的数据集做出决策。也就是说，它有助于选择适当的特征以将树分成类似于人类思维脉络的子部分。

2021-01-13 09:37:41

1207

决策树的基本概念/学习步骤/算法/优缺点

本文将介绍决策树的基本概念、决策树学习的3个步骤、3种典型的决策树算法、决策树的10个优缺点。

2021-01-27 10:03:20

2145

决策树的一般流程及应用

所有的机器学习算法中，决策树应该是最友好的了。它呢，在整个运行机制上可以很容易地被翻译成人们能看懂的语言，也因此被归为“白盒模型”。

2021-01-29 09:36:40

7099

决策树的判断标准及算法

在决策树中，可能有多个特征，但是一些特征是无关重要的，一些则是对分类（target）起到决定作用的。

2021-02-18 10:06:29

3815

什么是决策树模型，决策树模型的绘制方法

决策树是一种解决分类问题的算法，本文将介绍什么是决策树模型，常见的用途，以及如何使用“亿图图示”软件绘制决策树模型。

2021-02-18 10:12:20

11970

决策树的结构/优缺点/生成

决策树（DecisionTree）是机器学习中一种常见的算法，它的思想非常朴素，就像我们平时利用选择做决策的过程。决策树是一种基本的分类与回归方法，当被用于分类时叫做分类树，被用于回归时叫做回归树。

2021-03-04 10:11:13

7773

822

基于集成学习的决策介绍（上）

本文主要介绍基于集成学习的决策树，其主要通过不同学习框架生产基学习器，并综合所有基学习器的预测结果来改善单个基学习器的识别率和泛化性。

2023-02-17 15:52:09

484

已全部加载完成

搜索历史

决策树的构建设计并用Graphviz实现决策树的可视化 - 全文

决策树学习

决策树的结构

决策树算法

信息增益

信息增益

树分裂的终止条件有两个

构建一棵决策树

可视化决策树

决策树的存储

总结

本文导航

评论