使用TensorFlow决策森林创建提升树模型-电子发烧友网

发布人：TensorFlow 团队的 Mathieu Guillame-Bert 和 Josh Gordon

随机森林和梯度提升树这类的决策森林模型通常是处理表格数据最有效的可用工具。与神经网络相比，决策森林具有更多优势，如配置过程更轻松、训练速度更快等。使用树可大幅减少准备数据集所需的代码量，因为这些树本身就可以处理数字、分类和缺失的特征。此外，这些树通常还可提供开箱即用的良好结果，并具有可解释的属性。

尽管我们通常将 TensorFlow 视为训练神经网络的内容库，但 Google 的一个常见用例是使用 TensorFlow 创建决策森林。

对数据开展分类的决策树动画

如果您曾使用 2019 年推出的 tf.estimator.BoostedTrees 创建基于树的模型，您可参考本文所提供的指南进行迁移。虽然 Estimator API 基本可以应对在生产环境中使用模型的复杂性，包括分布式训练和序列化，但是我们不建议您将其用于新代码。

如果您要开始一个新项目，我们建议您使用 TensorFlow 决策森林 (TF-DF)。该内容库可为训练、服务和解读决策森林模型提供最先进的算法，相较于先前的方法更具优势，特别是在质量、速度和易用性方面表现尤为出色。

首先，让我们来比较一下使用 Estimator API 和 TF-DF 创建提升树模型的等效示例。

以下是使用 tf.estimator.BoostedTrees 训练梯度提升树模型的旧方法（不再推荐使用）

import tensorflow as tf

# Dataset generators
def make_dataset_fn(dataset_path):
    def make_dataset():
        data = ... # read dataset
        return tf.data.Dataset.from_tensor_slices(...data...).repeat(10).batch(64)
    return make_dataset

# List the possible values for the feature "f_2".
f_2_dictionary = ["NA", "red", "blue", "green"]

# The feature columns define the input features of the model.
feature_columns = [
    tf.feature_column.numeric_column("f_1"),
    tf.feature_column.indicator_column(
       tf.feature_column.categorical_column_with_vocabulary_list("f_2",
         f_2_dictionary,
         # A special value "missing" is used to represent missing values.
         default_value=0)
       ),
    ]

# Configure the estimator
estimator = boosted_trees.BoostedTreesClassifier(
          n_trees=1000,
          feature_columns=feature_columns,
          n_classes=3,
          # Rule of thumb proposed in the BoostedTreesClassifier documentation.
          n_batches_per_layer=max(2, int(len(train_df) / 2 / FLAGS.batch_size)),
      )

# Stop the training is the validation loss stop decreasing.
early_stopping_hook = early_stopping.stop_if_no_decrease_hook(
      estimator,
      metric_name="loss",
      max_steps_without_decrease=100,
      min_steps=50)

tf.estimator.train_and_evaluate(
      estimator,
      train_spec=tf.estimator.TrainSpec(
          make_dataset_fn(train_path),
          hooks=[
              # Early stopping needs a CheckpointSaverHook.
              tf.train.CheckpointSaverHook(
                  checkpoint_dir=input_config.raw.temp_dir, save_steps=500),
              early_stopping_hook,
          ]),
      eval_spec=tf.estimator.EvalSpec(make_dataset_fn(valid_path)))

使用 TensorFlow 决策森林训练相同的模型

import tensorflow_decision_forests as tfdf

# Load the datasets
# This code is similar to the estimator.
def make_dataset(dataset_path):
    data = ... # read dataset
    return tf.data.Dataset.from_tensor_slices(...data...).batch(64)

train_dataset = make_dataset(train_path)
valid_dataset = make_dataset(valid_path)

# List the input features of the model.
features = [
  tfdf.keras.FeatureUsage("f_1", keras.FeatureSemantic.NUMERICAL),
  tfdf.keras.FeatureUsage("f_2", keras.FeatureSemantic.CATEGORICAL),
]

model = tfdf.keras.GradientBoostedTreesModel(
  task = tfdf.keras.Task.CLASSIFICATION,
  num_trees=1000,
  features=features,
  exclude_non_specified_features=True)

model.fit(train_dataset, valid_dataset)

# Export the model to a SavedModel.
model.save("project/model")

附注

虽然在此示例中没有明确说明，但 TensorFlow 决策森林可自动启用和配置早停。
可自动构建和优化“f_2”特征字典（例如，将稀有值合并到一个未登录词项目中）。
可从数据集中自动确定类别数（本例中为 3 个）。
批次大小（本例中为 64）对模型训练没有影响。以较大值为宜，因为这可以增加读取数据集的效率。

TF-DF 的亮点就在于简单易用，我们还可进一步简化和完善上述示例，如下所示。

如何训练 TensorFlow 决策森林（推荐解决方案）

import tensorflow_decision_forests as tfdf
import pandas as pd

# Pandas dataset can be used easily with pd_dataframe_to_tf_dataset.
train_df = pd.read_csv("project/train.csv")

# Convert the Pandas dataframe into a TensorFlow dataset.
train_ds = tfdf.keras.pd_dataframe_to_tf_dataset(train_df, label="my_label")

model = tfdf.keras.GradientBoostedTreeModel(num_trees=1000)
model.fit(train_dataset)

附注

我们未指定特征的语义（例如数字或分类）。在这种情况下，系统将自动推断语义。
我们也没有列出要使用的输入特征。在这种情况下，系统将使用所有列（标签除外）。可在训练日志中查看输入特征的列表和语义，或通过模型检查器 API 查看。
我们没有指定任何验证数据集。每个算法都可以从训练样本中提取一个验证数据集作为算法的最佳选择。例如，默认情况下，如果未提供验证数据集，则 GradientBoostedTreeModel 将使用 10% 的训练数据进行验证。

下面我们将介绍 Estimator API 和 TF-DF 的一些区别。

Estimator API 和 TF-DF 的区别

算法类型

TF-DF 是决策森林算法的集合，包括（但不限于）Estimator API 提供的梯度提升树。请注意，TF-DF 还支持随机森林（非常适用于干扰数据集）和 CART 实现（非常适用于解读模型）。

此外，对于每个算法，TF-DF 都包含许多在文献资料中发现并经过实验验证的变体 [1, 2, 3]。

精确与近似分块的对比

TF1 GBT Estimator 是一种近似的树学习算法。非正式情况下，Estimator 通过仅考虑样本的随机子集和每个步骤条件的随机子集来构建树。

默认情况下，TF-DF 是一种精确的树训练算法。非正式情况下，TF-DF 会考虑所有训练样本和每个步骤的所有可能分块。这是一种更常见且通常表现更佳的解决方案。

虽然对于较大的数据集（具有百亿数量级以上的“样本和特征”数组）而言，有时 Estimator 的速度更快，但其近似值通常不太准确（因为需要种植更多树才能达到相同的质量）。而对于小型数据集（所含的“样本和特征”数组数目不足一亿）而言，使用 Estimator 实现近似训练形式的速度甚至可能比精确训练更慢。

TF-DF 还支持不同类型的“近似”树训练。我们建议您使用精确训练法，并选择使用大型数据集测试近似训练。

推理

Estimator 使用自上而下的树路由算法运行模型推理。TF-DF 使用 QuickScorer 算法的扩展程序。

虽然两种算法返回的结果完全相同，但自上而下的算法效率较低，因为这种算法的计算量会超出分支预测并导致缓存未命中。对于同一模型，TF-DF 的推理速度通常可提升 10 倍。

TF-DF 可为延迟关键应用程序提供 C++ API。其推理时间约为每核心每样本 1 微秒。与 TF SavedModel 推理相比，这通常可将速度提升 50 至 1000 倍（对小型批次的效果更佳）。

多头模型

Estimator 支持多头模型（即输出多种预测的模型）。目前，TF-DF 无法直接支持多头模型，但是借助 Keras Functional API，TF-DF 可以将多个并行训练的 TF-DF 模型组成一个多头模型。

了解详情

您可以访问此网址，详细了解 TensorFlow 决策森林。

如果您是首次接触该内容库，我们建议您从初学者示例开始。经验丰富的 TensorFlow 用户可以访问此指南，详细了解有关在 TensorFlow 中使用决策森林和神经网络的区别要点，包括如何配置训练流水线和关于数据集 I/O 的提示。

您还可以仔细阅读从Estimator 迁移到 Keras API，了解如何从 Estimator 迁移到 Keras。

原文标题：如何从提升树 Estimator 迁移到 TensorFlow 决策森林

文章出处：【微信公众号：谷歌开发者】欢迎添加关注！文章转载请注明出处。

审核编辑：汤梓红

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

Google

Google

+关注

关注
5

文章
1784

浏览量
58580
模型

模型

+关注

关注
1

文章
3474

浏览量
49891
tensorflow

tensorflow

+关注

关注
13

文章
330

浏览量
60978

原文标题：如何从提升树 Estimator 迁移到 TensorFlow 决策森林

文章出处：【微信号：Google_Developers，微信公众号：谷歌开发者】欢迎添加关注！文章转载请注明出处。

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

使用TensorFlow决策森林创建提升树模型

评论

X-NUCLEO-53L4A2: VL53L4CX飞行时间传感器具测量扩展板

ATA-2022H高压放大器西安安泰电子双通道

按摩仪方案PCBA设计

MK17系列干簧传感器

鸿诚志远RK系列行业主板套件

合众恒跃

60

下载

大大通

95

下载

斯丹麦德电子

37

下载

斯丹麦德电子

64

下载

RA生态工作室

198

下载

48V高效降压电源方案：英诺赛科推出2kW四相交错设计

TurMass™ 时隙高并发解决方案

低功耗×低抖动×多封装：FCom富士晶振FCO-PJ系列时钟方案解析

高效能电动工具控制方案：基于STM32G473和STDRIVE101的参考设计

适配1.8V/2.5V/3.3V电压的高稳定晶振方案（含MCU推荐）

搜索历史

使用TensorFlow决策森林创建提升树模型

评论

搭建树莓派网络监控系统：顶级工具与技术终极指南！

STM32驱动SD NAND（贴片式SD卡）全测试：GSR手环生物数据存储的擦写寿命与速度实测

芯对话 | CBM16AD125Q这款ADC如何让我的性能翻倍？

史上最全面解析：开关电源各功能电路

有几种电平转换电路，适用于不同的场景

瑞萨RA8系列教程 | 基于 RASC 生成 Keil 工程

共赴之约 | 第二十七届中国北京国际科技产业博览会圆满落幕

道生物联与巍泰技术联合发布 RTK 无线定位系统：TurMass™ 技术与厘米级高精度定位的深度融合

智能家居中的清凉“智”选，310V无刷吊扇驱动方案--其利天下

电源入口处防反接电路-汽车电子硬件电路设计

半导体芯片需要做哪些测试

解决方案 | 芯佰微赋能示波器：高速ADC、USB控制器和RS232芯片——高性能示波器的秘密武器！

硬件设计基础----运算放大器

ElfBoard技术贴|如何调整eMMC存储分区

米尔基于MYD-YG2LX系统启动时间优化应用笔记