资料介绍
Facebook 使用机器学习和排序模型给所有用户带来最佳体验,例如发送什么通知,在你的消息推送中放入什么文章,以及对于你想关注的人提些什么建议。高质量的机器学习模型对于找出最相关的内容来说很重要。我们观察了大量实时信号以制定最佳排序;例如,在过滤通知的使用情况中,我们观察某人是否已点击相似的通知,或者对应通知的文章获得了多少赞。由于每执行一次就会生成一个新通知推送,所以我们想要尽快返回发送通知的决策。
更复杂的模型有助于提高预测的精度,提供更相关的内容。但更复杂的模型需要更长的 CPU 周期(CPU cycles),返回结果的时间也更长。考虑到这些限制,我们做不到对所有可能的候选模型进行评估。然而,通过提升模型效率,我们可以做到在相同的时间帧运用相同的计算资源评价更多的候选模型(inventory)。
在本文中,我们比较了梯度提升决策树(gradient-boosted decision tree ,简称GBDT)这一类预测模型的不同实现,并描述了能产生更高效评估的 C++ 多方面改进。
决策树模型
决策树被普遍用作预测模型,该算法将关于对象的特征观察值映射到对象类的目标值。由于其非线性和快速求值的特点,它成为了机器学习、数据分析和统计学之中最常见的预测模型方法之一。在这些树状结构中,叶结点表征分类标签,而有向边表征产生这些分类标签的特征连接。
决策树非常强大,但是训练数据中的小变动可以演化为决策树中的大变化。这可通过使用一项被称为梯度提升(gradient boosting)的技术来补救。即,为错误分类的训练实例提升权重,从而形成一个新的决策树。接着对这一步骤进行连续重复以获得新的决策树。最后的分值(scores)是决策树上每个叶节点分值的加权总和。
模型通常很少更新,且训练复杂模型需要花费数小时。然而,在 Facebook 的大规模数据上,我们想要更频繁地更新模型,即按照毫秒间隔依次运行它们。Facebook 的很多后端服务是用 C++ 写的,因此我们利用这一语言的一些属性做了些改善,以产生只需要更短 CPU 周期进行求值的高效模型。
下图是一个简单的决策树,它包含以下特征:
今天某人 A 点击通知的数量(特征 F[0])
对应通知的文章点赞数量(特征 F[1])
某人 A 点击通知的总数量(特征 F[2])
在不同的结点,我们查看了上述特征的值,并遍历整棵决策树以获取通知点击的概率。
平面树(Flat tree)的实现
决策树模型的朴素实现是通过一个带有指针的简单二叉树而完成的。然而,结点并不需要连续地存储于内存之中,因为这样二叉树并非很有效。另一方面,决策树通常是完整的二叉树(即二叉树的每个结点一定存在零值或两棵子树),它通过使用向量而压缩存储。指针并不需要空间,而每一结点的父结点和子结点可通过数组索引算法查看。我们将用这一实现对比这一章节的实验。
编译树(Compiled tree)的实现
每一个二叉树都能由一个复杂的三元表达式表征,而这个表达式能进行编译并链接到可直接在服务中使用的动态库(DLL)。需要注意的是,我们可以实时添加或更新决策树模型,而不需要重启服务。
我们也可以利用 C++ 中的 LIKELY/UNLIKELY 注释(annotations)。它们是编译器发出指令的方向,并且能将分支预测更加偏向于跳转指令(jump instruction)「可能」出现的一侧。如果预测是对的,那么就意味着跳转指令将占有 0 个 CPU 周期。我们可以根据在批量中排序的或离线分析中的真实样本计算分支预测,这是因为训练和评估集的分布不应该改变太多。
更复杂的模型有助于提高预测的精度,提供更相关的内容。但更复杂的模型需要更长的 CPU 周期(CPU cycles),返回结果的时间也更长。考虑到这些限制,我们做不到对所有可能的候选模型进行评估。然而,通过提升模型效率,我们可以做到在相同的时间帧运用相同的计算资源评价更多的候选模型(inventory)。
在本文中,我们比较了梯度提升决策树(gradient-boosted decision tree ,简称GBDT)这一类预测模型的不同实现,并描述了能产生更高效评估的 C++ 多方面改进。
决策树模型
决策树被普遍用作预测模型,该算法将关于对象的特征观察值映射到对象类的目标值。由于其非线性和快速求值的特点,它成为了机器学习、数据分析和统计学之中最常见的预测模型方法之一。在这些树状结构中,叶结点表征分类标签,而有向边表征产生这些分类标签的特征连接。
决策树非常强大,但是训练数据中的小变动可以演化为决策树中的大变化。这可通过使用一项被称为梯度提升(gradient boosting)的技术来补救。即,为错误分类的训练实例提升权重,从而形成一个新的决策树。接着对这一步骤进行连续重复以获得新的决策树。最后的分值(scores)是决策树上每个叶节点分值的加权总和。
模型通常很少更新,且训练复杂模型需要花费数小时。然而,在 Facebook 的大规模数据上,我们想要更频繁地更新模型,即按照毫秒间隔依次运行它们。Facebook 的很多后端服务是用 C++ 写的,因此我们利用这一语言的一些属性做了些改善,以产生只需要更短 CPU 周期进行求值的高效模型。
下图是一个简单的决策树,它包含以下特征:
今天某人 A 点击通知的数量(特征 F[0])
对应通知的文章点赞数量(特征 F[1])
某人 A 点击通知的总数量(特征 F[2])
在不同的结点,我们查看了上述特征的值,并遍历整棵决策树以获取通知点击的概率。
平面树(Flat tree)的实现
决策树模型的朴素实现是通过一个带有指针的简单二叉树而完成的。然而,结点并不需要连续地存储于内存之中,因为这样二叉树并非很有效。另一方面,决策树通常是完整的二叉树(即二叉树的每个结点一定存在零值或两棵子树),它通过使用向量而压缩存储。指针并不需要空间,而每一结点的父结点和子结点可通过数组索引算法查看。我们将用这一实现对比这一章节的实验。
编译树(Compiled tree)的实现
每一个二叉树都能由一个复杂的三元表达式表征,而这个表达式能进行编译并链接到可直接在服务中使用的动态库(DLL)。需要注意的是,我们可以实时添加或更新决策树模型,而不需要重启服务。
我们也可以利用 C++ 中的 LIKELY/UNLIKELY 注释(annotations)。它们是编译器发出指令的方向,并且能将分支预测更加偏向于跳转指令(jump instruction)「可能」出现的一侧。如果预测是对的,那么就意味着跳转指令将占有 0 个 CPU 周期。我们可以根据在批量中排序的或离线分析中的真实样本计算分支预测,这是因为训练和评估集的分布不应该改变太多。
下载该资料的人也在下载
下载该资料的人还在阅读
更多 >
- 决策树引擎解决方案
- 基于遗传优化决策树的建筑能耗预测模型 6次下载
- 基于非均衡数据分类的犹豫模糊决策树 5次下载
- 可提高心电信号分类识别准确率的模糊决策树 14次下载
- 如何使用最优二叉决策树分类模型进行奶牛运动行为的识别 0次下载
- 基于决策树的在轨卫星故障诊断知识挖掘 0次下载
- 决策树的介绍 0次下载
- 基于决策树学习的智能机器人控制方法 15次下载
- 改进决策树算法的应用研究
- 电子称重仪表决策树建模研究 24次下载
- 基于决策树的数据挖掘算法应用研究 0次下载
- 基于决策树与相异度的离群数据挖掘方法
- 基于属性相似度的决策树算法
- 一个基于粗集的决策树规则提取算法
- 决策树技术在汽车销售中的应用
- 决策树:技术全解与案例实战 1423次阅读
- 一种基于决策树的飞机级故障诊断建模方法研究 918次阅读
- 机器学习之决策树生成详解 1.9w次阅读
- 机器学习中常用的决策树算法技术解析 1339次阅读
- 梯度提升方法(Gradient Boosting)算法案例 1.4w次阅读
- 决策树和随机森林模型 8018次阅读
- 什么是决策树?决策树算法思考总结 1.1w次阅读
- 基于决策树算法的电能表故障预测方法 1775次阅读
- 决策树的原理和决策树构建的准备工作,机器学习决策树的原理 6073次阅读
- 结合深度神经网络和决策树的完美方案 9741次阅读
- 数据挖掘算法:决策树算法如何学习及分裂剪枝 5814次阅读
- 构建一个决策树并查看它如何进行预测 1.4w次阅读
- 大神教你怎么用Python抓取婚恋网用户数据,用决策树生成自己择偶观 4225次阅读
- 机器学习:决策树--python 1626次阅读
- 解读决策树与随机森林模型的概念 3714次阅读
下载排行
本周
- 1TC358743XBG评估板参考手册
- 1.36 MB | 330次下载 | 免费
- 2开关电源基础知识
- 5.73 MB | 11次下载 | 免费
- 3100W短波放大电路图
- 0.05 MB | 4次下载 | 3 积分
- 4嵌入式linux-聊天程序设计
- 0.60 MB | 3次下载 | 免费
- 5DIY动手组装LED电子显示屏
- 0.98 MB | 3次下载 | 免费
- 6基于FPGA的C8051F单片机开发板设计
- 0.70 MB | 2次下载 | 免费
- 751单片机PM2.5检测系统程序
- 0.83 MB | 2次下载 | 免费
- 8基于51单片机的RGB调色灯程序仿真
- 0.86 MB | 2次下载 | 免费
本月
- 1OrCAD10.5下载OrCAD10.5中文版软件
- 0.00 MB | 234315次下载 | 免费
- 2555集成电路应用800例(新编版)
- 0.00 MB | 33566次下载 | 免费
- 3接口电路图大全
- 未知 | 30323次下载 | 免费
- 4开关电源设计实例指南
- 未知 | 21549次下载 | 免费
- 5电气工程师手册免费下载(新编第二版pdf电子书)
- 0.00 MB | 15349次下载 | 免费
- 6数字电路基础pdf(下载)
- 未知 | 13750次下载 | 免费
- 7电子制作实例集锦 下载
- 未知 | 8113次下载 | 免费
- 8《LED驱动电路设计》 温德尔著
- 0.00 MB | 6656次下载 | 免费
总榜
- 1matlab软件下载入口
- 未知 | 935054次下载 | 免费
- 2protel99se软件下载(可英文版转中文版)
- 78.1 MB | 537797次下载 | 免费
- 3MATLAB 7.1 下载 (含软件介绍)
- 未知 | 420027次下载 | 免费
- 4OrCAD10.5下载OrCAD10.5中文版软件
- 0.00 MB | 234315次下载 | 免费
- 5Altium DXP2002下载入口
- 未知 | 233046次下载 | 免费
- 6电路仿真软件multisim 10.0免费下载
- 340992 | 191186次下载 | 免费
- 7十天学会AVR单片机与C语言视频教程 下载
- 158M | 183279次下载 | 免费
- 8proe5.0野火版下载(中文版免费下载)
- 未知 | 138040次下载 | 免费
评论