首页: 电子电路图,电子技术资料网站首页

电子资料下载: 电子资料下载频道 -- 为电子工程师提供激发创新灵感的新方案、新的参考设计、新的设计构想等可下载的电子资料！

电子技术应用: 电子技术应用频道 -- 为电子工程师提供电子产品设计所需的技术分析、设计技巧、设计工具、测试工具等技术文章！

电子元器件: 专业的电子元器件平台 -- 及时发布大量最新IC、分立器件、模组等电子元器件产品信息！

电子电路图: 电路图频道 -- 提供电子电路图,原理图,汽车电路图,手机电路图,功放电路图,电源电路图等电路图纸

电子技术论坛: 构建电子工程师交流的平台 -- 在交流中进一步学习设计技巧、规划技术人生、提升自我价值！

源码下载: 源码下载频道; uCOS编程 C/C++语言编程 Symbian编程 Linux/uClinux/Unix编程 Windows编程 matlab源程序 php源码下载 asp.net源码下载 java源码下载汇编编程驱动程序单片机编程数值算法/人工智能

您的位置：电子发烧友网>源码下载>数值算法/人工智能>

基于Spark机器学习工具来分析信用风险问题

大小：0.17 MB 人气： 2017-10-10 需要积分：1

推荐 + 挑错 + 收藏(0) + 用户评论（0）

前往下载地址

分享到:

标签：机器学习(129859)SPARK(19585)

在本文中，我将向大家介绍如何使用Apache Spark的spark.ml库中的随机森林算法来对银行信用贷款的风险做分类预测。Spark的spark.ml库基于DataFrame，它提供了大量的接口，帮助用户创建和调优机器学习工作流。结合dataframe使用spark.ml，能够实现模型的智能优化，从而提升模型效果。
　　分类算法
　　分类算法是一类监督式机器学习算法，它根据已知标签的样本（如已经明确交易是否存在欺诈）来预测其它样本所属的类别（如是否属于欺诈性的交易）。分类问题需要一个已经标记过的数据集和预先设计好的特征，然后基于这些信息来学习给新样本打标签。所谓的特征即是一些“是与否”的问题。标签就是这些问题的答案。在下面这个例子里，如果某个动物的行走姿态、游泳姿势和叫声都像鸭子，那么就给它打上“鸭子”的标签。
　　
　　我们来看一个银行信贷的信用风险例子：
　　我们需要预测什么？
　　某个人是否会按时还款这就是标签：此人的信用度
　　你用来预测的“是与否”问题或者属性是什么？
　　申请人的基本信息和社会身份信息：职业，年龄，存款储蓄，婚姻状态等等……这些就是特征，用来构建一个分类模型，你从中提取出对分类有帮助的特征信息。
　　决策树模型
　　决策树是一种基于输入特征来预测类别或是标签的分类模型。决策树的工作原理是这样的，它在每个节点都需要计算特征在该节点的表达式值，然后基于运算结果选择一个分支通往下一个节点。下图展示了一种用来预测信用风险的决策树模型。每个决策问题就是模型的一个节点，“是”或者“否”的答案是通往子节点的分支。
　　问题1：账户余额是否大于200元？
　　否问题2：当前就职时间是否超过1年？
　　否不可信赖
　　基于Spark机器学习工具来分析信用风险问题

　　随机森林模型
　　融合学习算法结合了多个机器学习的算法，从而得到了效果更好的模型。随机森林是分类和回归问题中一类常用的融合学习方法。此算法基于训练数据的不同子集构建多棵决策树，组合成一个新的模型。预测结果是所有决策树输出的组合，这样能够减少波动，并且提高预测的准确度。对于随机森林分类模型，每棵树的预测结果都视为一张投票。获得投票数最多的类别就是预测的类别。

非常好我支持^.^

(0) 0%

不好我反对

(0) 0%

下载地址

不能下载？请通知我们

基于Spark机器学习工具来分析信用风险问题下载

普通下载普通下载

用户评论

发表评论即可获得积分！ 详见积分规则

发表评论

用户评论

评价:好评中评差评

发表评论，获取积分！请遵守相关规定！

注册会员

游客:

基于Spark机器学习工具来分析信用风险问题

下载地址

基于Spark机器学习工具来分析信用风险问题下载

相关电子资料下载

用户评论

发表评论

分享你我的电子世界

实用电子设计资料下载

源码下载排行

热门词