0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据挖掘与机器学习项目特征工程实战

lviY_AI_shequ 来源:未知 作者:胡薇 2018-08-09 10:09 次阅读

找特征这件事,Andrew Ng在深度学习网课中提到过,原课件见第3课结构化机器学习项目中的2.9和2.10两节,笔记整理如下:

Andrew以Speech Recognition的场景为例,比较了pipeline和end-to-end两种建模方式中特征工程的差异。

其中pipeline的搭建依赖于人工设计的特征,需要依赖于人类可以理解的音节,将一段音频转化为文字;而end-to-end模型基于大量的音频素材,自动找出语音和文字间的关系,不依赖于音节而自动翻译成文字。

总而言之,除去语音和图像等特定场景,对于大部分生活中的机器学习项目,由于没有足够的训练数据支撑,我们还无法完全信任算法自动生成的特征,因而基于人工经验的特征工程依然是目前的主流。

人工经验这件事比较虚,加之许多业界的项目由于隐私性的考虑,很少会透露底层的入模特征和计算逻辑,使得目前网络上关于特征工程细节的文章少之又少。答主在这里结合自己这几年在金融领域的建模经验,介绍一些常见的数据源类型和特征计算方法,希望可以帮助刚入行或者想入行的从业者们开开脑洞。

(1)支付流水:通常包括支付账户、时间、金额、地点、目的、状态等字段,可以反映出客户的经济实力和消费习惯。其中特别的,账户间的复杂交易关系和异常金额时间地点的支付行为,都可以在反欺诈场景中应用,视为团伙作案或者反洗钱的重要指标。

(2)财富管理:基金理财类产品的申购历史记录,体现出客户的资金储备和购买偏好。对于风险偏好较低的客户,我们可以推荐小金库这类收益稳定、波动较小的债券类产品;对于追求高收益的客户,我们可以推荐在京东金融app上代销的各类基金,以及智能投顾产品。

(3)贷款信息:伴随着近几年国内现金贷以及场景贷市场的迅速发展,国家也在大力推动各家资方信贷数据的治理与共享。基于一个客户在各个平台上的贷款申请、提现、还款信息,可以刻画出这个客户的还款意愿和征信表现,从而为其下一次的信贷申请决策提供建议。常见的,多个平台申请和在贷以及当前有贷款发生90天以上逾期的用户,都会被其他平台列入自动拒绝的名单。

(4)App登录:从SDK埋点获取的各类app登录数据中,我们可以分析出用户在每个app上的停留时间,从而侧面了解这个用户的兴趣爱好,甚至预测用户的年龄和性别。例如京东、阿里等电商app登录较频繁的用户,通常以女性居多,并且消费能力较强;而抖音、快手等小视频app停留时间较长的,一般为年轻人群体。

(5)电商流水:从电商公司丰富的订单流水数据中,可以挖掘出较为完整的客户画像。客户Alice近一年内购买频繁,但是平均单笔订单金额较低,通常集中在生活用品以及水果生鲜,可以推断出Alice应该是一位家庭妇女;而客户Ben消费总金额较高,购买过车饰类产品,收货地址集中在办公场所,则大概率Ben是有车一族的白领青年。

(6)收货地址:在信贷风控场景中,通常近一年内地址数量较少、地址稳定性高的用户,贷款逾期风险更低;而对于地址变动频繁或者涉黑的用户,建议贷前申请直接拒绝,或者把这些收货地址运用到贷后催收之中。

(7)运营商信息:数据市场上比较常见的第三方数据源,可以用作各个场景下的身份证、姓名、手机号的三要素核验,以及利用在网时长和在网状态判断一个用户是否有欺诈风险。

除去上面整理的简单底层特征,在实际工作中数据分析师和算法工程师们还需要针对不同的业务场景,利用规则和模型构造一些复杂特征。

举两个实际的例子:

第一个例子,为了计算用户的年收入,可以利用近一年内支付总金额+理财总余额-信贷总负债的大公式,通过线性回归拟合出三个指标的系数,来得到每个用户预测的收入水平;

第二个例子,给自己在做的模型打个小广告,京东金融金融科技业务部基于京东集团商城、金融和物流三大自有数据源以及海量外部数据源,利用XGBoost、LightGBM、CatBoost等复杂集成树类算法,计算得到玉衡分特征,用来衡量京东客户在现金贷场景的信用等级,帮助服务的银行和小贷公司搭建信贷智能决策系统。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8421

    浏览量

    132710

原文标题:在机器学习的项目中,特征是如何被找出来的

文章出处:【微信号:AI_shequ,微信公众号:人工智能爱好者社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    eda在机器学习中的应用

    机器学习项目中,数据预处理和理解是成功构建模型的关键。探索性数据分析(EDA)是这一过程中不可或缺的一部分。 1.
    的头像 发表于 11-13 10:42 319次阅读

    数据准备指南:10种基础特征工程方法的实战教程

    数据分析和机器学习领域,从原始数据中提取有价值的信息是一个关键步骤。这个过程不仅有助于辅助决策,还能预测未来趋势。为了实现这一目标,特征
    的头像 发表于 11-01 08:09 282次阅读
    <b class='flag-5'>数据</b>准备指南:10种基础<b class='flag-5'>特征</b><b class='flag-5'>工程</b>方法的<b class='flag-5'>实战</b>教程

    特征工程实施步骤

    数据中提取数值表示以供无监督模型使用的方法(例如,试图从之前非结构化的数据集中提取结构)。特征工程包括这两种情况,以及更多内容。数据从业者通
    的头像 发表于 10-23 08:07 282次阅读
    <b class='flag-5'>特征</b><b class='flag-5'>工程</b>实施步骤

    【全新课程资料】正点原子《基于GD32 ARM32单片机项目实战入门》培训课程资料上线!

    ,掌握ARM32单片机项目的开发流程; 三、课程特色 1、基础入门,循序渐进 从开发环境搭建和工程创建开始,逐步深入学习每一个外设的原理及应用。通过实战
    发表于 09-24 18:06

    【全新课程资料】正点原子《ESP32基础及项目实战入门》培训课程资料上线!

    您逐步实现功能,提高编程能力 四、适合群体 本课程会从基础入门过渡到项目实战,层层递进,因此非常适合以下人群学习: (1)在校学生 (2)刚入职场的新晋工程师 (3)想转岗ESP32
    发表于 09-24 17:59

    【全新课程资料】正点原子《ESP32物联网项目实战》培训课程资料上线!

    正点原子《ESP32物联网项目实战》全新培训课程上线啦!正点原子工程师手把手教你学!通过多个项目实战,掌握ESP32物联网
    发表于 09-24 17:05

    【「时间序列与机器学习」阅读体验】时间序列的信息提取

    个重要环节,目标是从给定的时间序列数据中提取出有用的信息和特征,以支持后续的分析和预测任务。 特征工程(Feature Engineering)是将
    发表于 08-17 21:12

    【《时间序列与机器学习》阅读体验】+ 时间序列的信息提取

    提高机器学习模型效果与性能的过程。 而我对特征工程的理解就是从一堆数据里找出能表示这堆数据的最小
    发表于 08-14 18:00

    【「时间序列与机器学习」阅读体验】全书概览与时间序列概述

    数据中提取特征并将其转化为交易策略,以及机器学习在其他金融领域(包括资产定价、资产配置、波动率预测)的应用。 全书彩版印刷,内容结构严整,条理清晰,循序渐进,由浅入深,是很好的时间序列
    发表于 08-07 23:03

    机器学习中的数据预处理与特征工程

    机器学习的整个流程中,数据预处理与特征工程是两个至关重要的步骤。它们直接决定了模型的输入质量,进而影响模型的训练效果和泛化能力。本文将从
    的头像 发表于 07-09 15:57 450次阅读

    机器学习的经典算法与应用

    关于数据机器学习就是喂入算法和数据,让算法从数据中寻找一种相应的关系。Iris鸢尾花数据集是一个经典数据
    的头像 发表于 06-27 08:27 1671次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>的经典算法与应用

    特征工程数据预处理全解析:基础技术和代码示例

    机器学习数据科学的世界里,数据的质量是建模成功与否的关键所在。这就是特征工程
    的头像 发表于 06-26 08:28 492次阅读
    <b class='flag-5'>特征</b><b class='flag-5'>工程</b>与<b class='flag-5'>数据</b>预处理全解析:基础技术和代码示例

    通过强化学习策略进行特征选择

    来源:DeepHubIMBA特征选择是构建机器学习模型过程中的决定性步骤。为模型和我们想要完成的任务选择好的特征,可以提高性能。如果我们处理的是高维
    的头像 发表于 06-05 08:27 359次阅读
    通过强化<b class='flag-5'>学习</b>策略进行<b class='flag-5'>特征</b>选择

    数据挖掘的应用领域,并举例说明

    数据挖掘(Data Mining)是一种从大量数据中提取出有意义的信息和模式的技术。它结合了数据库、统计学、机器
    的头像 发表于 02-03 14:19 3138次阅读

    数据预处理和特征工程的常用功能

    机器学习最基础的5个流程,分别是数据获取,数据预处理,特征工程,建模、测试和预测,上线与部署。
    的头像 发表于 01-25 11:26 767次阅读