0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习特征选择的三种方法

倩倩 来源:云溪初阁 2020-04-15 15:56 次阅读

特征选择,这是一个在机器学习中非常重要的东西,那些好的特征可以从整体上来提升模型的性能,可以帮助我们更加清晰的理解真个数据的特点及底层结构,对于后面的模型,算法有着非常重要的作用。

备注:在很多情况下,特征选择并非必要的,业务特征的选择有很强烈的业务契合度在里面,代表着这些特征在业务中的重要性也是很高,如果去掉,很有可能会有一定的副作用,但是无法说清这个副作用,这个需要进入到训练中去训练数据来验证这个效果。

特征选择作用

这里有些同学可能是刚开始接触做特征选择,并不是很了解为什么要做特征选择,做了有什么作用?是否只是简单地减少特征?是否这样子做了,对结果有没有影响?

这里每个人都有自己的理解,小编根据自己的经验,总结有两个,参考一下:

1、减少特征的数量,降低维度,这样子可以在一定程度上加强模型的泛化能力,从而尽可能地减少过拟合,这里要注意一下:过拟合只能减少,无法消灭,好比这个世上,其实没有最优解的一样,拥有的只有不满足。

2、在一定程度上降低特征后,从直观上来看,很多时候可以一目了然看到特征与特征值之间的关联,这个场景,需要实际业务的支撑,生产上的业务数据更加明显,有兴趣的同学可以私信我加群,一起研究。

特征选择从何入手

这是一个非常重要的问题,有很多同学可能刚开始接触或者想往这方面发展,拿到了一组数组,很多时候就是直接拿了一个算法,直接做分类或者做回归或者做聚类,但是这样子正常情况下,数据会存在很多噪音(科普:噪音可以理解为一些垃圾数据,对我们的结果或者期望造成了干扰),这样子的数据不会很好。

那如果我要特征选择呢,又不知从何入手?

这里有两个方法,可以作为参考:

1、从业务范围分析,直接观察特征与业务的相关性,这点非常重要,那些对业务有着直接指标的数据,建议保留,否则,可以考虑手动删除掉。

2、从发散特性分析,这个很多同学毕业后,就忘了这个东西,简单用成语一个成语来理解一下:一成不变。如果这个特征满足这种条件,那证明不发散,其实在数学中,用方差来计算的,这种不发散的特征,基本就没有什么差异性了,例如某一项特征都是0,怎么有影响呢,这样子的特征其实就没什么用。

特征选择的三种方法

进行特征选择的时候,其实有一定的方法或者规律可言,总结起来有三个

1、过滤法:目前这是小编用的最普遍的方法,因为最简单,与业务契合度最高,操作过程就是我可以设定某一个阈值,然后根据数据的发散情况或者与业务是否相关来打分,一般都是当低于这个阈值的时候,就可以考虑过滤掉。

2、嵌入法:这个方法无法直接从字面来理解,但是其实也是很好的东西,小编把它叫做过滤法的进化版。如何理解这个进化版,原先我们采用过滤法的时候,很多时候是人肉直接撸一撸,但是这时候特征多呢,给你200个特征,然后我就可能瞎了或者手废掉了,此时的做法是此案用机器学习的算法或者模型来训练,然后可以得到各个特征的权重值,做个排序,干掉那些排序地的,例如树的特征选择,这些算法,后面会逐一介绍。

3、包装法:听这个名字,是不是也是很迷糊,其实这个也比较好理解,不断循环训练模型,进行目标函数的计算,一般我们是采用预测的效果来评分,逐一选择一定量的特征来做,不断循环,得到结果进行对比,这样就可以看到哪些特征不好。不过这个小编比较少用,计算上比较费时费力,后面的具体算法也会介绍到。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4599

    浏览量

    92625
  • 机器学习
    +关注

    关注

    66

    文章

    8375

    浏览量

    132398
收藏 人收藏

    评论

    相关推荐

    光纤测试方法有哪三种

    光纤测试是确保光纤通信系统性能和可靠性的重要环节。光纤测试方法多样,主要包括插入损耗测试、回波损耗测试和光纤端面检查。以下是对这三种测试方法的介绍: 1. 插入损耗测试 插入损耗测试是测量光纤链路中
    的头像 发表于 09-24 09:31 531次阅读

    单片机的三种总线结构

    、控制信号传递和地址选择中发挥着至关重要的作用。下面将详细阐述这三种总线结构的特点及其在单片机系统中的应用。
    的头像 发表于 09-10 11:32 1631次阅读

    MCUXpresso IDE下在线联合调试双核MCU工程的三种方法

    大家好,我是痞子衡,是正经搞技术的痞子。今天痞子衡给大家分享的是MCUXpresso IDE下在线联合调试i.MXRT1170双核工程的三种方法
    的头像 发表于 08-08 15:18 464次阅读
    MCUXpresso IDE下在线联合调试双核MCU工程的<b class='flag-5'>三种方法</b>

    机器学习中的数据预处理与特征工程

    机器学习的整个流程中,数据预处理与特征工程是两个至关重要的步骤。它们直接决定了模型的输入质量,进而影响模型的训练效果和泛化能力。本文将从数据预处理和特征工程的基本概念出发,详细探讨这
    的头像 发表于 07-09 15:57 295次阅读

    人脸检测的五种方法各有什么特征和优缺点

    人脸检测是计算机视觉领域的一个重要研究方向,主要用于识别和定位图像中的人脸。以下是五常见的人脸检测方法及其特征和优缺点的介绍: 基于肤色的方法
    的头像 发表于 07-03 14:47 659次阅读

    abb工业机器人手动操作有哪三种模式?

    插补模式和手动重定位模式。下面,我们将详细介绍这三种模式的特点、操作方法以及应用场景。 一、手动单轴移动模式 模式特点 手动单轴移动模式是ABB工业机器人最基本的手动操作模式。在这种模式下,操作者可以通过控制
    的头像 发表于 06-16 16:44 4007次阅读

    通过强化学习策略进行特征选择

    来源:DeepHubIMBA特征选择是构建机器学习模型过程中的决定性步骤。为模型和我们想要完成的任务选择好的
    的头像 发表于 06-05 08:27 318次阅读
    通过强化<b class='flag-5'>学习</b>策略进行<b class='flag-5'>特征</b><b class='flag-5'>选择</b>

    信号调制的三种基本方法

    号调制的三种基本方法:调幅(AM)、调频(FM)和调相(PM),并分析它们的优缺点及应用场景。 调幅(AM) 2.1 调幅原理 调幅(Amplitude Modulation,AM)是一将低频信号的幅度变化映射到高频载波信号的
    的头像 发表于 06-03 09:38 2850次阅读

    三种常见的光纤光缆链接方法

    三种常见的光纤光缆链接方法分别是: 永久性光纤连接(又叫热熔):这种连接是用放电的方法将两根光纤的连接点熔化并连接在一起。一般用在长途接续、永久或半永久固定连接。其主要特点是连接衰减在所有的连接
    的头像 发表于 03-01 13:47 2230次阅读

    菱M70 PLC增加注解的三种方法简析

    菱M70 PLC增加注解的三种方法
    的头像 发表于 02-26 09:59 1044次阅读
    <b class='flag-5'>三</b>菱M70 PLC增加注解的<b class='flag-5'>三种方法</b>简析

    传统激光功率衰减的三种方法

    传统激光功率衰减通常使用以下三种方法,分别为中性密度衰减片衰减法、偏振衰减法、镀膜光学镜片衰减法。
    的头像 发表于 01-20 10:42 1663次阅读
    传统激光功率衰减的<b class='flag-5'>三种方法</b>

    异步电机主要的三种调速方法解析

    异步电机主要的三种调速方法解析
    的头像 发表于 01-07 17:50 2240次阅读
    异步电机主要的<b class='flag-5'>三种</b>调速<b class='flag-5'>方法</b>解析

    无人机测深的三种方法总结

    无论是陆地测绘还是海洋测绘,测绘行业都是朝着航空方向发展。下面结合搜索到的论文和相关网页,总结下无人机测深的方法,总共有三种:1)机载激光雷达;2)机载探地雷达(GPR);3)机载高精度测深仪。
    的头像 发表于 01-05 11:24 1736次阅读
    无人机测深的<b class='flag-5'>三种方法</b>总结

    电源的三种常用冷却方法

    在电源领域,散热至关重要,它可直接影响电源性能、可靠性和寿命。随着电子元件的尺寸不断缩小,功率越来越大,有效的冷却方法对于防止过热和确保最佳功能至关重要。在本文中,我们将深入独具吸引力的电源冷却领域,并探讨三种常用方法的优缺点:
    的头像 发表于 12-03 10:29 991次阅读

    linux网络配置的3种方法

    Linux是一流行的操作系统,广泛应用于服务器和网络设备中。Linux系统提供了多种方法来配置网络连接,使得网络设置更加灵活和可定制。本文将会介绍Linux网络配置的三种方法,包括命令行方式
    的头像 发表于 11-27 14:33 4261次阅读