0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何给工业大数据降维去噪,你可以试试特征选择

格创东智 2018-12-18 14:09 次阅读

本文作者:格创东智OT团队 (转载请注明来源及作者)


在之前格物汇的文章中,我们介绍了特征构建的几种常用方法。特征构建是一种升维操作,针对特征解释能力不足,可以通过特征构建的方法来增加特征解释力,从而提升模型效果。随着近几年大数据技术的普及,我们可以获取海量数据,但是这些海量数据带给我们更多信息的同时,也带来了更多的噪音和异常数据。如何降维去噪成为很多企业关注的焦点,今天我们将介绍特征工程中的一种降维方法——特征选择


什么是特征选择

特征选择( Feature Selection )也称特征子集选择( FeatureSubset Selection , FSS ),或属性选择( Attribute Selection )。是指从已有的N个特征(Feature)中选择M个特征使得系统的特定指标最优化。

图1.jpg



特征选择主要有两个功能

  • 减少特征数量、降维,使模型泛化能力更强,减少过拟合

  • 增强对特征和特征值之间的理解


特征选择的流程


特征选择的目标是寻找一个能够有效识别目标的最小特征子集。寻找的一般流程可用下图表示:


一般来说,通过枚举来对特征子集进行选择是一个比较费时的步骤,所以应使用一些策略来进行特征选择,通常来说,我们会从两个方面考虑来选择特征:

>>>>

特征是否发散

如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。

>>>>

特征与目标的相关性

这点比较显见,与目标相关性高的特征,应当优选选择。除方差法外,本文介绍的其他方法均从相关性考虑。

根据特征选择的形式又可以将特征选择方法分为3种:

  • Filter

  • Wrapper

  • Embedded

特征选择的方法


01

Filter


过滤法,按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,选择特征。

评分指标有:

  • 方差:评价指标的离散程度,越离散说明包含的信息越多。

  • 相关性:衡量特征对目标的解释能力,相关系数越大说明解释能力越强。

  • 卡方检验:检验定性自变量对定性因变量的相关性。

图3.jpg

  • 互信息:也是评价定性自变量对定性因变量的相关性的。

图4.jpg


02

Wrapper

包装法,根据目标函数(通常是预测效果)评分,每次选择若干特征,或者排除若干特征,主要的方法是递归特征消除法。递归消除特征法使用一个基模型来进行多轮训练,每轮训练后,减少若干特征,或者新增若干特征,进行评估看新增的特征是否需要保留,剔除的特征是否需要还原。最后再基于新的特征集进行下一轮训练。

03

Embedded


嵌入法,先使用某些机器学习算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。类似于Filter方法,但是是通过训练来确定特征的优劣。

一般分为如下两大类:

>>>>

基于惩罚项的特征选择法

这个方法可以用线性回归模型来举例说明,我们在线性模型的目标函数中增加L1正则项(实际上这就是lasso模型)。由于该正则项的存在,某些与目标y不太相关的特征的系数将缩减至0,而保留的特征系数将相应调整,从而达到了对特征进行筛选的效果,L1正则项系数越大,筛选的力度也就越大。

>>>>

基于树模型的特征选择法

在我们之前的文章中介绍过随机森林,GDBT等等基于树的模型,他们均有一个特点就是模型可以计算出特征的重要性。决策树会优先将对预测目标y帮助最大的特征放在模型的顶端,因此根据这个效果我们计算得到特征的重要性,进而我们可以根据特征重要性对特征进行选择。


今天我们大致了解了如何给工业大数据降维去噪,进行特征选择,在后续文章中,我们将继续带大家了解特征工程的另一个内容——特征抽取,敬请期待。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 特征选择
    +关注

    关注

    0

    文章

    12

    浏览量

    7210
  • 大数据
    +关注

    关注

    64

    文章

    8925

    浏览量

    138170
  • 智能制造
    +关注

    关注

    48

    文章

    5670

    浏览量

    76827
  • 工业互联网
    +关注

    关注

    28

    文章

    4333

    浏览量

    94472
  • 工业大数据
    +关注

    关注

    0

    文章

    72

    浏览量

    7909
收藏 人收藏

    评论

    相关推荐

    数据聚类工具介绍——SpatialPCA

    ,NMF)等,多是基于单细胞数据进行开发的,因此不一定完全适用于空间转录组数据。例如,常用的聚类方法并没有运用空间转录组所特有的组织空间定位信息,而仅仅只是基于表达谱进行聚类。但是
    的头像 发表于 02-07 11:19 156次阅读
    <b class='flag-5'>数据</b><b class='flag-5'>降</b><b class='flag-5'>维</b>聚类工具介绍——SpatialPCA

    西北工业大学OpenHarmony技术俱乐部正式揭牌成立

    11月15日,由OpenAtom OpenHarmony(以下简称“OpenHarmony”)项目群技术指导委员会与西北工业大学共同举办的“西北工业大学OpenHarmony技术俱乐部成立大会”在
    的头像 发表于 11-19 18:04 474次阅读
    西北<b class='flag-5'>工业大</b>学OpenHarmony技术俱乐部正式揭牌成立

    CASAIM与北京工业大学合作开展钢桁梁钢材三扫描试验,研究高服役期钢材锈蚀特征及力学性能退化规律

    近期,CASAIM与北京工业大学携手,开展钢桁梁钢材三扫描试验,此次研究结合了北京工业大学在材料科学方面的深厚积累,以及CASAIM在实际工程应用上的丰富经验,共同推进钢桁梁钢材锈蚀机理的深入研究和力学性能退化规律的探索。
    的头像 发表于 11-12 15:01 203次阅读

    PCM1864采样音频数据的谐波及底可能会是由什么引入的呢?

    输入1KHz 0dB音频信号 600mRMSPCM1864,通过I2S连接DSP C5517。DSP通过USB传输给电脑。测试数据如下。模拟增益配置0dB 采样到的信号有较大的谐波失真。如果直接
    发表于 10-15 06:17

    工业智能网关在设备远程运中的作用

    地实现不同工业设备(如PLC、仪器仪表、CNC机床、传感器等)与云平台之间的通信,为设备远程运提供了坚实的基础。随着物联网、云计算、大数据等技术的飞速发展,工业智能网关作为连接
    的头像 发表于 10-14 11:40 328次阅读

    PCM1808模拟输入短接到GND,I2S端底数据过大怎么解决?

    之前自己做的板子也有底问题,后面逛了论坛给出的答案也是说按照DEMO板,后面按照官方的gerber文件,自行打了DEMO板样板。然后BOM方面也是按照官方的。测试发现当模拟输入的左右声道通过
    发表于 09-29 07:44

    工业装备智能保平台是什么

    应运而生,成为保障生产连续性和设备高效运行的重要工具。 什么是工业装备智能保平台? 工业装备智能保平台是一种集成了大数据、云计算、人工智
    的头像 发表于 08-21 14:19 310次阅读

    图像识别技术的原理是什么

    值化、滤波、边缘检测等操作。这些操作可以提高图像的质量,减少噪声,突出图像的特征,为后续的特征提取和分类器设计提供基础。 1.1
    的头像 发表于 07-16 10:46 1641次阅读

    工业大数据云平台在设备预测性维护中的作用

    ,只有保证设备的安全稳定运行才能保障生产的持续,质量的可靠,提升企业产品竞争力。 因此,企业就需要加强对设备状况的及时把握,并一定程度上实现工业设备预测性维护。为此,数之能提供的工业大数据云平台可以全面接入
    的头像 发表于 06-28 15:31 310次阅读

    通过强化学习策略进行特征选择

    来源:DeepHubIMBA特征选择是构建机器学习模型过程中的决定性步骤。为模型和我们想要完成的任务选择好的特征可以提高性能。如果我们处理
    的头像 发表于 06-05 08:27 466次阅读
    通过强化学习策略进行<b class='flag-5'>特征</b><b class='flag-5'>选择</b>

    工业大模型的五个基本问题

    工业业大模型是大模型为赋能工业应用所产生的产业新形态,是制造业数字化转型3.0的重要载体,是一个新质体。
    发表于 04-23 16:04 825次阅读
    <b class='flag-5'>工业大</b>模型的五个基本问题

    工业大数据发展面临的问题

    工业大数据作为工业与数字经济之间的桥梁纽带,对加快工业数字化转型、推进数实融合,支撑新型工业化建设意义重大。
    的头像 发表于 04-16 11:52 658次阅读

    工业物联网如何选择数据采集网关

    ,如何选择一款适合自身需求的数据采集网关,却是一个值得深思的问题。本文将围绕工业物联网中数据采集网关的选择进行探讨。1、明确设备和控制器的型
    的头像 发表于 04-03 14:21 590次阅读
    <b class='flag-5'>工业</b>物联网如何<b class='flag-5'>选择</b><b class='flag-5'>数据</b>采集网关

    工业物联网设备运数据大屏有什么功能?

    ,并优化设备的运行效率和可靠性。对此,数之能提供具备广泛接入性、高并发性、安全防护性的设备运数据大屏。 通过对接PLC、仪器仪表、工业机器人、数控机床、传感器等设备数据,设备运
    的头像 发表于 03-18 11:01 658次阅读

    通过工业智能网关实现设备智能运管理

    需要人工现场排查和处理,不仅效率低下,而且成本较高。这是受限于设备单机运行、缺少联网的限制,因此需要数据采集设备的加持。物通博联推出的工业智能网关可以实现PLC、仪器仪表、工业机器人、
    的头像 发表于 03-15 13:44 416次阅读
    通过<b class='flag-5'>工业</b>智能网关实现设备智能运<b class='flag-5'>维</b>管理