0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

快速掌握特征构建的常用方法

格创东智 2018-12-12 11:49 次阅读

在之前格物汇的文章中,我们介绍了工业数据预处理的方法以及特征工程的基本知识,今天要带大家来了解如何做特征构建。


特征构建常用方法


特征构建的常用方法是属性分割和结合,这一般根据我们具体的问题所决定。我们通过具体的应用场景来看看:


时间列处理

时间戳属性通常需要分离成多个维度比如年、月、日、小时、分钟、秒钟。通常时间序列数据会含有一定的趋势和周期性,这时需要我们去构建趋势因子和周期因子


分解类别属性

一些属性是类别型而不是数值型,举一个简单的例子,由{红,绿、蓝}组成的颜色属性,最常用的方式是把每个类别属性转换成二元属性,即从{0,1}取一个值。因此基本上增加的属性等于相应数目的类别,并且对于你数据集中的每个实例,只有一个是1(其他的为0),这也就是独热(one-hot)编码方式。我们在前面的文章中介绍过了,在此不再赘述。


分箱和分区

有时候,将数值型属性转换成类别呈现更有意义,同时能使算法减少噪声的干扰,通过将一定范围内的数值划分成确定的块。举个例子,我们预测一个人是否拥有某款衣服,这里年龄是一个确切的因子。其实年龄组是更为相关的因子,所以我们可以将年龄分布划分成1-10,11-18,19-25,26-40等年龄段,分别表示 幼儿,青少年,青年,中年四个年龄组,让相近的年龄组表现出相似的属性。此外,我们还可以对分箱,分区做一些统计量字段作为数据的特征。


只有在了解属性的领域知识的基础,确定属性能够划分成简洁的范围时分区才有意义。即所有的数值落入一个分区时能够呈现出共同的特征。在实际应用中,当你不想让你的模型总是尝试区分值之间是否太近时,分区能够避免出现过拟合。例如,如果你所感兴趣的是将一个城市作为整体,这时你可以将所有落入该城市的维度值进行整合成一个整体。分箱也能减小小错误的影响,通过将一个给定值划入到最近的块中。如果划分范围的数量和所有可能值相近,或对你来说准确率很重要的话,此时分箱就不适合了。

交叉特征

交叉特征是特征工程中重要的方法之一,交叉特征是一种很独特的方式,它将两个或更多的类别属性组合成一个。当组合的特征要比单个特征更好时,这是一项非常有用的技术。数学上来说,是对类别特征的所有可能值进行交叉相乘。当然我们不仅仅会去查找交叉项关系,还可以去寻找更加复杂的二次项,三次项乃至更复杂的关系,这根据问题求解的需要决定。


经度与纬度的组合便是交叉特征的应用实例,一个相同的经度对应了地图上很多的地方,纬度也是一样。但是一旦你将经度和纬度组合到一起,它们就代表了地理上特定的一块区域,区域中每一部分是拥有着类似的特性。

小结

一般我们会收集与问题相关的数据作为我们的特征,但是这些特征有时不足以解释我们的问题,我们还是会通过特征构建来增加解释能力。这其实是对数据进行升维操作,总的来说,特征构建可以给我们的模型提供一些关键的信息,来解决模型解释能力不足的情况。但如果我们收集的数据包含了过多的特征,如何对这些特征进行提纯呢?请继续关注格物汇,我们将在之后的文章中详细讲解。


本文作者:格创东智 OT团队 (转载请注明来源及作者)


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 智能制造
    +关注

    关注

    48

    文章

    5560

    浏览量

    76333
  • 工业互联网
    +关注

    关注

    28

    文章

    4322

    浏览量

    94112
收藏 人收藏

    评论

    相关推荐

    常用的devops工具集成方法

    常用的devops工具集成方法涵盖了软件开发和运维的各个方面,从版本控制到自动化构建、测试、部署和监控。这些工具的有效集成可以帮助团队提高协作效率,减少沟通障碍,实现快速、高质量的软件
    的头像 发表于 10-09 11:21 252次阅读

    特瑞仕DC/DC转换器实机特性比较工具的特征和使用方法

    本篇文章说明了特瑞仕在官网公开的实机特性比较工具的特征和使用方法
    的头像 发表于 09-26 17:03 1997次阅读
    特瑞仕DC/DC转换器实机特性比较工具的<b class='flag-5'>特征</b>和使用<b class='flag-5'>方法</b>

    DC/DC模拟器的特征和使用方法

    本篇介绍了特瑞仕在官网提供的DC/DC模拟器的特征和使用方法
    的头像 发表于 07-18 16:17 722次阅读
    DC/DC模拟器的<b class='flag-5'>特征</b>和使用<b class='flag-5'>方法</b>

    神经网络预测模型的构建方法

    神经网络模型作为一种强大的预测工具,广泛应用于各种领域,如金融、医疗、交通等。本文将详细介绍神经网络预测模型的构建方法,包括模型设计、数据集准备、模型训练、验证与评估等步骤,并附以代码示例。
    的头像 发表于 07-05 17:41 661次阅读

    人脸检测的五种方法各有什么特征和优缺点

    人脸检测是计算机视觉领域的一个重要研究方向,主要用于识别和定位图像中的人脸。以下是五种常见的人脸检测方法及其特征和优缺点的介绍: 基于肤色的方法 特征:基于肤色的
    的头像 发表于 07-03 14:47 835次阅读

    基于神经网络算法的模型构建方法

    神经网络是一种强大的机器学习算法,广泛应用于各种领域,如图像识别、自然语言处理、语音识别等。本文详细介绍了基于神经网络算法的模型构建方法,包括数据预处理、网络结构设计、训练过程优化、模型评估
    的头像 发表于 07-02 11:21 539次阅读

    smt贴片加工常用的检测修理方法有哪些

    出现一些问题,例如组装不良、焊接错误等,这些问题会直接影响电子产品的品质和性能。因此,了解和掌握SMT贴片加工常用的检测修理方法是至关重要的。 一、SMT贴片加工常见问题及分析 1. 组装不良 组装不良是SMT贴片加工中常见的问
    的头像 发表于 06-13 09:32 574次阅读

    示波器探头常用的校准方法

    示波器探头是连接被测信号与示波器的关键部件,其性能直接影响示波器对信号的捕获和显示。为了确保示波器系统的测量精度,对示波器探头进行适当的校准是不可或缺的步骤。本文将详细介绍示波器探头常用的校准方法,并探讨各种方法的原理、步骤和注
    的头像 发表于 05-13 16:34 3572次阅读

    自动焊常用的焊接方法有哪些

    跟踪系统将介绍几种常用的自动焊接方法。 激光焊 激光焊是一种利用高能激光束作为热源进行焊接的方法。激光束具有高能量密度、高速度和高精度的特点,能够实现快速、高质量的焊接。激光焊适用于薄
    的头像 发表于 04-09 16:22 1257次阅读
    自动焊<b class='flag-5'>常用</b>的焊接<b class='flag-5'>方法</b>有哪些

    gis中常用的空间分析方法

    GIS中常用的空间分析方法 GIS(地理信息系统)是一种用于收集、存储、处理、分析和展示地理数据的技术。空间分析是GIS的核心部分,它包括一系列方法和技术,用来研究地理空间数据之间的关系和模式。本文
    的头像 发表于 02-25 13:44 5587次阅读

    常用的变频器检测方法静态测试和动态测试

    常用的变频器检测方法静态测试和动态测试  变频器是一种电力调节装置,可以实现对电动机的调速和节能。在使用变频器时,经常需要对其进行检测,以确保其正常工作。常用的变频器检测方法主要包括静
    的头像 发表于 02-01 15:47 4658次阅读

    QDAT非信令测试常用的测试方法介绍

    高通WIFI6的IPQ系列芯片非信令测试常用的测试方法有两种
    的头像 发表于 01-17 09:43 4147次阅读
    QDAT非信令测试<b class='flag-5'>常用</b>的测试<b class='flag-5'>方法</b>介绍

    消除自激振荡的常用方法

    消除自激振荡是指在电路或系统中消除自激振荡的现象,自激振荡是指电路或系统因为自身的反馈而产生不断增强的振荡。为了解决这个问题,工程师们提出了一系列的方法,下面将详细介绍几种常用方法。 增加阻尼
    的头像 发表于 01-16 14:43 5178次阅读

    辐射整改的常用方法

    辐射整改的常用方法?|深圳比创达电子
    的头像 发表于 01-04 10:36 657次阅读
    辐射整改的<b class='flag-5'>常用</b><b class='flag-5'>方法</b>?

    SOLIDWORKS在驾驭快速发展的科技环境的同时更快地构建产品

    SOLIDWORKS在驾驭快速发展的科技环境的同时更快地构建产品,高科技公司需要保持竞争力和相关性,同时在快速发展的环境中化解设计和运营复杂性、高质量的交付和利润压力。
    的头像 发表于 01-03 14:09 289次阅读