0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习特征工程的五个方面优点

汽车玩家 来源:今日头条 作者:不一样的程序猿 2020-03-15 16:57 次阅读

特征工程是用数学转换的方法将原始输入数据转换为用于机器学习模型的新特征。特征工程提高了机器学习模型的准确度和计算效率,体现在以下五个方面

1、把原始数据转换成与目标相关的数据

我们可以使用特征工程对原始数据进行转换,使其更接近目标变量,转换后的特征对目标更有预测性。在这种情况下,虽然未加工输入出现在原始数据集中,但如果将转换后的特征作为输入,则机器学习将提高预测的准确性。

2、引入额外的数据源

特征工程可以使从业者向机器学习模型引入额外的数据源。对于首次注册的用户,我们可以猜测该用户的终生价值。在众多指标中,我们可以捕捉每个用户的地理位置。虽然这个数据可以直接作为分类特征(例如,IP地址和邮政编码)提供,但模型基于这些来确定位置信息仍存在困难。

通过第三方的人口统计数据,我们可以做的更好。例如,这将允许我们计算每个用户区域的平均收入和人口密度,并把这些因素直接插入到训练集中。现在,这些预测性因素立即变得更容易推断,而不是依赖模型从原始位置数据推断这种微妙的关系。更进一步,位置信息转换成收入和人口密度的特征工程,可使我们估计这些位置衍生出的特征哪一个更为重要。

3、使用非结构化的数据源

特征工程可使我们在机器学习模型中使用非结构化的数据源。许多数据源本质上并不是结构化的特征向量。非结构化数据,如文本、时间序列、图像、视频、日志数据和点击流等,占创建数据的绝大多数。特征工程使从业者从上述原始数据流中产生机器学习的特征向量。

4、创建更容易解释的特征

特征工程使机器学习的从业者能够创建更易于解释和实用的特征。通常,使用机器学习发现数据中的模式,对于产生精确的预测十分有用,但会遇到模型的可解释性和模型的最终应用的一些限制。这些情况下,在驱动数据生成、链接原始数据和目标变量的过程中,产生更有指示性的新特征,这样更有价值。

5、用大特征集提高创造性

特征工程使得我们可以扔进大量的特征,观察它们代表了什么。我们能创建尽可能多的数据,观察在训练模型中哪些更有预测力。这使得机器学习的从业者在创建和测试特征时摆脱僵化心理,并能够发现新的趋势和模式。

虽然当几十个甚至上百个特征用于训练机器学习模型时,过拟合成为一个问题,但严谨的特征选择算法,可减少特征使其易于管理。例如,我们可以自主选择前10个特征的预测,与所有1000个特征的预测是一样好,还是优于后者。

特征工程

引自《机器学习实战》

在机器学习应用领域中,特征工程扮演着非常重要的角色,可以说特征工程是机器学习应用的基础。在机器学习业界流传着这样一句话:“数据和特征决定了机器学习算法的上限,而模型和算法只是不断逼近而已。”在机器学习应用中,特征工程介于“数据”和“模型”之间,特征工程是使用数据的专业领域知识创建能够使机器学习算法工作的特征的过程,而好的数据胜于多的数据。美国计算机科学家Peter Norvig有两句经典名言:“基于大量数据的简单模型胜于少量数据的复杂模型。”以及“更多的数据胜于聪明的算法,而好的数据胜于多的数据。”因此,特征工程的前提是收集足够多的数据,其次是从大量数据中提取关键信息并表示为模型所需要的形式。合适的特征可以让模型预测更加容易,机器学习应用更有可能成功。

引自《美团机器学习》

在监督机器学习过程中,我们使用数据教自动系统如何做出准确的决策。机器学习算法被设计成发现模式和历史训练数据间的联系;它们从数据中学习并将学习结果编码到模型中,从而对新数据的重要属性做出准确的预测。因此,训练数据是机器学习中的基本问题。有了高质量的数据,就可以捕捉到细微的差别和关联关系,从而建立高保真的预测系统。相反,若训练数据质量不佳,则再好的机器学习算法也无济于事。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8190

    浏览量

    131239
收藏 人收藏

    评论

    相关推荐

    机器学习的经典算法与应用

    关于数据机器学习就是喂入算法和数据,让算法从数据中寻找一种相应的关系。Iris鸢尾花数据集是一个经典数据集,在统计学习机器学习领域都经常被
    的头像 发表于 06-27 08:27 803次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>的经典算法与应用

    通过强化学习策略进行特征选择

    来源:DeepHubIMBA特征选择是构建机器学习模型过程中的决定性步骤。为模型和我们想要完成的任务选择好的特征,可以提高性能。如果我们处理的是高维数据集,那么选择
    的头像 发表于 06-05 08:27 134次阅读
    通过强化<b class='flag-5'>学习</b>策略进行<b class='flag-5'>特征</b>选择

    数据预处理和特征工程的常用功能

    机器学习最基础的5个流程,分别是数据获取,数据预处理,特征工程,建模、测试和预测,上线与部署。
    的头像 发表于 01-25 11:26 380次阅读

    什么是特征工程机器学习特征工程详解解读

    One-hot 编码对于用机器学习模型能够理解的简单数字数据替换分类数据很有用。
    发表于 12-28 17:14 212次阅读
    什么是<b class='flag-5'>特征</b><b class='flag-5'>工程</b>?<b class='flag-5'>机器</b><b class='flag-5'>学习</b>的<b class='flag-5'>特征</b><b class='flag-5'>工程</b>详解解读

    深度学习机器学习的定义和优缺点 深度学习机器学习的区别

      深度学习机器学习机器学习领域中两个重要的概念,都是人工智能领域非常热门的技术。两者的关系十分密切,然而又存在一定的区别。下面从定义、
    发表于 08-21 18:27 2661次阅读

    机器学习有哪些算法?机器学习分类算法有哪些?机器学习预判有哪些算法?

    机器学习有哪些算法?机器学习分类算法有哪些?机器学习预判有哪些算法?
    的头像 发表于 08-17 16:30 1606次阅读

    机器学习是什么意思?机器学习属于什么分支?机器学习有什么用处?

    机器学习是什么意思?机器学习属于什么分支?机器学习是什么有什么用处?
    的头像 发表于 08-17 16:30 1445次阅读

    机器学习算法入门 机器学习算法介绍 机器学习算法对比

    机器学习算法入门 机器学习算法介绍 机器学习算法对比 机器
    的头像 发表于 08-17 16:27 706次阅读

    机器学习算法总结 机器学习算法是什么 机器学习算法优缺点

    对数据的学习和分析,机器学习能够自动发现数据中的规律和模式,进而预测未来的趋势。 机器学习算法优缺点
    的头像 发表于 08-17 16:11 1287次阅读

    机器学习和深度学习的区别

    机器学习和深度学习的区别 随着人工智能技术的不断发展,机器学习和深度学习已经成为大家熟知的两个术
    的头像 发表于 08-17 16:11 3680次阅读

    机器视觉与生物特征识别的关系

    生物信息的学习和分析,通过特定传感器识别人体独有特征并进行认证和识别。这两个领域之间存在着千丝万缕的联系,因此两者的结合可以产生一些非常有用的应用。 机器视觉是通过摄像头、扫描仪等设备采集图像信息,并利用算法
    的头像 发表于 08-09 17:43 550次阅读

    创建一边缘机器学习系统

    本指南适用于系统设计人员,可能使用Arm Flexible access程序。 本指南将帮助您开发可以执行机器学习的片上系统(SoC)在边缘。本指南中介绍的SoC可以处理与机器学习相关
    发表于 08-02 11:02

    深度学习工业应用:关于缺陷检测机器自动化方面

    随着机器学习, 深度学习的发展,很多人眼很难去直接量化的特征, 深度学习可以搞定, 这就是深度学习
    发表于 07-17 12:55 331次阅读
    深度<b class='flag-5'>学习</b>工业应用:关于缺陷检测<b class='flag-5'>机器</b>自动化<b class='flag-5'>方面</b>

    特征空间映射(2)#机器学习

    机器学习
    未来加油dz
    发布于 :2023年07月14日 16:47:05

    特征空间映射(1)#机器学习

    机器学习
    未来加油dz
    发布于 :2023年07月14日 16:46:19