机器学习特征工程的五个方面优点-电子发烧友网

特征工程是用数学转换的方法将原始输入数据转换为用于机器学习模型的新特征。特征工程提高了机器学习模型的准确度和计算效率，体现在以下五个方面

1、把原始数据转换成与目标相关的数据

我们可以使用特征工程对原始数据进行转换，使其更接近目标变量，转换后的特征对目标更有预测性。在这种情况下，虽然未加工输入出现在原始数据集中，但如果将转换后的特征作为输入，则机器学习将提高预测的准确性。

2、引入额外的数据源

特征工程可以使从业者向机器学习模型引入额外的数据源。对于首次注册的用户，我们可以猜测该用户的终生价值。在众多指标中，我们可以捕捉每个用户的地理位置。虽然这个数据可以直接作为分类特征（例如，IP地址和邮政编码）提供，但模型基于这些来确定位置信息仍存在困难。

通过第三方的人口统计数据，我们可以做的更好。例如，这将允许我们计算每个用户区域的平均收入和人口密度，并把这些因素直接插入到训练集中。现在，这些预测性因素立即变得更容易推断，而不是依赖模型从原始位置数据推断这种微妙的关系。更进一步，位置信息转换成收入和人口密度的特征工程，可使我们估计这些位置衍生出的特征哪一个更为重要。

3、使用非结构化的数据源

特征工程可使我们在机器学习模型中使用非结构化的数据源。许多数据源本质上并不是结构化的特征向量。非结构化数据，如文本、时间序列、图像、视频、日志数据和点击流等，占创建数据的绝大多数。特征工程使从业者从上述原始数据流中产生机器学习的特征向量。

4、创建更容易解释的特征

特征工程使机器学习的从业者能够创建更易于解释和实用的特征。通常，使用机器学习发现数据中的模式，对于产生精确的预测十分有用，但会遇到模型的可解释性和模型的最终应用的一些限制。这些情况下，在驱动数据生成、链接原始数据和目标变量的过程中，产生更有指示性的新特征，这样更有价值。

5、用大特征集提高创造性

特征工程使得我们可以扔进大量的特征，观察它们代表了什么。我们能创建尽可能多的数据，观察在训练模型中哪些更有预测力。这使得机器学习的从业者在创建和测试特征时摆脱僵化心理，并能够发现新的趋势和模式。

虽然当几十个甚至上百个特征用于训练机器学习模型时，过拟合成为一个问题，但严谨的特征选择算法，可减少特征使其易于管理。例如，我们可以自主选择前10个特征的预测，与所有1000个特征的预测是一样好，还是优于后者。

特征工程

引自《机器学习实战》

在机器学习应用领域中，特征工程扮演着非常重要的角色，可以说特征工程是机器学习应用的基础。在机器学习业界流传着这样一句话：“数据和特征决定了机器学习算法的上限，而模型和算法只是不断逼近而已。”在机器学习应用中，特征工程介于“数据”和“模型”之间，特征工程是使用数据的专业领域知识创建能够使机器学习算法工作的特征的过程，而好的数据胜于多的数据。美国计算机科学家Peter Norvig有两句经典名言：“基于大量数据的简单模型胜于少量数据的复杂模型。”以及“更多的数据胜于聪明的算法，而好的数据胜于多的数据。”因此，特征工程的前提是收集足够多的数据，其次是从大量数据中提取关键信息并表示为模型所需要的形式。合适的特征可以让模型预测更加容易，机器学习应用更有可能成功。

引自《美团机器学习》

在监督机器学习过程中，我们使用数据教自动系统如何做出准确的决策。机器学习算法被设计成发现模式和历史训练数据间的联系；它们从数据中学习并将学习结果编码到模型中，从而对新数据的重要属性做出准确的预测。因此，训练数据是机器学习中的基本问题。有了高质量的数据，就可以捕捉到细微的差别和关联关系，从而建立高保真的预测系统。相反，若训练数据质量不佳，则再好的机器学习算法也无济于事。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器学习

机器学习

+关注

关注
66

文章
8373

浏览量
132394

eda在机器学习中的应用

值和噪声数据。通过绘制箱线图、直方图和散点图，我们可以直观地看到数据中的异常值和分布情况。例如，如果一个数据集中的某个特征值远高于其他值，这可能是一个异常值，需要进一步调查。 2. 特征

发表于 11-13 10:42 •142次阅读

MLOps平台优点

MLOps平台在提升机器学习模型的开发与部署效率、可扩展性与灵活性、透明度与可重复性以及降低风险和持续改进方面具有显著优点。

发表于 11-06 10:10 •111次阅读

数据准备指南：10种基础特征工程方法的实战教程

在数据分析和机器学习领域，从原始数据中提取有价值的信息是一个关键步骤。这个过程不仅有助于辅助决策，还能预测未来趋势。为了实现这一目标，特征工程

发表于 11-01 08:09 •219次阅读

特征工程实施步骤

数据中提取数值表示以供无监督模型使用的方法（例如，试图从之前非结构化的数据集中提取结构）。特征工程包括这两种情况，以及更多内容。数据从业者通常依赖ML和深度学习算法

发表于 10-23 08:07 •177次阅读

【「时间序列与机器学习」阅读体验】时间序列的信息提取

个重要环节，目标是从给定的时间序列数据中提取出有用的信息和特征，以支持后续的分析和预测任务。特征工程(Feature Engineering)是将数据转换为更好地表示潜在问题的

发表于 08-17 21:12

【《时间序列与机器学习》阅读体验】+ 时间序列的信息提取

本人有些机器学习的基础，理解起来一点也不轻松，加油。作者首先说明了时间序列的信息提取是时间序列分析的一个重要环节，目标是从给定的时间序列数据中提取出有用的信息和特征，以支持后续的分析

发表于 08-14 18:00

【「时间序列与机器学习」阅读体验】全书概览与时间序列概述

数据中提取特征并将其转化为交易策略，以及机器学习在其他金融领域(包括资产定价、资产配置、波动率预测)的应用。全书彩版印刷，内容结构严整，条理清晰，循序渐进，由浅入深，是很好的时间序列学习

发表于 08-07 23:03

机器学习中的数据预处理与特征工程

在机器学习的整个流程中，数据预处理与特征工程是两个至关重要的步骤。它们直接决定了模型的输入质量，进而影响模型的训练效果和泛化能力。本文将从数

发表于 07-09 15:57 •292次阅读

人脸检测的五种方法各有什么特征和优缺点

人脸检测是计算机视觉领域的一个重要研究方向，主要用于识别和定位图像中的人脸。以下是五种常见的人脸检测方法及其特征和优缺点的介绍：基于肤色的方法特征：基于肤色的方法主要利用人脸肤色与

发表于 07-03 14:47 •639次阅读

深度学习与传统机器学习的对比

在人工智能的浪潮中，机器学习和深度学习无疑是两大核心驱动力。它们各自以其独特的方式推动着技术的进步，为众多领域带来了革命性的变化。然而，尽管它们都属于机器

发表于 07-01 11:40 •1173次阅读

机器学习的经典算法与应用

关于数据机器学习就是喂入算法和数据，让算法从数据中寻找一种相应的关系。Iris鸢尾花数据集是一个经典数据集，在统计学习和机器

发表于 06-27 08:27 •1566次阅读

通过强化学习策略进行特征选择

来源：DeepHubIMBA特征选择是构建机器学习模型过程中的决定性步骤。为模型和我们想要完成的任务选择好的特征，可以提高性能。如果我们处理的是高维数据集，那么选择

发表于 06-05 08:27 •317次阅读

机器视觉系统五个模块介绍

典型的机器视觉系统由五个主要模块组成：照明、镜头、相机、图像采集和视觉处理器。让我们看一下这五个结构的目的、

发表于 05-09 17:13 •785次阅读

数据预处理和特征工程的常用功能

机器学习最基础的5个流程，分别是数据获取，数据预处理，特征工程，建模、测试和预测，上线与部署。

发表于 01-25 11:26 •705次阅读

什么是特征工程？机器学习的特征工程详解解读

One-hot 编码对于用机器学习模型能够理解的简单数字数据替换分类数据很有用。

发表于 12-28 17:14 •285次阅读

搜索历史

机器学习特征工程的五个方面优点

评论

eda在机器学习中的应用

MLOps平台优点

数据准备指南：10种基础特征工程方法的实战教程

特征工程实施步骤

【「时间序列与机器学习」阅读体验】时间序列的信息提取

【《时间序列与机器学习》阅读体验】+ 时间序列的信息提取

【「时间序列与机器学习」阅读体验】全书概览与时间序列概述

机器学习中的数据预处理与特征工程

人脸检测的五种方法各有什么特征和优缺点

深度学习与传统机器学习的对比

机器学习的经典算法与应用

通过强化学习策略进行特征选择

机器视觉系统五个模块介绍

数据预处理和特征工程的常用功能

什么是特征工程？机器学习的特征工程详解解读