哪些特征工程技术可以改善机器学习预测？-电子发烧友网

在机器学习方面，人们可以采取的改进 ML 模型预测的方法是选择正确的特征并删除对模型性能影响微不足道的特征。因此，选择正确的特征可能是数据科学家或机器学习工程师需要做的最重要的步骤之一，他们通常负责构建那些能够很好地概括测试数据集的复杂模型。

例如，考虑预测一个人是否会患心脏病的任务，可以产生良好影响的最强指标之一就是体重指数 (BMI)。当我们试图预测一个人可能患有的血压 (BP) 水平时，没有考虑这个特征并且没有在我们的数据集中使用它，通常会导致结果不太准确。在这种情况下，BMI 可以强烈表明一个人患有这些疾病。因此，考虑这个特征很重要，因为它会对结果产生很大的影响。

考虑另一个预测某人是否会拖欠贷款的案例研究。在向某人提供贷款之前，所考虑的银行会询问一系列问题，例如工资、净资产和他们的信用记录。如果我们要让一个人根据上述一系列因素来决定是否必须向某人提供贷款，他/她会查看总工资和他们的整体信用记录。

同样，当数据以与人类相同的方式提供给 ML 模型时，它会学会获得重要的表示，以便它决定一个人是否会偿还贷款。如果我们删除诸如工资之类的特征，ML 模型将缺少关键信息，无法完美地解读一个人是否会偿还贷款。因此，它的预测可能会非常错误，因为数据中缺少最重要的特征之一（工资）。因此，这凸显了拥有正确的特征对于我们的机器学习和深度学习模型在测试集和实时数据上表现良好的重要性。

现在我们已经了解了确定正确特征对于确定模型预测质量的重要性，我们现在将继续寻找有助于我们的模型预测并改善其结果的各种特征化技术。

插值

这是我们在数据中填充缺失值的一种方法。我们在互联网上找到了大量数据集，例如包含几乎所有特征和标签而没有异常或缺失数据的玩具数据集。然而，这在现实生活中可能远非如此，因为大多数现实世界数据都包含缺失值。因此，必须采取特定步骤来确保以某种方式填充缺失的值。

我们可以使用各种方法来执行插值。我们可以使用特征的平均值或平均值来填充缺失值。还有其他方法，例如特征的中位数插值和众数插值。因此，通过执行这些方法，我们不会得到包含缺失值的数据。

如果我们要预测一个人是否会拖欠贷款，我们会将薪水作为我们机器学习模型的重要特征之一。但是，所有参与者的薪水信息可能不存在于我们的数据中。因此，最好的方法之一是分别用整个薪资特征的平均值来估算或填充这些缺失值。

缩放我们倾向于为我们的模型提供一组不同的特征，基于此，模型将确定用于预测结果或目标变量的最佳特征。但需要注意的是，我们使用的特征在我们最初收到数据时可能具有不同的尺度。

以用于确定房价的特征为例。在这种情况下，特征可能是卧室数量和利率。我们无法比较这两个特征，因为卧室数量以单位为单位，而利率以美元 ($) 为单位。如果我们将这些数据提供给我们的 ML 模型，它只会理解美元比卧室数量特征高出很多单位。然而，正如我们上面所看到的，这远非事实。因此，在将特征提供给模型进行预测之前，执行特征的缩放操作非常重要。

归一化这是我们执行缩放操作的一种方式，在转换数据中的其他值之前，先对所考虑的各个特征取最大值和最小值。我们确保特征的最小值为 0，最大值为 1。这将确保我们能够使用模型产生最佳结果并获得良好的预测。以客户是否会流失（离开）或继续使用互联网服务为例，月费和使用期限等特征是一些重要特征。月费可以以美元 ($) 为单位，而使用期限可以以年或月为单位。由于它们的规模不同，因此规范化在这种情况下非常方便，并确保我们获得最佳的模型预测。

标准化标准化在转换特征方面与规范化类似，不同之处在于我们以这样一种方式转换数据，即我们得到一个输出，该输出对于每个单独的特征都具有单位方差和零均值。我们已经看到，对各种特征使用不同的尺度常常会使模型感到困惑，因为模型会因为数据的尺度而假设一个特征比另一个特征更重要，执行标准化操作有助于确保我们获得最佳预测。因此，这是机器学习从业者在构建最佳预测时经常采取的一步。

在预测汽车价格时，我们会分别考虑气缸数和里程数等特征。由于这两个特征的尺度不同，我们必须执行标准化，以便在给出预测模型之前，我们可以在特征之间找到共同点。

独热编码想象一个场景，我们的数据中有大量分类特征。我们数据中的一些分类特征可以包括国家、州、名称等特征。从这些特征中，我们看到，我们只生成这些实例的出现，而没有得到数字表示。为了使我们的 ML 模型能够很好地工作并利用数据，分类特征（如上所示）应该转换为数字特征，以便模型执行计算。因此，我们执行这一步独热编码，以便将分类特征转换为数字特征。现在人们可能会质疑算法实际上是如何做到这一点的。它只是将每个特征的每个类别视为单独的列。特定类别的存在或不存在将被标记为 1 或 0。如果我们发现特定类别存在，反之亦然，我们将值设为 1。

响应编码这是另一种与独热编码非常相似的方法，因为它可以处理分类数据。但是，将分类特征转换为数值特征的过程与之前的方法不同。在响应编码中，我们最感兴趣的是每个类别的目标平均值。例如，以确定房价为例。为了预测各个地区的房价，我们将对各个地区进行分组，并找出每个地区的平均房价。稍后，我们将用每个地区特定的平均房价替换地区，以表示先前作为分类特征的数值。因此，我们的模型可以固有地了解社区在确定房价方面有多大影响。因此，响应编码在这种情况下非常方便。考虑到预测汽车价格的问题，可能会有 SUV 或轿车等汽车。有时可以通过这两个特征来确定价格。因此，当使用响应编码转换此分类特征（汽车类型）时，响应编码会很有用。我们仅取 SUV 和轿车的平均价格。如果车型为 SUV，我们将其替换为 SUV 车型细分市场的平均价格。如果车型为轿车，我们将其替换为轿车车型细分市场的平均价格。

处理异常值异常值是被视为数据异常的数据点。但是，还需要注意的是，数据中的某些异常值对于模型正确确定结果非常有用且重要。如果我们发现数据中存在大量异常值，则可能会使模型无法对异常值做出正确的预测，而无法很好地概括实时数据。因此，我们必须采取正确的步骤，确保在训练模型并将其投入生产之前将其移除。有多种方法可以去除数据中的异常值。其中一些方法包括找到每个特征的标准差。如果数据点高于或低于平均值 3 个标准差，我们可以自动将它们归类为异常值并将其移除，这样它们就不会影响机器学习模型的预测。

考虑到一个人是否会拖欠贷款，可能会有关于此人工资的信息。薪资信息可能并不总是准确的，并且这个特征中可能存在相当多的异常值。使用这些数据训练我们的 ML 模型通常会导致它在测试集或未见过的数据上表现不佳。因此，最好的方法是在将数据提供给 ML 模型之前从数据中删除异常值。这可以通过了解薪资的标准差来实现，并且高于或低于 3 个标准差的值会自动被删除，以便模型做出可靠的预测。

对数转换

当我们发现数据中存在严重偏差时，可以使用这种技术。如果存在大量偏差，即数据包含大量集中在特定区域的值，而一些异常值和数据点远离平均值，则我们的模型更有可能无法理解这种复杂的关系。

因此，我们将使用对数变换来转换这些数据并减少偏差，以便模型对异常值更具鲁棒性，并且能够很好地概括实时数据。对数变换可以是一种方便的特征工程技术，可以分别提高 ML 模型的性能。

与上述预测一个人是否会拖欠贷款的问题类似，我们也可以将对数变换应用于工资，因为我们看到工资信息中普遍存在很多偏差。大量人（约 80%）获得基本工资，而一小部分人（约 20%）获得大量工资。数据中存在相当大的偏差，实际上可以通过使用对数变换来消除。

结论读完这篇文章后，我相信您能够理解对您的机器学习模型很重要的各种特征工程技术。在正确的时间使用最佳的特征工程技术确实非常方便，并且可以通过使用人工智能为公司生成有价值的预测。

来源：PyTorch研习社

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1791

文章
47259

浏览量
238420
数据模型

数据模型

+关注

关注
0

文章
49

浏览量
10003
机器学习

机器学习

+关注

关注
66

文章
8416

浏览量
132619

ASR和机器学习的关系

自动语音识别（ASR）技术的发展一直是人工智能领域的一个重要分支，它使得机器能够理解和处理人类语言。随着机器学习（ML）技术的迅猛发展，AS

发表于 11-18 15:16 •317次阅读

数据准备指南：10种基础特征工程方法的实战教程

在数据分析和机器学习领域，从原始数据中提取有价值的信息是一个关键步骤。这个过程不仅有助于辅助决策，还能预测未来趋势。为了实现这一目标，特征工程技术

发表于 11-01 08:09 •273次阅读

特征工程实施步骤

1.为什么特征工程很重要？对于不同的数据科学家，特征工程可能呈现不同的意义。对于一些数据科学家，特征工程

发表于 10-23 08:07 •269次阅读

【「时间序列与机器学习」阅读体验】时间序列的信息提取

个重要环节，目标是从给定的时间序列数据中提取出有用的信息和特征，以支持后续的分析和预测任务。特征工程(Feature Engineering)是将数据转换为更好地表示潜在问题的

发表于 08-17 21:12

【《时间序列与机器学习》阅读体验】+ 时间序列的信息提取

本人有些机器学习的基础，理解起来一点也不轻松，加油。作者首先说明了时间序列的信息提取是时间序列分析的一个重要环节，目标是从给定的时间序列数据中提取出有用的信息和特征，以支持后续的分析和预测

发表于 08-14 18:00

【「时间序列与机器学习」阅读体验】全书概览与时间序列概述

数据中提取特征并将其转化为交易策略，以及机器学习在其他金融领域(包括资产定价、资产配置、波动率预测)的应用。全书彩版印刷，内容结构严整，条理清晰，循序渐进，由浅入深，是很好的时间序列

发表于 08-07 23:03

机器学习中的数据预处理与特征工程

在机器学习的整个流程中，数据预处理与特征工程是两个至关重要的步骤。它们直接决定了模型的输入质量，进而影响模型的训练效果和泛化能力。本文将从数据预处理和

发表于 07-09 15:57 •413次阅读

机器学习的经典算法与应用

据，每条记录都有4项特征：花萼长度、花萼宽度、花瓣长度、花瓣宽度，可以通过这4个特征预测鸢尾花卉属于（iris-setosa,iris-versicolour,ir

发表于 06-27 08:27 •1657次阅读

特征工程与数据预处理全解析：基础技术和代码示例

在机器学习和数据科学的世界里，数据的质量是建模成功与否的关键所在。这就是特征工程和数据预处理发挥作用的地方。本文总结的这些关键步骤可以显著提

发表于 06-26 08:28 •485次阅读

名单公布！【书籍评测活动NO.35】如何用「时间序列与机器学习」解锁未来？

设备的运行状况，生成各种维度的报告。同时，通过大数据分析和机器学习技术，可以对业务进行预测和预警，从而协助社会和企业进行科学决策、降低成本

发表于 06-25 15:00

通过强化学习策略进行特征选择

来源：DeepHubIMBA特征选择是构建机器学习模型过程中的决定性步骤。为模型和我们想要完成的任务选择好的特征，可以提高性能。如果我们处理

发表于 06-05 08:27 •354次阅读

凌科喜获“广东省工程技术研究中心”认定

近日，广东省科学技术厅正式公布了“2023年度广东省工程技术研究中心认定名单”。凭借在工业连接器领域卓越的技术创新与研发实力，凌科电气的“高可靠高精密工业连接器（凌科）工程技术研究中心

发表于 05-25 08:13 •361次阅读

喜讯！诺安智能获“广东省工程技术研究中心”认定

4月7日，广东省科学技术厅发布了《广东省科学技术厅关于拟认定2023年度广东省工程技术研究中心名单的公示》，经单位申报、主管部门推荐、专家评审等程序，诺安智能申报的“广东省智能光电气体传感工程

发表于 04-17 15:08 •490次阅读

数据预处理和特征工程的常用功能

机器学习最基础的5个流程，分别是数据获取，数据预处理，特征工程，建模、测试和预测，上线与部署。

发表于 01-25 11:26 •753次阅读

什么是特征工程？机器学习的特征工程详解解读

One-hot 编码对于用机器学习模型能够理解的简单数字数据替换分类数据很有用。

发表于 12-28 17:14 •300次阅读

搜索历史

哪些特征工程技术可以改善机器学习预测？

评论

ASR和机器学习的关系

数据准备指南：10种基础特征工程方法的实战教程

特征工程实施步骤

【「时间序列与机器学习」阅读体验】时间序列的信息提取

【《时间序列与机器学习》阅读体验】+ 时间序列的信息提取

【「时间序列与机器学习」阅读体验】全书概览与时间序列概述

机器学习中的数据预处理与特征工程

机器学习的经典算法与应用

特征工程与数据预处理全解析：基础技术和代码示例

名单公布！【书籍评测活动NO.35】如何用「时间序列与机器学习」解锁未来？

通过强化学习策略进行特征选择

凌科喜获“广东省工程技术研究中心”认定

喜讯！诺安智能获“广东省工程技术研究中心”认定

数据预处理和特征工程的常用功能

什么是特征工程？机器学习的特征工程详解解读