机器学习的6个关键概念-电子发烧友网

机器学习是一种将传统数学与现代强大的计算处理相结合的技术，以学习数据集中固有的模式。在机器学习中，目标是产生一种可以使用这些模式执行某些指定任务的算法。

在监督式机器学习的情况下，目标可能是开发一个模型，该模型可以识别一组输入所属的类别或类别，或预测连续值，例如房屋价格。

在本文中，我将介绍机器学习中的一些关键概念。如果您是机器学习的新手，这将使您对本领域中使用的一些术语和技术有一个很好的了解。

1.特征

在机器学习中，我们上面讨论的输入称为特征。要素是分配给数据点的一组属性。

以下示例数据集是著名的数据集，通常用于机器学习实践问题（称为"波士顿住房价格"）。它由一组与房屋相关的功能（在下图中以红色突出显示）组成，例如年龄，平均房间数和物业税值以及相应的房价。

为了使机器学习模型成功完成其任务，至少其中一些功能与房屋价格之间需要存在统计关系。

机器学习的6个关键概念

> Boston housing prices dataset — features are highlighted red

2.特征选择与工程

优化机器学习模型的重要一步是优化。我们开发的模型需要以最佳状态执行，而要确保做到这一点的一种方法是使用最佳功能来训练模型。

包括每个特征并不总是有用的。有些特征可能与我们尝试预测的变量没有有意义的统计关系，而另一些特征可能彼此紧密相关。这两种情况都将噪声引入训练阶段，这可能会降低模型性能。特征选择是选择最佳特征以包含在训练阶段中的过程。

同样，原始形式的特征可能无法提供足够的有意义的数据来训练性能模型。另外，某些特征根本不能以其原始形式使用，一个很好的例子就是基于日期/时间的功能。机器学习模型不能使用日期或时间戳作为特征，我们需要首先从日期中导出有意义的特征，才能包含此信息。我们可以使用整数形式的日期部分（例如月，日或星期数），或计算两个日期之间的差，以提供算法可以理解的模式。这就是所谓的特征工程。

3.标签

有监督的机器学习需要一些被称为标记数据的东西。这意味着每组要素都具有相应标签的数据。这些标签可以是类别或类型（例如猫或狗），也可以是连续值，例如在波士顿房屋价格数据集中以标签为价格的情况。

在开发机器学习模型时，功能通常称为X，标签称为y。

机器学习的6个关键概念

> Boston housing prices dataset — labels are highlighted red

4.训练

监督式机器学习需要标记数据，因为算法使用这些示例特征值及其对应的标记来"学习"模式，如果成功，则将使模型能够准确地预测新的未标记数据上的标记。

在机器学习过程中，学习的这一阶段称为训练阶段。在此阶段结束时，您将拥有一个可用于预测新的未标记数据的标签或值的模型。训练阶段通常称为拟合模型。

5.调参

在本文前面介绍功能选择时，我曾讨论过一个优化过程。此过程的另一部分称为调参，涉及优化算法参数以找到适合您特定数据集的最佳组合。

所有机器学习模型都包含具有多种选项的参数。例如，随机森林模型具有许多可调参数。一个示例是n_estimators，它确定森林中树木的数量。通常，树的数量越多，结果越好，但是在特定点（并且这取决于数据集），随着您添加更多的树，改进会降低。为您的数据集找到最佳树数是一种调整随机森林算法参数的方法。

每种算法都有许多可调参数，并且每个参数都有大量潜在的选项。幸运的是，有自动方法可以找到这些参数的最佳组合，这就是所谓的超参数优化。

6.验证

建立模型后，我们需要确定其执行给定任务的能力。在我们的示例数据中，我们将要了解模型可以多么准确地预测房屋价格。在机器学习中，建立最佳性能指标很重要，这将根据我们要解决的问题而有所不同。

通常，在开始机器学习项目时，我们将首先将要使用的数据集分为两部分。我们一个用来训练模型，另一个用于测试阶段。

机器学习中的测试通常称为验证。我们使用模型对保留的测试数据集进行预测，并测量所选的性能指标，以确定模型能够很好地执行给定任务。

本文概述了讨论机器学习时最常用的一些术语和概念。如果您刚刚开始学习，它应该可以帮助您了解机器学习教程中使用的一些术语。如果您想深入学习使用python创建您的第一个模型，可以在这里阅读我的教程"如何创建您的第一个机器学习模型"。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器学习

机器学习

+关注

关注
66

文章
8424

浏览量
132766

传统机器学习方法和应用指导

在上一篇文章中，我们介绍了机器学习的关键概念术语。在本文中，我们会介绍传统机器学习的基础知识和多

发表于 12-30 09:16 •250次阅读

传统<b class='flag-5'>机器</b><b class='flag-5'>学习</b>方法和应用指导

自然语言处理与机器学习的关系自然语言处理的基本概念及步骤

Learning，简称ML）是人工智能的一个核心领域，它使计算机能够从数据中学习并做出预测或决策。自然语言处理与机器学习之间有着密切的关系，因为机

发表于 12-05 15:21 •529次阅读

NPU与机器学习算法的关系

紧密。 NPU的起源与特点 NPU的概念最早由谷歌在其TPU（Tensor Processing Unit）项目中提出，旨在为TensorFlow框架提供专用的硬件加速。NPU的设计目标是提高机器学习算法的运行效率，特别是在处理

发表于 11-15 09:19 •511次阅读

eda在机器学习中的应用

值和噪声数据。通过绘制箱线图、直方图和散点图，我们可以直观地看到数据中的异常值和分布情况。例如，如果一个数据集中的某个特征值远高于其他值，这可能是一个异常值，需要进一步调查。 2. 特征选择特征选择是机器

发表于 11-13 10:42 •327次阅读

具身智能与机器学习的关系

具身智能（Embodied Intelligence）和机器学习（Machine Learning）是人工智能领域的两个重要概念，它们之间存在着密切的关系。 1. 具身智能的定义具身

发表于 10-27 10:33 •408次阅读

【《时间序列与机器学习》阅读体验】+ 时间序列的信息提取

本人有些机器学习的基础，理解起来一点也不轻松，加油。作者首先说明了时间序列的信息提取是时间序列分析的一个重要环节，目标是从给定的时间序列数据中提取出有用的信息和特征，以支持后续的分析和预测任务，可以

发表于 08-14 18:00

预训练和迁移学习的区别和联系

预训练和迁移学习是深度学习和机器学习领域中的两个重要概念，它们在提高模型性能、减少训练时间和降低

发表于 07-11 10:12 •1109次阅读

如何理解机器学习中的训练集、验证集和测试集

理解机器学习中的训练集、验证集和测试集，是掌握机器学习核心概念和流程的重要一步。这三者不仅构成了模型学习

发表于 07-10 15:45 •4347次阅读

机器学习中的数据预处理与特征工程

在机器学习的整个流程中，数据预处理与特征工程是两个至关重要的步骤。它们直接决定了模型的输入质量，进而影响模型的训练效果和泛化能力。本文将从数据预处理和特征工程的基本概念出发，详细探讨这

发表于 07-09 15:57 •486次阅读

迁移学习的基本概念和实现方法

迁移学习（Transfer Learning）是机器学习领域中的一个重要概念，其核心思想是利用在一个

发表于 07-04 17:30 •1780次阅读

人工神经网络与传统机器学习模型的区别

在人工智能领域，机器学习和神经网络是两个核心概念，它们各自拥有独特的特性和应用场景。虽然它们都旨在使计算机系统能够自动从数据中学习和提升，但

发表于 07-04 14:08 •1395次阅读

人工智能、机器学习和深度学习是什么

在科技日新月异的今天，人工智能（Artificial Intelligence, AI）、机器学习（Machine Learning, ML）和深度学习（Deep Learning, DL）已成为

发表于 07-03 18:22 •1330次阅读

机器学习在数据分析中的应用

随着大数据时代的到来，数据量的爆炸性增长对数据分析提出了更高的要求。机器学习作为一种强大的工具，通过训练模型从数据中学习规律，为企业和组织提供了更高效、更准确的数据分析能力。本文将深入探讨机器

发表于 07-02 11:22 •656次阅读

图机器学习入门：基本概念介绍

图机器学习（GraphMachineLearning，简称GraphML）是机器学习的一个分支，专注于利用图形结构的数据。在图形结构中，数据

发表于 05-16 08:27 •521次阅读

机器学习怎么进入人工智能

，人工智能已成为一个热门领域，涉及到多个行业和领域，例如语音识别、机器翻译、图像识别等。在编程中进行人工智能的关键是使用机器学习算法，这是

发表于 04-04 08:41 •345次阅读

搜索历史

机器学习的6个关键概念

评论

传统机器学习方法和应用指导

自然语言处理与机器学习的关系自然语言处理的基本概念及步骤

NPU与机器学习算法的关系

eda在机器学习中的应用

具身智能与机器学习的关系

【《时间序列与机器学习》阅读体验】+ 时间序列的信息提取

预训练和迁移学习的区别和联系

如何理解机器学习中的训练集、验证集和测试集

机器学习中的数据预处理与特征工程

迁移学习的基本概念和实现方法

人工神经网络与传统机器学习模型的区别

人工智能、机器学习和深度学习是什么

机器学习在数据分析中的应用

图机器学习入门：基本概念介绍

机器学习怎么进入人工智能