0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习的6个关键概念

汽车玩家 来源:今日头条 作者:闻数起舞 2020-04-14 17:12 次阅读

机器学习是一种将传统数学与现代强大的计算处理相结合的技术,以学习数据集中固有的模式。 在机器学习中,目标是产生一种可以使用这些模式执行某些指定任务的算法

在监督式机器学习的情况下,目标可能是开发一个模型,该模型可以识别一组输入所属的类别或类别,或预测连续值,例如房屋价格。

在本文中,我将介绍机器学习中的一些关键概念。 如果您是机器学习的新手,这将使您对本领域中使用的一些术语和技术有一个很好的了解。

1.特征

在机器学习中,我们上面讨论的输入称为特征。 要素是分配给数据点的一组属性。

以下示例数据集是著名的数据集,通常用于机器学习实践问题(称为"波士顿住房价格")。 它由一组与房屋相关的功能(在下图中以红色突出显示)组成,例如年龄,平均房间数和物业税值以及相应的房价。

为了使机器学习模型成功完成其任务,至少其中一些功能与房屋价格之间需要存在统计关系。

机器学习的6个关键概念

> Boston housing prices dataset — features are highlighted red

2.特征选择与工程

优化机器学习模型的重要一步是优化。 我们开发的模型需要以最佳状态执行,而要确保做到这一点的一种方法是使用最佳功能来训练模型。

包括每个特征并不总是有用的。 有些特征可能与我们尝试预测的变量没有有意义的统计关系,而另一些特征可能彼此紧密相关。 这两种情况都将噪声引入训练阶段,这可能会降低模型性能。 特征选择是选择最佳特征以包含在训练阶段中的过程。

同样,原始形式的特征可能无法提供足够的有意义的数据来训练性能模型。 另外,某些特征根本不能以其原始形式使用,一个很好的例子就是基于日期/时间的功能。 机器学习模型不能使用日期或时间戳作为特征,我们需要首先从日期中导出有意义的特征,才能包含此信息。 我们可以使用整数形式的日期部分(例如月,日或星期数),或计算两个日期之间的差,以提供算法可以理解的模式。 这就是所谓的特征工程。

3.标签

有监督的机器学习需要一些被称为标记数据的东西。 这意味着每组要素都具有相应标签的数据。 这些标签可以是类别或类型(例如猫或狗),也可以是连续值,例如在波士顿房屋价格数据集中以标签为价格的情况。

在开发机器学习模型时,功能通常称为X,标签称为y。

机器学习的6个关键概念

> Boston housing prices dataset — labels are highlighted red

4.训练

监督式机器学习需要标记数据,因为算法使用这些示例特征值及其对应的标记来"学习"模式,如果成功,则将使模型能够准确地预测新的未标记数据上的标记。

在机器学习过程中,学习的这一阶段称为训练阶段。 在此阶段结束时,您将拥有一个可用于预测新的未标记数据的标签或值的模型。 训练阶段通常称为拟合模型。

5.调参

在本文前面介绍功能选择时,我曾讨论过一个优化过程。 此过程的另一部分称为调参,涉及优化算法参数以找到适合您特定数据集的最佳组合。

所有机器学习模型都包含具有多种选项的参数。 例如,随机森林模型具有许多可调参数。 一个示例是n_estimators,它确定森林中树木的数量。 通常,树的数量越多,结果越好,但是在特定点(并且这取决于数据集),随着您添加更多的树,改进会降低。 为您的数据集找到最佳树数是一种调整随机森林算法参数的方法。

每种算法都有许多可调参数,并且每个参数都有大量潜在的选项。 幸运的是,有自动方法可以找到这些参数的最佳组合,这就是所谓的超参数优化。

6.验证

建立模型后,我们需要确定其执行给定任务的能力。 在我们的示例数据中,我们将要了解模型可以多么准确地预测房屋价格。 在机器学习中,建立最佳性能指标很重要,这将根据我们要解决的问题而有所不同。

通常,在开始机器学习项目时,我们将首先将要使用的数据集分为两部分。 我们一个用来训练模型,另一个用于测试阶段。

机器学习中的测试通常称为验证。 我们使用模型对保留的测试数据集进行预测,并测量所选的性能指标,以确定模型能够很好地执行给定任务。

本文概述了讨论机器学习时最常用的一些术语和概念。 如果您刚刚开始学习,它应该可以帮助您了解机器学习教程中使用的一些术语。 如果您想深入学习使用python创建您的第一个模型,可以在这里阅读我的教程"如何创建您的第一个机器学习模型"。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8424

    浏览量

    132766
收藏 人收藏

    评论

    相关推荐

    传统机器学习方法和应用指导

    在上一篇文章中,我们介绍了机器学习关键概念术语。在本文中,我们会介绍传统机器学习的基础知识和多
    的头像 发表于 12-30 09:16 250次阅读
    传统<b class='flag-5'>机器</b><b class='flag-5'>学习</b>方法和应用指导

    自然语言处理与机器学习的关系 自然语言处理的基本概念及步骤

    Learning,简称ML)是人工智能的一核心领域,它使计算机能够从数据中学习并做出预测或决策。自然语言处理与机器学习之间有着密切的关系,因为
    的头像 发表于 12-05 15:21 529次阅读

    NPU与机器学习算法的关系

    紧密。 NPU的起源与特点 NPU的概念最早由谷歌在其TPU(Tensor Processing Unit)项目中提出,旨在为TensorFlow框架提供专用的硬件加速。NPU的设计目标是提高机器学习算法的运行效率,特别是在处理
    的头像 发表于 11-15 09:19 511次阅读

    eda在机器学习中的应用

    值和噪声数据。通过绘制箱线图、直方图和散点图,我们可以直观地看到数据中的异常值和分布情况。例如,如果一数据集中的某个特征值远高于其他值,这可能是一异常值,需要进一步调查。 2. 特征选择 特征选择 是机器
    的头像 发表于 11-13 10:42 327次阅读

    具身智能与机器学习的关系

    具身智能(Embodied Intelligence)和机器学习(Machine Learning)是人工智能领域的两重要概念,它们之间存在着密切的关系。 1. 具身智能的定义 具身
    的头像 发表于 10-27 10:33 408次阅读

    【《时间序列与机器学习》阅读体验】+ 时间序列的信息提取

    本人有些机器学习的基础,理解起来一点也不轻松,加油。 作者首先说明了时间序列的信息提取是时间序列分析的一重要环节,目标是从给定的时间序列数据中提取出有用的信息和特征,以支持后续的分析和预测任务,可以
    发表于 08-14 18:00

    预训练和迁移学习的区别和联系

    预训练和迁移学习是深度学习机器学习领域中的两重要概念,它们在提高模型性能、减少训练时间和降低
    的头像 发表于 07-11 10:12 1109次阅读

    如何理解机器学习中的训练集、验证集和测试集

    理解机器学习中的训练集、验证集和测试集,是掌握机器学习核心概念和流程的重要一步。这三者不仅构成了模型学习
    的头像 发表于 07-10 15:45 4347次阅读

    机器学习中的数据预处理与特征工程

    机器学习的整个流程中,数据预处理与特征工程是两至关重要的步骤。它们直接决定了模型的输入质量,进而影响模型的训练效果和泛化能力。本文将从数据预处理和特征工程的基本概念出发,详细探讨这
    的头像 发表于 07-09 15:57 486次阅读

    迁移学习的基本概念和实现方法

    迁移学习(Transfer Learning)是机器学习领域中的一重要概念,其核心思想是利用在一
    的头像 发表于 07-04 17:30 1780次阅读

    人工神经网络与传统机器学习模型的区别

    在人工智能领域,机器学习和神经网络是两核心概念,它们各自拥有独特的特性和应用场景。虽然它们都旨在使计算机系统能够自动从数据中学习和提升,但
    的头像 发表于 07-04 14:08 1395次阅读

    人工智能、机器学习和深度学习是什么

    在科技日新月异的今天,人工智能(Artificial Intelligence, AI)、机器学习(Machine Learning, ML)和深度学习(Deep Learning, DL)已成为
    的头像 发表于 07-03 18:22 1330次阅读

    机器学习在数据分析中的应用

    随着大数据时代的到来,数据量的爆炸性增长对数据分析提出了更高的要求。机器学习作为一种强大的工具,通过训练模型从数据中学习规律,为企业和组织提供了更高效、更准确的数据分析能力。本文将深入探讨机器
    的头像 发表于 07-02 11:22 656次阅读

    机器学习入门:基本概念介绍

    机器学习(GraphMachineLearning,简称GraphML)是机器学习的一分支,专注于利用图形结构的数据。在图形结构中,数据
    的头像 发表于 05-16 08:27 521次阅读
    图<b class='flag-5'>机器</b><b class='flag-5'>学习</b>入门:基本<b class='flag-5'>概念</b>介绍

    机器学习怎么进入人工智能

    ,人工智能已成为一热门领域,涉及到多个行业和领域,例如语音识别、机器翻译、图像识别等。 在编程中进行人工智能的关键是使用机器学习算法,这是
    的头像 发表于 04-04 08:41 345次阅读