5岁孩子都能理解的机器学习-电子发烧友网

尽可能简单地解释ML模型的工作方式

如果您是数据科学的新手，那么这个标题并不是要侮辱您。这是我的第二篇帖子，主题是一个受欢迎的面试问题，内容类似于："像我五岁那样向我解释[插入技术主题]。"

事实证明，达到5岁的理解水平相当困难。因此，尽管这篇文章可能对幼稚园学习者来说不是很清楚，但对于没有或几乎没有数据科学背景的人来说，它应该是清楚的（如果不是最后，请在评论中让我知道）。

我将首先解释什么是机器学习以及不同类型的机器学习，然后再介绍常见的模型。我不会进行任何数学运算，但是将来我会在另一篇文章中考虑这样做。请享用！

监督机器学习的定义

监督学习是一种机器学习，其中您放入模型中的数据被"标记"。标记只是简单地表示观测结果（也就是数据行）是已知的。例如，如果您的模型试图预测您的朋友是否会打高尔夫球，那么您可能会有诸如温度，星期几等变量。如果您的数据带有标签，那么您的变量也将包含如果您的朋友实际打高尔夫球，则值为1；否则，则为0。

无监督机器学习的定义

您可能已经猜到了，在涉及标签数据时，无监督学习与有监督学习相反。在无监督学习的情况下，您不知道朋友是否打高尔夫球，这取决于计算机通过模型找到模式来猜测发生的事情或预测发生的事情。

监督机器学习模型

[需要成人监督]

逻辑回归

遇到分类问题时，将使用逻辑回归。这意味着您的目标变量（也就是您要预测的变量）由类别组成。这些类别可以是"是/否"，也可以是代表客户满意度的介于1到10之间的数字。

逻辑回归模型使用方程式创建包含数据的曲线，然后使用该曲线预测新观测的结果。

5岁孩子都能理解的机器学习

> Illustration of Logistic Regression

在上图中，新观测值的预测值为0，因为它位于曲线的左侧。如果查看此曲线所基于的数据，这是有道理的，因为在图形的"预测值为0"区域中，大多数数据点的y值为0。

线性回归

线性回归通常是人们学习的最早的机器学习模型之一。这是因为仅使用一个x变量时，它的算法（即幕后方程式）相对容易理解-它只是画出一条最合适的线，这是在小学阶段教授的一种概念。然后，该最佳拟合线用于做出有关新数据点的预测（参见插图）。

5岁孩子都能理解的机器学习

> Illustration of Linear Regression

线性回归与逻辑回归相似，但是当目标变量是连续的时使用线性回归，这意味着它可以采用任何数值。实际上，任何具有连续目标变量的模型都可以归类为"回归"。连续变量的一个例子是房屋的售价。

线性回归也很容易解释。模型方程式包含每个变量的系数，并且这些系数指示目标变量针对自变量（x变量）中的每个小变化而变化了多少。以房价为例，这意味着您可以看一下回归方程，并说"哦，这告诉我，每增加1平方英尺的房屋大小（x变量），便要卖出价格（目标变量）增加25美元。"

K最近邻居（KNN）

该模型可用于分类或回归！名称" K最近的邻居"并不旨在造成混淆。该模型首先绘制出所有数据。标题的" K"部分是指模型为了确定预测值应使用的最邻近数据点的数量（请参见下图）。您作为未来的数据科学家，可以选择K，然后您可以使用这些值来查看哪个值提供最佳预测。

5岁孩子都能理解的机器学习

> Illustration of K Nearest Neighbors

K = __圈中的所有数据点都会对此新数据点的目标变量值进行"投票"。得票最多的那个值是KNN为新数据点预测的值。在上图中，最近的邻居中有2个是1类，而邻居中的1个是2类。因此，模型将为此数据点预测1类。如果模型试图预测数值而不是类别，则所有"投票"都是对数值进行平均以获得预测。

支持向量机（SVM）

支持向量机通过在数据点之间建立边界来工作，其中一类的大多数位于边界的一侧（在2D情况下也称为线），而另一类的大多数位于另一侧。

5岁孩子都能理解的机器学习

> Illustration of Support Vector Machines

它的工作方式是机器寻求找到最大边距的边界。边距定义为每个类的最近点与边界之间的距离（请参见插图）。然后绘制新的数据点，并根据它们落在边界的哪一侧将其分类。

我对此模型的解释是针对分类情况的，但是您也可以使用SVM进行回归！

决策树和随机森林

5岁孩子都能理解的机器学习

> Illustration of Machine Learning

机器学习是指将大量数据加载到计算机程序中并选择一种模型以"拟合"数据时，这将使计算机（无需您的帮助）可以得出预测。计算机制作模型的方式是通过算法进行的，算法的范围从简单的方程式（如直线方程式）到非常复杂的逻辑/数学系统，可以使计算机获得最佳预测。

无监督机器学习模型

[谨慎使用]

现在，我们正在尝试无监督的学习（又称"双关"）。提醒一下，这意味着我们的数据集未标记，因此我们不知道观察结果。

K均值聚类

当使用K表示聚类时，必须首先假设数据集中有K个聚类。由于您不知道数据中实际上有多少个组，因此必须尝试不同的K值，并使用可视化和度量标准来查看哪个K值有意义。 K表示最适合圆形和相似大小的簇。

K Means算法首先选择最佳的K个数据点，以形成K个聚类中每个聚类的中心。然后，它对每个点重复以下两个步骤：

· 将数据点分配到最近的集群中心

· 通过获取此集群中所有数据点的平均值来创建一个新中心

5岁孩子都能理解的机器学习

> Illustration of K Means Clustering

DBSCAN集群

DBSCAN集群模型与K的不同之处在于，它不需要您输入K的值，并且它还可以找到任何形状的集群（请参见下图）。您无需输入簇的数量，而是输入簇中所需的最小数据点数以及搜索簇的数据点周围的半径。 DBSCAN将为您找到集群！然后，您可以更改用于制作模型的值，直到获得对数据集有意义的聚类为止。

5岁孩子都能理解的机器学习

此外，DBSCAN模型会为您分类"噪声"点（即，远离所有其他观测值的点）。当数据点非常靠近时，此模型比K表示的效果更好。

神经网络

在我看来，神经网络是最酷，最神秘的模型。它们之所以称为神经网络，是因为它们是按照我们大脑中神经元的工作方式建模的。这些模型用于在数据集中查找模式。有时他们发现人类可能永远无法识别的模式。

神经网络可以很好地处理图像和音频等复杂数据。它们是当今我们一直看到的许多软件功能的背后，从面部识别（不再令人毛骨悚然，Facebook）到文本分类。

对于本文而言，即使只是触及神经网络的运行方式，也可能过于复杂。如果您想了解更多信息，请参阅"初学者"指南：https：//pathmind.com/wiki/neural-network。

结论

希望本文不仅增加了您对这些模型的理解，还使您意识到它们是多么的酷和有用！当我们让计算机进行工作/学习时，我们可以坐下来看看它能找到什么模式。有时可能会造成混淆，因为即使专家也无法理解计算机得出其结论的确切逻辑，但是在某些情况下，我们关心的只是它擅长预测！

但是，有时候我们确实会关心计算机如何达到其预测，例如是否正在使用模型来确定哪些求职者将获得第一轮面试。有关此的更多信息，以下是TED的精彩演讲，您不必成为数据科学家即可理解或欣赏：

与往常一样，非常感谢您的阅读，如果发现有用，请分享这篇文章！ :)

所有图形都是我在www.canva.com上制作的（充满爱意）。如果您希望使用它们，请与我联系。

还要向Sean Davern，Scott Kroeger，Dotun Opasina和Bhanu Yerra表示感谢，以帮助他们通过我们的数据科学访谈实践课程更好地理解这些模型。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器学习

机器学习

+关注

关注
66

文章
8419

浏览量
132678

传统机器学习方法和应用指导

在上一篇文章中，我们介绍了机器学习的关键概念术语。在本文中，我们会介绍传统机器学习的基础知识和多种算法特征，供各位老师选择。 01 传统机器

发表于 12-30 09:16 •122次阅读

传统<b class='flag-5'>机器</b><b class='flag-5'>学习</b>方法和应用指导

如何选择云原生机器学习平台

当今，云原生机器学习平台因其弹性扩展、高效部署、低成本运营等优势，逐渐成为企业构建和部署机器学习应用的首选。然而，市场上的云原生机器

发表于 12-25 11:54 •108次阅读

ASR和机器学习的关系

自动语音识别（ASR）技术的发展一直是人工智能领域的一个重要分支，它使得机器能够理解和处理人类语言。随着机器学习（ML）技术的迅猛发展，ASR系统的性能和准确性得到了显著提升。 ASR

发表于 11-18 15:16 •332次阅读

什么是机器学习？通过机器学习方法能解决哪些问题？

来源：Master编程树“机器学习”最初的研究动机是让计算机系统具有人的学习能力以便实现人工智能。因为没有学习能力的系统很难被认为是具有智能的。目前被广泛采用的

发表于 11-16 01:07 •414次阅读

什么是<b class='flag-5'>机器</b><b class='flag-5'>学习</b>？通过<b class='flag-5'>机器</b><b class='flag-5'>学习</b>方法能解决哪些问题？

NPU与机器学习算法的关系

在人工智能领域，机器学习算法是实现智能系统的核心。随着数据量的激增和算法复杂度的提升，对计算资源的需求也在不断增长。NPU作为一种专门为深度学习等机器

发表于 11-15 09:19 •468次阅读

eda在机器学习中的应用

在机器学习项目中，数据预处理和理解是成功构建模型的关键。探索性数据分析（EDA）是这一过程中不可或缺的一部分。 1. 数据清洗数据清洗是机器学习

发表于 11-13 10:42 •310次阅读

如何帮助孩子高效学习Python:开源硬件实践是最优选择

显著提升孩子的学习兴趣和对Python原理的理解。本文将探讨为何使用Raspberry Pi（树莓派）或Unihiker（行空板）等开源硬件是孩子们掌握Python的最佳途径。让

发表于 09-06 09:49 •326次阅读

【《时间序列与机器学习》阅读体验】+ 时间序列的信息提取

本人有些机器学习的基础，理解起来一点也不轻松，加油。作者首先说明了时间序列的信息提取是时间序列分析的一个重要环节，目标是从给定的时间序列数据中提取出有用的信息和特征，以支持后续的分析和预测任务，可以

发表于 08-14 18:00

【「时间序列与机器学习」阅读体验】+ 简单建议

这本书以其系统性的框架和深入浅出的讲解，为读者绘制了一幅时间序列分析与机器学习融合应用的宏伟蓝图。作者不仅扎实地构建了时间序列分析的基础知识，更巧妙地展示了机器学习如何在这一领域发挥巨

发表于 08-12 11:21

【《时间序列与机器学习》阅读体验】+ 了解时间序列

收到《时间序列与机器学习》一书，彩色印刷，公式代码清晰，非常精美。感谢作者，感谢电子发烧友提供了一个让我学习时间序列及应用的机会！前言第一段描述了编写背景：由此可知，这是一本关于时间序列进行大数

发表于 08-11 17:55

如何理解机器学习中的训练集、验证集和测试集

理解机器学习中的训练集、验证集和测试集，是掌握机器学习核心概念和流程的重要一步。这三者不仅构成了模型学习

发表于 07-10 15:45 •4060次阅读

深度学习与传统机器学习的对比

在人工智能的浪潮中，机器学习和深度学习无疑是两大核心驱动力。它们各自以其独特的方式推动着技术的进步，为众多领域带来了革命性的变化。然而，尽管它们都属于机器

发表于 07-01 11:40 •1401次阅读

大语言模型(LLM)快速理解

自2022年，ChatGPT发布之后，大语言模型（LargeLanguageModel），简称LLM掀起了一波狂潮。作为学习理解LLM的开始，先来整体理解一下大语言模型。一、发展历史大语言模型的发展

发表于 06-04 08:27 •989次阅读

深入探讨机器学习的可视化技术

机器学习可视化（简称ML可视化）一般是指通过图形或交互方式表示机器学习模型、数据及其关系的过程。目标是使理解模型的复杂算法和数据模式更容易，

发表于 04-25 11:17 •423次阅读

机器学习怎么进入人工智能

人工智能(Artificial Intelligence，AI)是一门涉及计算机、工程、数学、哲学和认知科学等多个领域的交叉学科，旨在构建智能化计算机系统，使之能够自主感知、理解、学习和决策。如今

发表于 04-04 08:41 •328次阅读

搜索历史

5岁孩子都能理解的机器学习

评论