机器学习算法的介绍-电子发烧友网

哲学要回答的基本问题是从哪里来、我是谁、到哪里去，寻找答案的过程或许可以借鉴机器学习的套路：组织数据->挖掘知识->预测未来。组织数据即为设计特征，生成满足特定格式要求的样本，挖掘知识即建模，而预测未来就是对模型的应用。

特征设计依赖于对业务场景的理解，可分为连续特征、离散特征和组合高阶特征。本篇重点是机器学习算法的介绍，可以分为监督学习和无监督学习两大类。

无监督学习算法很多，最近几年业界比较关注主题模型，LSA->PLSA->LDA为主题模型三个发展阶段的典型算法，它们主要是建模假设条件上存在差异。LSA假设文档只有一个主题，PLSA假设各个主题的概率分布不变（theta都是固定的），LDA假设每个文档和词的主题概率是可变的。

LDA算法本质可以借助上帝掷骰子帮助理解，详细内容可参加Rickjin写的《LDA数据八卦》文章，浅显易懂，顺便也科普了很多数学知识，非常推荐。

监督学习可分为分类和回归，感知器是最简单的线性分类器，现在实际应用比较少，但它是神经网络、深度学习的基本单元。

线性函数拟合数据并基于阈值分类时，很容易受噪声样本的干扰，影响分类的准确性。逻辑回归（Logistic Regression）利用sigmoid函数将模型输出约束在0到1之间，能够有效弱化噪声数据的负面影响，被广泛应用于互联网广告点击率预估。

逻辑回归模型参数可以通过最大似然求解，首先定义目标函数L(theta)，然后log处理将目标函数的乘法逻辑转化为求和逻辑（最大化似然概率 -> 最小化损失函数），最后采用梯度下降求解。

相比于线性分类去，决策树等非线性分类器具有更强的分类能力，ID3和C4.5是典型的决策树算法，建模流程基本相似，两者主要在增益函数（目标函数）的定义不同。

线性回归和线性分类在表达形式上是类似的，本质区别是分类的目标函数是离散值，而回归的目标函数是连续值。目标函数的不同导致回归通常基于最小二乘定义目标函数，当然，在观测误差满足高斯分布的假设情况下，最小二乘和最大似然可以等价。

当梯度下降求解模型参数时，可以采用Batch模式或者Stochastic模式，通常而言，Batch模式准确性更高，Stochastic模式复杂度更低。

上文已经提到，感知器虽然是最简单的线性分类器，但是可以视为深度学习的基本单元，模型参数可以由自动编码（Auto Encoder）等方法求解。

深度学习的优势之一可以理解为特征抽象，从底层特征学习获得高阶特征，描述更为复杂的信息结构。例如，从像素层特征学习抽象出描述纹理结构的边缘轮廓特征，更进一步学习获得表征物体局部的更高阶特征。俗话说三个臭皮匠赛过诸葛亮，无论是线性分类还是深度学习，都是单个模型算法单打独斗，有没有一种集百家之长的方法，将模型处理数据的精度更进一步提升呢？当然，Model Ensembel就是解决这个问题。Bagging为方法之一，对于给定数据处理任务，采用不同模型/参数/特征训练多组模型参数，最后采用投票或者加权平均的方式输出最终结果。 Boosting为Model Ensemble的另外一种方法，其思想为模型每次迭代时通过调整错误样本的损失权重提升对数据样本整体的处理精度，典型算法包括AdaBoost、GBDT等。

不同的数据任务场景，可以选择不同的Model Ensemble方法，对于深度学习，可以对隐层节点采用DropOut的方法实现类似的效果。

介绍了这么多机器学习基础算法，说一说评价模型优劣的基本准则。欠拟合和过拟合是经常出现的两种情况，简单的判定方法是比较训练误差和测试误差的关系，当欠拟合时，可以设计更多特征来提升模型训练精度，当过拟合时，可以优化特征量降低模型复杂度来提升模型测试精度。

特征量是模型复杂度的直观反映，模型训练之前设定输入的特征量是一种方法，另外一种比较常用的方法是在模型训练过程中，将特征参数的正则约束项引入目标函数/损失函数，基于训练过程筛选优质特征。

模型调优是一个细致活，最终还是需要能够对实际场景给出可靠的预测结果，解决实际问题。期待学以致用！

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

算法

算法

+关注

关注
23

文章
4615

浏览量
93000
机器学习

机器学习

+关注

关注
66

文章
8422

浏览量
132742

原文标题：零基础入门机器学习算法（附图）

文章出处：【微信号：vision263com，微信公众号：新机器视觉】欢迎添加关注！文章转载请注明出处。

华为云 Flexus X 实例部署安装 Jupyter Notebook，学习 AI，机器学习算法

前言由于本人最近在学习一些机器算法，AI 算法的知识，需要搭建一个学习环境，所以就在最近购买的华为云 Flexus X 实例上安装了

发表于 01-02 13:43 •77次阅读

华为云 Flexus X 实例部署安装 Jupyter Notebook，<b class='flag-5'>学习</b> AI，<b class='flag-5'>机器</b><b class='flag-5'>学习</b><b class='flag-5'>算法</b>

传统机器学习方法和应用指导

在上一篇文章中，我们介绍了机器学习的关键概念术语。在本文中，我们会介绍传统机器学习的基础知识和多

发表于 12-30 09:16 •218次阅读

传统<b class='flag-5'>机器</b><b class='flag-5'>学习</b>方法和应用指导

NPU与机器学习算法的关系

在人工智能领域，机器学习算法是实现智能系统的核心。随着数据量的激增和算法复杂度的提升，对计算资源的需求也在不断增长。NPU作为一种专门为深度学习

发表于 11-15 09:19 •496次阅读

人工智能、机器学习和深度学习存在什么区别

人工智能指的是在某种程度上显示出类似人类智能的设备。AI有很多技术，但其中一个很大的子集是机器学习——让算法从数据中学习。

发表于 10-24 17:22 •2502次阅读

LIBS结合机器学习算法的江西名优春茶采收期鉴别

以庐山云雾茶和狗牯脑茶的明前茶、雨前茶为对象，研究激光诱导击穿光谱结合机器学习的茶叶鉴别方法。将茶叶茶，水数据融合可有效鉴别春茶采收期，且数据融合后表现出更好的稳定性和鲁棒性，LIBS结合机器

发表于 10-22 18:05 •264次阅读

【「时间序列与机器学习」阅读体验】全书概览与时间序列概述

如何通过根因分析技术获得导致故障的维度和元素，包括基于时间序列异常检测算法的根因分析、基于熵的根因分析、基于树模型的根因分析、规则学习等。 ●第7章“智能运维的应用场景”:介绍智能运维领域的应用，包括

发表于 08-07 23:03

机器学习算法原理详解

机器学习作为人工智能的一个重要分支，其目标是通过让计算机自动从数据中学习并改进其性能，而无需进行明确的编程。本文将深入解读几种常见的机器学习

发表于 07-02 11:25 •1113次阅读

机器学习在数据分析中的应用

随着大数据时代的到来，数据量的爆炸性增长对数据分析提出了更高的要求。机器学习作为一种强大的工具，通过训练模型从数据中学习规律，为企业和组织提供了更高效、更准确的数据分析能力。本文将深入探讨机器

发表于 07-02 11:22 •648次阅读

深度学习与传统机器学习的对比

在人工智能的浪潮中，机器学习和深度学习无疑是两大核心驱动力。它们各自以其独特的方式推动着技术的进步，为众多领域带来了革命性的变化。然而，尽管它们都属于机器

发表于 07-01 11:40 •1420次阅读

机器学习的经典算法与应用

关于数据机器学习就是喂入算法和数据，让算法从数据中寻找一种相应的关系。Iris鸢尾花数据集是一个经典数据集，在统计学习和

发表于 06-27 08:27 •1675次阅读

名单公布！【书籍评测活动NO.35】如何用「时间序列与机器学习」解锁未来？

应用，将理论基础与实践案例相结合，作者凭借扎实的数学功底及其在企业界的丰富实践经验，将机器学习与时间序列分析巧妙融合在书中。全书书共分为8章，系统介绍时间序列的基础知识、常用预测方法、异常检测

发表于 06-25 15:00

图机器学习入门：基本概念介绍

图机器学习（GraphMachineLearning，简称GraphML）是机器学习的一个分支，专注于利用图形结构的数据。在图形结构中，数据以图的形式表示，其中的节点（或顶点）表示实体

发表于 05-16 08:27 •521次阅读

机器学习怎么进入人工智能

，人工智能已成为一个热门领域，涉及到多个行业和领域，例如语音识别、机器翻译、图像识别等。在编程中进行人工智能的关键是使用机器学习算法，这是一类基于样本数据和模型训练来进行预测和判断的

发表于 04-04 08:41 •340次阅读

机器学习8大调参技巧

今天给大家一篇关于机器学习调参技巧的文章。超参数调优是机器学习例程中的基本步骤之一。该方法也称为超参数优化，需要搜索超参数的最佳配置以实现最佳性能。

发表于 03-23 08:26 •637次阅读

AI算法的本质是模拟人类智能，让机器实现智能化

电子发烧友网报道（文/李弯弯）AI算法是人工智能领域中使用的算法，用于模拟、延伸和扩展人的智能。这些算法可以通过机器学习、深度

发表于 02-07 00:07 •5824次阅读

搜索历史

机器学习算法的介绍

评论

华为云 Flexus X 实例部署安装 Jupyter Notebook，学习 AI，机器学习算法

传统机器学习方法和应用指导

NPU与机器学习算法的关系

人工智能、机器学习和深度学习存在什么区别

LIBS结合机器学习算法的江西名优春茶采收期鉴别

【「时间序列与机器学习」阅读体验】全书概览与时间序列概述

机器学习算法原理详解

机器学习在数据分析中的应用

深度学习与传统机器学习的对比

机器学习的经典算法与应用

名单公布！【书籍评测活动NO.35】如何用「时间序列与机器学习」解锁未来？

图机器学习入门：基本概念介绍

机器学习怎么进入人工智能

机器学习8大调参技巧

AI算法的本质是模拟人类智能，让机器实现智能化