几种常见的用于回归问题的机器学习算法-电子发烧友网

当我们要解决任意一种机器学习问题时，都需要选择合适的算法。在机器学习中存在一种“没有免费的午餐”定律，即没有一款机器学习模型可以解决所有问题。不同的机器学习算法表现取决于数据的大小和结构。所以，除非用传统的试错法实验，否则我们没有明确的方法证明某种选择是对的。

但是，每种机器学习算法都有各自的有缺点，这也能让我们在选择时有所参考。虽然一种算法不能通用，但每个算法都有一些特征，能让人快速选择并调整参数。接下来，我们大致浏览几种常见的用于回归问题的机器学习算法，并根据它们的优点和缺点总结出在什么情况下可以使用。

线性和多项式回归

首先是简单的情况，单一变量的线性回归是用于表示单一输入自变量和因变量之间的关系的模型。多变量线性回归更常见，其中模型是表示多个输入自变量和输出因变量之间的关系。模型保持线性是因为输出是输入变量的线性结合。

第三种行间情况称为多项式回归，这里的模型是特征向量的非线性结合，即向量是指数变量，sin、cos等等。这种情况需要考虑数据和输出之间的关系，回归模型可以用随机梯度下降训练。

优点：

建模速度快，在模型结构不复杂并且数据较少的情况下很有用。

线性回归易于理解，在商业决策时很有价值。

缺点：

对非线性数据来说，多项式回归在设计时有难度，因为在这种情况下必须了解数据结构和特征变量之间的关系。

综上，遇到复杂数据时，这些模型的表现就不理想了。

神经网络

神经网络包含了许多互相连接的节点，称为神经元。输入的特征变量经过这些神经元后变成多变量的线性组合，与各个特征变量相乘的值称为权重。之后在这一线性结合上应用非线性，使得神经网络可以对复杂的非线性关系建模。神经网络可以有多个图层，一层的输出会传递到下一层。在输出时，通常不会应用非线性。神经网络用随机梯度下降和反向传播算法训练。

优点：

由于神经网络有很多层（所以就有很多参数），同时是非线性的，它们能高效地对复杂的非线性关系进行建模。

通常我们不用担心神经网络中的数据，它们在学习任何特征向量关系时都很灵活。

研究表明，单单增加神经网络的训练数据，不论是新数据还是对原始数据进行增强，都会提高网络性能。

缺点：

由于模型的复杂性，它们不容易被理解。

训练时可能有难度，同时需要大量计算力、仔细地调参并且设置好学习速率。

它们需要大量数据才能达到较高的性能，与其他机器学习相比，在小数据集上通常表现更优。

回归树和随机森林

首先从基本情况开始，决策树是一种直观的模型，决策者需要在每个节点进行选择，从而穿过整个“树”。树形归纳是将一组训练样本作为输入，决定哪些从哪些属性分割数据，不断重复这一过程，知道所有训练样本都被归类。在构建树时，我们的目标是用数据分割创建最纯粹的子节点。纯粹性是通过信息增益的概念来衡量的。在实际中，这是通过比较熵或区分当前数据集中的单一样本和所需信息量与当前数据需要进一步区分所需要的信息量。

随机森林是决策树的简单集成，即是输入向量经过多个决策树的过程。对于回归，所有树的输出值是平均的；对于分类，最终要用投票策略决定。

优点：

对复杂、高度非线性的关系非常实用。它们通常能达到非常高的表现性能，比多项式回归更好。

易于使用理解。虽然最后的训练模型会学会很多复杂的关系，但是训练过程中的决策边界易于理解。

缺点：

由于训练决策树的本质，它们更易于过度拟合。一个完整的决策树模型会非常复杂，并包含很多不必要的结构。虽然有时通过“修剪”和与更大的随机森林结合可以减轻这一状况。

利用更大的随机森林，可以达到更好地效果，但同时会拖慢速度，需要更多内存。

这就是三种算法的优缺点总结。希望你觉得有用！

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4787

浏览量
101453
机器学习

机器学习

+关注

关注
66

文章
8458

浏览量
133320

原文标题：如何为你的回归问题选择最合适的机器学习算法？

文章出处：【微信号：jqr_AI，微信公众号：论智】欢迎添加关注！文章转载请注明出处。

机器学习模型市场前景如何

当今，随着算法的不断优化、数据量的爆炸式增长以及计算能力的飞速提升，机器学习模型的市场前景愈发广阔。下面，AI部落小编将探讨机器学习模型市场

发表于 02-13 09:39 •86次阅读

常见xgboost错误及解决方案

XGBoost（eXtreme Gradient Boosting）是一种流行的机器学习算法，用于解决分类和回归问题。尽管它非常强大和灵活，

发表于 01-19 11:22 •833次阅读

华为云 Flexus X 实例部署安装 Jupyter Notebook，学习 AI，机器学习算法

前言由于本人最近在学习一些机器算法，AI 算法的知识，需要搭建一个学习环境，所以就在最近购买的华为云 Flexus X 实例上安装了

发表于 01-02 13:43 •207次阅读

华为云 Flexus X 实例部署安装 Jupyter Notebook，<b class='flag-5'>学习</b> AI，<b class='flag-5'>机器</b><b class='flag-5'>学习</b><b class='flag-5'>算法</b>

传统机器学习方法和应用指导

在上一篇文章中，我们介绍了机器学习的关键概念术语。在本文中，我们会介绍传统机器学习的基础知识和多种算法特征，供各位老师选择。 01 传统

发表于 12-30 09:16 •484次阅读

传统<b class='flag-5'>机器</b><b class='flag-5'>学习</b>方法和应用指导

NPU与机器学习算法的关系

在人工智能领域，机器学习算法是实现智能系统的核心。随着数据量的激增和算法复杂度的提升，对计算资源的需求也在不断增长。NPU作为一种专门为深度学习

发表于 11-15 09:19 •715次阅读

人工智能、机器学习和深度学习存在什么区别

人工智能指的是在某种程度上显示出类似人类智能的设备。AI有很多技术，但其中一个很大的子集是机器学习——让算法从数据中学习。

发表于 10-24 17:22 •2583次阅读

【「时间序列与机器学习」阅读体验】全书概览与时间序列概述

本帖最后由 1653149838.791300 于 2024-8-12 20:18 编辑 [/td] [td]收到《时间序列与机器学习》这本书，很是欣喜，书籍内容很详实也是自己很感兴趣

发表于 08-07 23:03

机器学习算法原理详解

机器学习作为人工智能的一个重要分支，其目标是通过让计算机自动从数据中学习并改进其性能，而无需进行明确的编程。本文将深入解读几种常见的

发表于 07-02 11:25 •1508次阅读

机器学习的经典算法与应用

关于数据机器学习就是喂入算法和数据，让算法从数据中寻找一种相应的关系。Iris鸢尾花数据集是一个经典数据集，在统计学习和

发表于 06-27 08:27 •1764次阅读

名单公布！【书籍评测活动NO.35】如何用「时间序列与机器学习」解锁未来？

捕捉复杂非线性模式的场景中显得力不从心。将时间序列的分析与预测用于大规模的数据生产一直存在诸多困难。在这种背景下，结合机器学习，特别是深度学习技术的时间序列分析方法，成了研究和应用

发表于 06-25 15:00

机器学习六大核心算法深度解析

算法历程：线性回归是一种古老的统计方法，它试图找到最佳拟合数据的直线或超平面，最早可以追溯到19世纪初的高斯最小二乘法理论。

发表于 04-23 16:25 •2076次阅读

机器学习怎么进入人工智能

，人工智能已成为一个热门领域，涉及到多个行业和领域，例如语音识别、机器翻译、图像识别等。在编程中进行人工智能的关键是使用机器学习算法，这是一类基于样本数据和模型训练来进行预测和判断的

发表于 04-04 08:41 •443次阅读

机器学习8大调参技巧

今天给大家一篇关于机器学习调参技巧的文章。超参数调优是机器学习例程中的基本步骤之一。该方法也称为超参数优化，需要搜索超参数的最佳配置以实现最佳性能。

发表于 03-23 08:26 •777次阅读

傅里叶变换基本原理及在机器学习应用

连续傅里叶变换（CFT）和离散傅里叶变换（DFT）是两个常见的变体。CFT用于连续信号，而DFT应用于离散信号，使其与数字数据和机器学习任务

发表于 03-20 11:15 •1127次阅读

深入探讨线性回归与柏松回归

或许我们所有人都会学习的第一个机器学习算法就是线性回归算法，它无疑是最基本且被广泛使用的技术之一

发表于 03-18 14:06 •787次阅读