0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

逻辑回归的对于数据学习的关键

lviY_AI_shequ 来源:刘林华 作者:电子发烧友 2018-12-29 15:55 次阅读

在几年之前,我踏进了数据科学的大门。之前还是软件工程师的时候,我是最先开始在网上自学的(在开始我的硕士学位之前)。我记得当我搜集网上资源的时候,我看见的只有玲琅满目的算法名称—线性回归,支持向量机(SVM),决策树(DT),随即森林(RF),神经网络等。对于刚刚开始学习的我来说,这些算法都是非常有难度的。但是,后来我才发现:要成为一名数据科学家,最重要的事情就是了解和学习整个的流程,比如,如何获取和处理数据,如何理解数据,如何搭建模型,如何评估结果(模型和数据处理阶段)和优化。为了达到这个目的,我认为从逻辑回归开始入门是非常不错的选择,这样不但可以让我们很快熟悉这个流程,而且不被那些高大上的算法所吓倒。

因此,下面将要列出5条原因来说明为什么最开始学习逻辑回归是入门最好的选择。当然,这只是我个人的看法,对于其他人可能有更快捷的学习方式。

1. 因为模型算法只是整个流程的一部分

像我之前提到的一样,数据科学工作不仅仅是建模,它还包括以下的步骤:

o4YBAFwnKYeAIpjzAAB5dS5UtLw815.png

可以看到,“建模” 只是这个重复过程的一部分而已。当开展一个数据产品的时候,一个非常好的实践就是首先建立你的整个流程,让它越简单越好,清楚地明白你想要获得什么,如何进行评估测试,以及你的baseline是什么。随后在这基础上,你就可以加入一些比较炫酷的机器学习算法,并知道你的效果是否变得更好。

顺便说下,逻辑回归(或者任何ML算法)可能不只是在建模部分所使用,它们也可能在数据理解和数据准备的阶段使用,填补缺失值就是一个例子。

2. 因为你将要更好地理解机器学习

我想当大家看到本篇的时候,第一个想要问的问题就是:为什么是逻辑回归,而不是线性回归。真相其实是都无所谓,理解了机器学习才是最终目的。说到这个问题,就要引出监督学习的两个类型了,分类(逻辑回归)和回归(线性回归)。当你使用逻辑回归或者线性回归建立你整个流程的时候(越简单越好),你会慢慢地熟悉机器学习里的一些概念,例如监督学习v.s非监督学习,分类v.s回归,线性v.s非线性等,以及更多问题。你也会知道如何准备你的数据,以及这过程中有什么挑战(比如填补缺失值和特征选择),如何度量评估模型,是该使用准确率,还是精准率和召回率,RUC AUC?又或者可能是 “均方差”和“皮尔逊相关”?所有的概念都都是数据科学学习过程中非常重要的知识点。等慢慢熟悉了这些概念以后,你就可以用更复杂的模型或者技巧(一旦你掌握了之后)来替代你之前的简单模型了。

3. 因为逻辑回归有的时候,已经足够用了

逻辑回归是一个非常强大的算法,甚至对于一些非常复杂的问题,它都可以做到游刃有余。拿MNIST举例,你可以使用逻辑回归获得95%的准确率,这个数字可能并不是一个非常出色的结果,但是它对于保证你的整个流程工作来说已经足够好了。实际上,如果说能够选择正确且有代表性的特征,逻辑回归完全可以做的非常好。

当处理非线性的问题时,我们有时候会用可解释的线性方式来处理原始数据。可以用一个简单的例子来说明这种思想:现在我们想要基于这种思想来做一个简单的分类任务。

X1x2|Y==================-201201-100100

如果我们将数据可视化,我们可以看到没有一条直线可以将它们分开。

在这种情况下,如果不对数据做一些处理的话,逻辑回归是无法帮到我们的,但是如果我们不用x2特征,而使用x1²来代替,那么数据将会变成这样:

X1x1^2|Y==================-241241-110110

现在,就存在一条直线可以将它们分开了。当然,这个简单的例子只是为了说明这种思想,对于现实世界来讲,很难发现或找到如何改变数据的方法以可以使用线性分类器来帮助你。但是,如果你可以在特征工程和特征选择上多花些时间,那么很可能你的逻辑回归是可以很好的胜任的。

4. 因为逻辑回归是统计中的一个重要工具

线性回归不仅仅可以用来预测。如果你有了一个训练好的线性模型,你可以通过它学习到因变量和自变量之间的关系,或者用更多的ML语言来说,你可以学习到特征变量和目标变量的关系。一个简单的例子,房价预测,我们有很多房屋特征,还有实际的房价。我们基于这些数据训练一个线性回归模型,然后得到了很好的结果。通过训练,我们可以发现模型训练后会给每个特征分配相应的权重。如果某个特征权重很高,我们就可以说这个特征比其它的特征更重要。比如房屋大小特征,对于房价的变化会有50%的权重,因为房屋大小每增加一平米房价就会增加10k。线性回归是一个了解数据以及统计规律的非常强的工具,同理,逻辑回归也可以给每个特征分配各自的权重,通过这个权重,我们就可以了解特征的重要性。

5. 因为逻辑回归是学习神经元网络很好的开始

当学习神经元网络的时候,最开始学习的逻辑回归对我帮助很大。你可以将网络中的每个神经元当作一个逻辑回归:它有输入,有权重,和阈值,并可以通过点乘,然后再应用某个非线性的函数得到输出。更多的是,一个神经元网络的最后一层大多数情况下是一个简单的线性模型,看一下最基本的神经元网络:

如果我们更深入地观察一下output层,可以看到这是一个简单的线性(或者逻辑)回归,有hidden layer 2作为输入,有相应的权重,我们可以做一个点乘然后加上一个非线性函数(根据任务而定)。可以说,对于神经元网络,一个非常好的思考方式是:将NN划分为两部分,一个是代表部分,一个是分类/回归部分。

第一部分(左侧)尝试从数据中学习并具有很好的代表性,然后它会帮助第二个部分(右侧)来完成一个线性的分类或者回归任务。

总结

成为一个数据科学家你可能需要掌握很多知识,第一眼看上去,好像学习算法才是最重要的部分。实际的情况是:学习算法确实是所有情况中最复杂的部分,需要花费大量的时间和努力来理解,但它也只是数据科学中的一个部分,把握整体更为关键。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4608

    浏览量

    92854
  • 人工智能
    +关注

    关注

    1791

    文章

    47229

    浏览量

    238343

原文标题:5个原因告诉你:为什么在成为数据科学家之前,“逻辑回归”是第一个需要学习的

文章出处:【微信号:AI_shequ,微信公众号:人工智能爱好者社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    机器学习实战之logistic回归

    logistic回归是一种广义的线性回归,通过构造回归函数,利用机器学习来实现分类或者预测。 原理 上一文简单介绍了线性回归,与
    的头像 发表于 09-29 15:17 2343次阅读
    机器<b class='flag-5'>学习</b>实战之logistic<b class='flag-5'>回归</b>

    回归预测之入门

    式子吧,不然看一些相关的论文可就看不懂了,这个系列主要将会着重于去机器学习的数学描述这个部分,将会覆盖但不一定局限于回归、聚类、分类等算法。回归与梯度下降:回归在数学上来说是给定一个点
    发表于 10-15 10:19

    浅析逻辑回归

    ML-逻辑回归-公式推导- 多种实现
    发表于 04-25 15:35

    回归算法之逻辑回归的介绍

    回归算法之逻辑回归
    发表于 05-21 16:25

    回归算法有哪些,常用回归算法(3种)详解

    随机梯度下降来估计系数。损失函数通常被定义为交叉熵项: 逻辑回归用于分类问题,例如,对于给定的医疗数据,可以使用逻辑
    发表于 07-28 14:36

    TensorFlow逻辑回归处理MNIST数据

    /get_started/mnist/beginners提供。大部分人已经对 MNIST 数据集很熟悉了,它是机器学习的基础,包含手写数字的图像及其标签来说明它是哪个数字。对于逻辑
    发表于 08-11 19:36

    TensorFlow逻辑回归处理MNIST数据

    /get_started/mnist/beginners提供。大部分人已经对 MNIST 数据集很熟悉了,它是机器学习的基础,包含手写数字的图像及其标签来说明它是哪个数字。对于逻辑
    发表于 08-11 19:36

    Edge Impulse的回归模型

    Edge Impulse的回归模型可以从数据学习模式,并将其应用于新数据。 非常适合预测数字连续值。
    发表于 12-20 06:21

    使用KNN进行分类和回归

    的模型,可以用于回归和分类任务。大部分的机器学习算法都是用它的名字来描述的KNN也是一样,使用一个空间来表示邻居的度量,度量空间根据集合成员的特征定义它们之间的距离。对于每个测试实例,使用邻域来估计响应
    发表于 10-28 14:44

    Python机器学习回归部分的应用与教程

    install quandl 首先,对于我们将其用于机器学习而言,什么是回归呢?它的目标是接受连续数据,寻找最适合数据的方程,并能够对特定
    发表于 11-15 18:14 4839次阅读
    Python机器<b class='flag-5'>学习</b><b class='flag-5'>回归</b>部分的应用与教程

    对于机器学习/数据科学初学者 应该掌握的七种回归分析方法

    对于机器学习/数据科学的初学者来说,线性回归,或者Logistic回归是许多人在建立预测模型时接触的第一/第二种方法。由于这两种算法适用性极
    的头像 发表于 04-27 15:55 4334次阅读

    DNN与逻辑回归效果一样?

    谷歌用深度学习分析电子病例的重磅论文给出了一个意外的实验结果,DNN与逻辑回归效果一样,引发了热烈讨论。
    的头像 发表于 06-28 16:01 6215次阅读
    DNN与<b class='flag-5'>逻辑</b><b class='flag-5'>回归</b>效果一样?

    机器学习回归分析和回归方法

    根据受欢迎程度,线性回归逻辑回归经常是我们做预测模型时,且第一个学习的算法。但是如果认为回归就两个算法,就大错特错了。事实上我们有许多类型
    的头像 发表于 01-19 17:22 3882次阅读

    机器学习:线性回归逻辑回归的理论与实战

    1、基本概念 要进行机器学习,首先要有数据。从数据中学得模型的过程称为“学习”或“训练”。其对应的过程中有几个基本术语需要知道。 (1)训练集:模型训练过程中使用的
    的头像 发表于 12-26 09:58 2014次阅读
    机器<b class='flag-5'>学习</b>:线性<b class='flag-5'>回归</b>与<b class='flag-5'>逻辑</b><b class='flag-5'>回归</b>的理论与实战

    Python 梯度计算模块如何实现一个逻辑回归模型

    的标准数据库下编写的损失函数,它就可以自动计算损失函数的导数(梯度)。 我们将从普通斜率计算开始,介绍到如何只使用它来实现一个逻辑回归模型。 1.准备 开始之前,你要确保Python和pip已经成功安装在电脑上,如果没有,可以访
    的头像 发表于 10-21 11:01 497次阅读
    Python 梯度计算模块如何实现一个<b class='flag-5'>逻辑</b><b class='flag-5'>回归</b>模型