0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

重点介绍数据科学领域需要知道的五大关键概念

如意 来源:读芯术微信公众号 作者:读芯术微信公众号 2020-09-30 15:44 次阅读

本文将重点介绍一些数据科学领域的关键概念,掌握它们对于你今后的职业生涯大有益处。这些概念或许你已经了解,或许你还未掌握。不论你现在是否清楚,笔者的目的是向你专业地解释为何它们至关重要。

多重共线性、独热编码、欠采样和过采样、误差度量以及叙事能力,这是笔者在想到专业数据科学家日常工作时首先想到的关键概念。叙事能力或许算是技能和概念的结合,但笔者在此还是想强调它在数据科学家工作中的重要性。我们开始吧!

多重共线性

多重共线性虽然看起来又长又拗口,拆开来看还是易于理解的。“多重”指数量多,“共线性”则意味着线性相关。多重共线性可以描述为在回归模型中,两个或多个解释变量解释相似信息或高度相关。这一概念之所以引起关注,有以下几个原因。

对于某些建模技术来说,多重共线性可能导致过拟合,最终降低模型性能。冗余数据时有出现,模型中的所有特征或属性并非都是有必要的。因此,可以采用某些方法来找到应该被删除的特征,正是它们导致了多重共线性。

方差膨胀系数(VIF)

相关矩阵

数据科学家们经常使用这两种技术,尤其是相关矩阵和相关图——通常用某种热图进行可视化,而VIF则不太为人所知。VIF值越高,该特征对回归模型的用处就越小。

独热编码

独热编码是模型中的一种特征转换形式,你可以通过编码来数值化地体现类别特征。尽管类别特征本身有文本值,但是独热编码会将这些信息转置,以便每个值都成为特征,行中的观察值记为0或1。例如,假设我们有分类变量gender,独热编码后的数字表示如下(之前表示为gender,之后表示为male/female):

重点介绍数据科学领域需要知道的五大关键概念

独热编码处理前后对比

如果你不仅要使用数字化的特征,还需要使用文本/类别特征创建数字表示,那么此转换非常有用。

采样

当你拥有的数据不足时,可以使用过采样作为一种补偿。假设在处理一个分类问题时,有一个如下例所示的少数类:

如你所见,class_1的类只有少量数据,这意味着你的数据集是不平衡的,也就是所谓的少数类。

有几种过采样方法。其中一种叫做SMOTE,即合成少数类过采样技术(Synthetic Minority Over-samplingTechnique)。SMOTE的实现方式之一是采用K近邻(K-neighbor)算法来找到最近的点以合成样本。也有类似的技术反其道而行之,进行欠采样。

当类或回归数据中有离群值时,如果你希望确保模型运行在最能体现数据集的采样结果之上,那么这些技术便能派上用场。

误差度量

在数据科学中,有很多用于分类模型和回归模型的误差度量。以下是一些可以专门用于回归模型的方法:

重点介绍数据科学领域需要知道的五大关键概念

对回归模型来说,上述误差度量中最常用的两种是MSE(均方误差)和RMSE(均方根误差):

MSE:平均绝对误差回归损失(引自sklearn)

RMSE:均方根误差回归损失(引自sklearn)

对于分类模型来说,可以用精度和ROC曲线下的面积(AUC,Area Under the Curve)来评价模型的性能。

叙事能力

叙事概念的重要性怎么强调都不为过。它可以被定义成一种概念或技能,但定义本身并不重要。重要的是,如何在商业环境中展现出自己解决问题的能力。许多数据科学家总是只关注模型的精度,但却无法理解整个商业过程。该过程包括:

业务是什么?

问题是什么?

为何需要数据科学?

数据科学在其中的目标是什么?

何时能得到可用结果?

如何应用我们的结果?

我们的结果有什么影响?

如何分享我们的结果和整个过程?

上述问题与模型本身或提升精度无关,重点是如何使用数据来解决公司的问题。与利益相关者和非技术领域的同事相熟对此是大有助益的,在运行基础模型之前,你需要和产品经理一道评估问题,和数据工程师一起收集数据。在模型过程结束时,你将向关键人员介绍结果,这些人最喜欢看可视化结果,因此掌握呈现和交流的技能也是有益的。

对于数据科学家和机器学习工程师来说,有许多需要掌握的关键概念。本文介绍的5点,你了解了吗?
责编AJX

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    6795

    浏览量

    88730
  • 数字化
    +关注

    关注

    8

    文章

    8529

    浏览量

    61575
  • 数据科学
    +关注

    关注

    0

    文章

    164

    浏览量

    10038
收藏 人收藏

    评论

    相关推荐

    工业物联网实施应考虑的五大关键要素

    拥有成本,加快设备部署进度,还能为各种应用提供更稳定的端对端功能。:工业物联网(IIoT)实施的五大关键要素
    发表于 10-12 10:06

    智能穿戴产业的五大关键技术

    系统的设备,只要该系统是这个系统平台协议中的成员,就能够获取相应的数据与服务。以上五大关键技术,不仅是智能穿戴产业发展的关键技术,也是整个物联网时代的关键技术,不仅决定着智能穿戴产业的
    发表于 05-09 06:20

    苹果未来五大超级产品概念

    苹果未来五大超级产品概念
    发表于 02-02 10:04 1199次阅读

    五大关键词解读2010年半导体照明产业发展热点

    五大关键词解读2010年半导体照明产业发展热点      在2010年3月全国两会期间,LED照明成为代表们的热议焦点,中国发改委副主任解振华指出,2010年将加快节
    发表于 11-01 16:14 743次阅读

    施耐德电机智能城市五大关键领域解决方案

    施耐德电机智能城市的五大关键领域方案,将助力将台湾打造成具有智能能源管理,智能交通,智能公共服务管理,智能楼宇,水智能管理等。
    发表于 11-29 18:13 1286次阅读

    决定人工智能发展的风向标五大关键之问

    人工智能发展如何脱虚入实?人才与核心技术瓶颈如何取得突破?法律伦理责任如何界定?将会砸了谁的饭碗?背后的算法歧视如何解决?梳理过去一年人工智能发展,理性看待目前的阶段,这五大关键之问可能将是人工智能发展的风向标。
    的头像 发表于 01-11 09:19 3142次阅读

    微服务五大关键好处揭秘

    在过去40 年里,软件开发的世界日新月异,微服务日趋流行。本文为我们揭示了微服务的五大关键好处,看它们是如何帮助我们提升软件质量并适应新的业务需求。
    的头像 发表于 02-09 08:39 1.1w次阅读
    微服务<b class='flag-5'>五大关键</b>好处揭秘

    一文看懂LTE五大关键技术和日常维护

    本文首先介绍了LTE的概念及系统架构,其次介绍了LTE演进目标及五大关键技术,最后介绍了华为DBS3900产品及DBS3900日常维护。
    的头像 发表于 05-23 09:09 3.9w次阅读
    一文看懂LTE<b class='flag-5'>五大关键</b>技术和日常维护

    细谈智能穿戴的五大关键技术

    在物联网时代,智能穿戴承载着人与“机”之间的“沟通”,并扮演着物联网控制中心这样一个角色。正如计算机与智能手机产业在技术升级过程中,产品不断迭代更新一样,智能穿戴产品也进入了快速迭代的过程。在这个过程中,有五大关键技术将决定着智能穿戴产业发展的进程和方向。
    发表于 07-11 16:57 9909次阅读

    智能工厂的五大关键领域及特征

    智能工厂代表了高度互联和智能化的数字时代,工厂的智能化通过互联互通、数字化、大数据、智能装备与智能供应链五大关键领域得以体现。
    发表于 10-16 08:35 2621次阅读

    智能工厂五大关键领域及其特征体现

    智能工厂代表了高度互联和智能化的数字时代,工厂的智能化通过互联互通、数字化、大数据、智能装备与智能供应链五大关键领域得以体现。
    的头像 发表于 10-08 10:47 5177次阅读

    ADI在线研讨会:精密数模转换器的五大关键技术规格

    本研讨会视频介绍了精密数模转换器(DAC)的五大关键技术规格:分辨率与精度、总非调整误差、输出噪声、缓冲以及最终动态性能。本研讨会将带您深入了解DAC,及其技术规格会如何对系统级性能产生影响。
    的头像 发表于 06-20 06:19 3055次阅读
    ADI在线研讨会:精密数模转换器的<b class='flag-5'>五大关键</b>技术规格

    制造业创新中心政策体系形成,主要聚集在五大关键领域

    领域分布看,已建成的创新中心聚焦于基础材料、核心器件、关键工艺、重大装备以及软件等5个领域。国家制造业创新中心面向我国制造业创新发展的重大需求,充分汇聚行业创新力量,对五大关键
    的头像 发表于 06-16 15:49 3861次阅读
    制造业创新中心政策体系形成,主要聚集在<b class='flag-5'>五大关键</b><b class='flag-5'>领域</b>

    挑选高低温试验箱的五大关键因素:让你轻松选择最适合的设备

    挑选高低温试验箱的五大关键因素:让你轻松选择最适合的设备
    的头像 发表于 09-04 14:39 947次阅读
    挑选高低温试验箱的<b class='flag-5'>五大关键</b>因素:让你轻松选择最适合的设备

    成就更好5G的五大关键.zip

    成就更好5G的五大关键
    发表于 01-13 09:07 2次下载