搜索历史

清空

搜索热词

0

聊天消息
系统消息
评论与回复

查看更多

查看更多

查看更多

VIP于到期续费

登录后你可以

下载海量资料
学习在线课程
观看技术视频
写文章/发帖/加入社区

会员中心

创作中心

发布

创作活动

完善资料让更多小伙伴认识你，还能领取20积分哦，立即完善>

3天内不再提示

重点介绍数据科学领域需要知道的五大关键概念

本文将重点介绍一些数据科学领域的关键概念，掌握它们对于你今后的职业生涯大有益处。这些概念或许你已经了解，或许你还未掌握。不论你现在是否清楚，笔者的目的是向你专业地解释为何它们至关重要。

多重共线性、独热编码、欠采样和过采样、误差度量以及叙事能力，这是笔者在想到专业数据科学家日常工作时首先想到的关键概念。叙事能力或许算是技能和概念的结合，但笔者在此还是想强调它在数据科学家工作中的重要性。我们开始吧！

多重共线性

多重共线性虽然看起来又长又拗口，拆开来看还是易于理解的。“多重”指数量多，“共线性”则意味着线性相关。多重共线性可以描述为在回归模型中，两个或多个解释变量解释相似信息或高度相关。这一概念之所以引起关注，有以下几个原因。

对于某些建模技术来说，多重共线性可能导致过拟合，最终降低模型性能。冗余数据时有出现，模型中的所有特征或属性并非都是有必要的。因此，可以采用某些方法来找到应该被删除的特征，正是它们导致了多重共线性。

方差膨胀系数（VIF）

相关矩阵

数据科学家们经常使用这两种技术，尤其是相关矩阵和相关图——通常用某种热图进行可视化，而VIF则不太为人所知。VIF值越高，该特征对回归模型的用处就越小。

独热编码

独热编码是模型中的一种特征转换形式，你可以通过编码来数值化地体现类别特征。尽管类别特征本身有文本值，但是独热编码会将这些信息转置，以便每个值都成为特征，行中的观察值记为0或1。例如，假设我们有分类变量gender，独热编码后的数字表示如下（之前表示为gender，之后表示为male/female）：

重点介绍数据科学领域需要知道的五大关键概念

独热编码处理前后对比

如果你不仅要使用数字化的特征，还需要使用文本/类别特征创建数字表示，那么此转换非常有用。

采样

当你拥有的数据不足时，可以使用过采样作为一种补偿。假设在处理一个分类问题时，有一个如下例所示的少数类：

如你所见，class_1的类只有少量数据，这意味着你的数据集是不平衡的，也就是所谓的少数类。

有几种过采样方法。其中一种叫做SMOTE，即合成少数类过采样技术（Synthetic Minority Over-samplingTechnique）。SMOTE的实现方式之一是采用K近邻（K-neighbor）算法来找到最近的点以合成样本。也有类似的技术反其道而行之，进行欠采样。

当类或回归数据中有离群值时，如果你希望确保模型运行在最能体现数据集的采样结果之上，那么这些技术便能派上用场。

误差度量

在数据科学中，有很多用于分类模型和回归模型的误差度量。以下是一些可以专门用于回归模型的方法：

重点介绍数据科学领域需要知道的五大关键概念

对回归模型来说，上述误差度量中最常用的两种是MSE（均方误差）和RMSE（均方根误差）：

MSE：平均绝对误差回归损失（引自sklearn）

RMSE：均方根误差回归损失（引自sklearn）

对于分类模型来说，可以用精度和ROC曲线下的面积（AUC，Area Under the Curve）来评价模型的性能。

叙事能力

叙事概念的重要性怎么强调都不为过。它可以被定义成一种概念或技能，但定义本身并不重要。重要的是，如何在商业环境中展现出自己解决问题的能力。许多数据科学家总是只关注模型的精度，但却无法理解整个商业过程。该过程包括：

业务是什么？

问题是什么？

为何需要数据科学？

数据科学在其中的目标是什么？

何时能得到可用结果？

如何应用我们的结果？

我们的结果有什么影响？

如何分享我们的结果和整个过程？

上述问题与模型本身或提升精度无关，重点是如何使用数据来解决公司的问题。与利益相关者和非技术领域的同事相熟对此是大有助益的，在运行基础模型之前，你需要和产品经理一道评估问题，和数据工程师一起收集数据。在模型过程结束时，你将向关键人员介绍结果，这些人最喜欢看可视化结果，因此掌握呈现和交流的技能也是有益的。

对于数据科学家和机器学习工程师来说，有许多需要掌握的关键概念。本文介绍的5点，你了解了吗？
责编AJX

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据

数据

+关注

关注
8

文章
7221

浏览量
90118
数字化

数字化

+关注

关注
8

文章
8946

浏览量
62467
数据科学

数据科学

+关注

关注
0

文章
168

浏览量
10176

评论

相关推荐

工业物联网实施应考虑的五大关键要素

拥有成本，加快设备部署进度，还能为各种应用提供更稳定的端对端功能。：工业物联网（IIoT）实施的五大关键要素

发表于 10-12 10:06

智能穿戴产业的五大关键技术

系统的设备，只要该系统是这个系统平台协议中的成员，就能够获取相应的数据与服务。以上五大关键技术，不仅是智能穿戴产业发展的关键技术，也是整个物联网时代的关键技术，不仅决定着智能穿戴产业的

发表于 05-09 06:20

苹果未来五大超级产品概念

苹果未来五大超级产品概念

发表于 02-02 10:04 •1228次阅读

五大关键词解读2010年半导体照明产业发展热点

五大关键词解读2010年半导体照明产业发展热点　　在2010年3月全国两会期间，LED照明成为代表们的热议焦点，中国发改委副主任解振华指出，2010年将加快节

发表于 11-01 16:14 •790次阅读

施耐德电机智能城市五大关键领域解决方案

施耐德电机智能城市的五大关键领域方案，将助力将台湾打造成具有智能能源管理，智能交通，智能公共服务管理，智能楼宇，水智能管理等。

发表于 11-29 18:13 •1323次阅读

决定人工智能发展的风向标五大关键之问

人工智能发展如何脱虚入实?人才与核心技术瓶颈如何取得突破?法律伦理责任如何界定?将会砸了谁的饭碗?背后的算法歧视如何解决?梳理过去一年人工智能发展，理性看待目前的阶段，这五大关键之问可能将是人工智能发展的风向标。

的头像

发表于 01-11 09:19 •3224次阅读

微服务五大关键好处揭秘

在过去40 年里，软件开发的世界日新月异，微服务日趋流行。本文为我们揭示了微服务的五大关键好处，看它们是如何帮助我们提升软件质量并适应新的业务需求。

的头像

发表于 02-09 08:39 •1.2w次阅读

微服务<b class='flag-5'>五大关键</b>好处揭秘

一文看懂LTE五大关键技术和日常维护

本文首先介绍了LTE的概念及系统架构，其次介绍了LTE演进目标及五大关键技术，最后介绍了华为DBS3900产品及DBS3900日常维护。

的头像

发表于 05-23 09:09 •4w次阅读

一文看懂LTE<b class='flag-5'>五大关键</b>技术和日常维护

细谈智能穿戴的五大关键技术

在物联网时代，智能穿戴承载着人与“机”之间的“沟通”，并扮演着物联网控制中心这样一个角色。正如计算机与智能手机产业在技术升级过程中，产品不断迭代更新一样，智能穿戴产品也进入了快速迭代的过程。在这个过程中，有五大关键技术将决定着智能穿戴产业发展的进程和方向。

发表于 07-11 16:57 •1w次阅读

智能工厂的五大关键领域及特征

智能工厂代表了高度互联和智能化的数字时代，工厂的智能化通过互联互通、数字化、大数据、智能装备与智能供应链五大关键领域得以体现。

发表于 10-16 08:35 •2755次阅读

智能工厂五大关键领域及其特征体现

智能工厂代表了高度互联和智能化的数字时代，工厂的智能化通过互联互通、数字化、大数据、智能装备与智能供应链五大关键领域得以体现。

的头像

发表于 10-08 10:47 •5304次阅读

ADI在线研讨会：精密数模转换器的五大关键技术规格

本研讨会视频介绍了精密数模转换器(DAC)的五大关键技术规格：分辨率与精度、总非调整误差、输出噪声、缓冲以及最终动态性能。本研讨会将带您深入了解DAC，及其技术规格会如何对系统级性能产生影响。

的头像

发表于 06-20 06:19 •3155次阅读

ADI在线研讨会：精密数模转换器的<b class='flag-5'>五大关键</b>技术规格

制造业创新中心政策体系形成，主要聚集在五大关键领域

从领域分布看，已建成的创新中心聚焦于基础材料、核心器件、关键工艺、重大装备以及软件等5个领域。国家制造业创新中心面向我国制造业创新发展的重大需求，充分汇聚行业创新力量，对五大关键

的头像

发表于 06-16 15:49 •4017次阅读

制造业创新中心政策体系形成，主要聚集在<b class='flag-5'>五大关键</b><b class='flag-5'>领域</b>

挑选高低温试验箱的五大关键因素：让你轻松选择最适合的设备

挑选高低温试验箱的五大关键因素：让你轻松选择最适合的设备

的头像

发表于 09-04 14:39 •1085次阅读

挑选高低温试验箱的<b class='flag-5'>五大关键</b>因素：让你轻松选择最适合的设备

成就更好5G的五大关键.zip

成就更好5G的五大关键

发表于 01-13 09:07 •2次下载