数据科学家遇到的常见挑战及方法-电子发烧友网

作为数据科学家，我在很多公司工作过，也遇到了很多问题和挑战。事实上，很多人都会经历这些挑战，就不同情况而言，也会有多种可行的解决方案。我将谈谈我曾面临的一些最常见或最困难的挑战。

业务问题描述不当

只要有一个工作人员出错，你就会面临这个挑战。数据科学专家的主要工作之一就是做业务问题描述——这也就是起初使用数据科学的原因。

实际上，多数情况下描述不是某个数据科学专家自己，而是整个团队。团队里通常包括利益相关者，比如产品经理。但是，团队内可能出现技术脱节，任一方都可能对业务问题描述不当。

产品经理可能会说：“我们要提更多建议，大家才能买的更多”，而数据科学专家可能会说：“向大家推荐产品的时候，超过80%的情况下我们要有95%的把握。”

这两种问题描述总体来讲都很好，但都不够细化，或者只是勾勒出了问题的轮廓。问题描述是要从中找出解决方案，但是本身并不是解决方案。

以下是一个更好的业务问题描述问题的例子：“顾客平均每个订单只买一件东西”。

就是这么简单。一开始双方都想方设法将描述复杂化，但现在这样更高效。虽然没有解决方案，但人人都能看懂这种直接、通俗易懂的描述。

示例描述说明一件东西不够，那么解决方案可能就是如何让顾客更可能买一件以上的东西。一种数据科学解决方案就是使用机器学习推荐系统。在工作中不要好高骛远，而要专注于眼下的实际问题，这很重要。

数据失衡

任何真正与数据打交道的人大多都会遇到数据失衡的问题。比如，遇到分类问题时使用逻辑回归给新数据赋值0或1。目标变量预计0和1各占50%的可能。然而，结果完全出乎预料。

如果试着将一种新动物归类为狗或者猫，就需要猫狗各1000列的训练数据。这样，模型才足够辨别二者的不同之处。如果训练数据中猫有1900只，狗只有100只，那么就可能产生误解，认为多数新动物都是猫，这是个很常见的问题。

可能的解决方案是使用其他补强少数部分的机器学习算法，或者创建新的综合数据。有一种技术叫不均衡学习（imbalanced-learn），可以采用下列具体方法进行过采样：

ADASYN算法（Adaptive Synthetic，自适应综合过采样）

BorderlineSMOTE算法

KMeansSMOTE算法

RandomOverSampler算法

SMOTNC算法

SVMSMOTE算法（Nominal andContinuous）

这些过采样方法都非常有效，而且能解决数据不均衡问题。还有很多方法，比如欠采样、二者相结合、组合法、Keras和TensorFlow的批量生成器。下面是过采样操作的示例：

画一幅二维视图

绘制已知数据点

选择一个已知点

找出最邻近点

在邻近点与原始数据点之间画一条线

然后随机将大头针丢在这些线上

这就是新合成的过采样数据

像RandomForest之类的一些机器算法函数库的参数要指定均衡数据也很简单。

过拟合

构建的数据科学模型将训练数据解析的太透彻就会出现过拟合问题。模型接收了训练数据中的详细信息，也包括数据中的噪音，所以过于具体，而这在预测新的真实数据时是无用的，结果模型就无法做出正确推断和归纳。模型的目的是处理好未见过的数据，所以要想办法找到能处理好新数据的解决办法并付诸使用。

交叉验证

移除重复或相似特点

及早停止

正则化

集成法

非参数机器学习算法

使用更多数据训练

特征不足

制定业务问题描述之后，通常还需要开始寻找数据，然后形成自己的特点，输入到数据科学模型中作为训练数据。对公司数据表了解的越多，就会发现还可以以其它纵列为新特征。不过，一开始特征有限的问题还有另一种解决办法。

构建当前度量的统计数据。例如，一般具有“每位用户点击量”特征，就会停止。但也可以从如下某一纵列中创建新的度量：

每位用户的平均点击量

每位用户的众数点击量

每位用户75%百分位数点击量

还有很多不同方式来描述该特征的范围。

版本控制

数据科学家非常习惯独自工作，喜欢对同一个重点项目创建20个不同版本的Jupyter Notebook。我们约定好了命名，但第二天就忘记了。然后，一切变得一团糟。但其实还有更好的方式——那就是Git和GitHub。

Git

GitHub

如果数量较少的话，还有其它自制办法，比如用特殊数字方法（例：Notebook1，Notebook2）创建新版本。

这些工具可以通过创建区别于主干/代码库的独立分支，帮你形成自己的代码变化。然后就可以创建一个拉取请求来比较代码变化，在获得他人认可后并入原件。如此一来，你就不仅是在创建代码评审，而且还允许大家注意到并更加了解你的特定代码。

如你所见，数据科学家会面临很多挑战，我所谈到的只是冰山一角。但这些问题是我经历最多的，我认为应该重点讨论的。希望我的方法能帮你顺利解决这些问题。
责编AJX

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据

数据

+关注

关注
8

文章
7215

浏览量
89885
算法

算法

+关注

关注
23

文章
4635

浏览量
93509
数据科学

数据科学

+关注

关注
0

文章
168

浏览量
10120

TI科学家谈浮点DSP未来发展

TI科学家谈浮点DSP未来发展自十多年前浮点数字信号处理器(DSP)诞生以来，便为实时信号处理提供了算术上更为先进的备选方案。不过，定点器件至今仍是业界的主流--当然低成本是主要原因。定点DSP每

发表于 11-03 15:18

美科学家推出多种波动描记传感器

领导人、美国宾夕法尼亚大学的心理学家凯文-梅尔福称：“多种波动描记-传感器不论属于何种类型，其功能都是用于测量人的紧张状态的，而不是用来测谎的。得克萨斯大学科学家们发现的这种新方法很可能会为我们提供更多

发表于 10-24 11:40

生物电磁波揭密场导发现(俄罗斯华裔科学家写的脑控技术丛书）

生物电磁波揭密场导发现(俄罗斯华裔科学家写的脑控技术丛书）

发表于 03-05 09:31

通往数据科学家的崎岖道路

如果你曾经查看过数据科学家的岗位要求，你就知道它的职责范围有多广。有的数据科学家致力于自然语言处理、计算机视觉、深度学习，有的则从事A/B测试、产品分析。确定哪些工作适合自己，哪些不适

发表于 07-26 09:17 •2649次阅读

哪些才是对数据科学家最迫切的技能呢？

AngelList提供的是列出数据科学家岗位的公司数而不是岗位数。我把AngelList从所有分析里面排除掉了，因为其搜索算法似乎按照OR型的逻辑搜索进行，没有办法改成AND。如果你寻找的是“数据

发表于 11-19 18:14 •3120次阅读

什么是数据科学家？需要认证吗？

得以清晰化。”Fleming指出，IBM目前雇佣了大约1.5万名被定义为数据科学家的技术人员，预计数据科学家人数的增长速度超过其雇员总数的增长速度。

发表于 02-14 09:41 •6696次阅读

介绍从数据分析师转型为数据科学家的具体方法

入门数据科学早已有许多优秀的博文可供参考，比如以下两篇：《成为Jet.com数据分析师的自学之路》和《入门数据科学需掌握的基础知识》，但是为

发表于 03-01 15:34 •3178次阅读

数据科学家与机器学习工程师怎么区分

十年来，我们一直在谈论数据科学和数据科学家。虽然在怎么才叫“数据科学家”的问题上始终存在着争议，

发表于 05-18 11:24 •3289次阅读

数据科学家常犯的10个编程错误

数据科学家是“比软件工程师更擅长统计学，比统计学家更擅长软件工程的人”。

发表于 05-24 14:50 •2715次阅读

数据科学家与数据工程师的区别

数据科学家和数据工程师的主要区别，可以用ETL和DAD的区别来解释。

发表于 07-10 17:06 •2712次阅读

企业如何解决数据科学家短缺详细方法什么

　随着企业以数据为中心的文化，以做出决策和规划，数据科学家对全球企业的重要性日益增加。但是企业无法足够快地聘请数据科学家，因为合格候选人仍然

发表于 04-18 10:31 •3534次阅读

采访资深数据科学家：成为数据科学家应具有的品质

作为一门逐渐成熟的新兴领域，与数据科学相关的很多领域开始变得备受青睐，比如数据工程，数据分析以及机器学习和深度学习。数据

发表于 06-30 11:28 •2393次阅读

什么是数据科学家的最佳编程语言？

每个数据科学学习者都最常问的问题：“ 什么是数据科学家的最佳编程语言？”。

发表于 07-05 11:32 •2574次阅读

深入研究数据科学家使用的常见统计和分析技术

数据科学技术如今已在许多组织中占有一席之地，数据科学家正迅速成为以数据为中心的组织最受欢迎的角色之一。数

发表于 01-14 16:09 •2085次阅读

中国联通AI科学家廉士国入选全球前2%顶尖科学家榜单

%顶尖科学家榜单是Elsevier和斯坦福大学John P.A. Ioannidis教授团队合作的具有全球影响力的项目成果，为全球学术界提供了一个面向科学家长期科研表现的衡量指标，旨在更客观、更真实地反映科学家全球影响力。榜单以

发表于 11-07 16:18 •2755次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

数据科学家遇到的常见挑战及方法

评论