0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

John Sullivan给你的5项技能建议,实践是进入数据科学世界的最佳方式

zhKF_jqr_AI 来源:未知 作者:李倩 2018-07-11 16:35 次阅读

编者按:上MOOC、读教科书、一遍又一遍地刷题……在毕业前,如果你对未来还是这样一幅态度,那你几乎就是在虚度光阴。虽然数据科学家是未来最“性感”的工作,但要成为“性感”的人,枯坐灯前当个书呆子可不成……

在毕业前,也许你是个勤奋的人,一直很努力地自学教材,也会上在线课程充实自我,但临近毕业,现在的你在做些什么呢?数据科学家是一份令人望而生畏的工作,一方面,毕业生不知道自己水平是否足以胜任;另一方面,面试人员往往也很难从毕业生身上看出他们的全部实力。

但每个人都有走出象牙塔的一天,为了让自己在社会上更有实力,你准备好迎接挑战了吗?如果你的梦想是当一名数据科学家,下面是DataOptimal创始人John Sullivan给你的5项技能建议。实践是进入数据科学世界的最佳方式,而掌握热门的必备技能将使你在职场上面面俱到。

1.数据清理

不要以为其他分析师会帮你处理好一切,作为一名数据科学家,如果你刚接手一个新项目,你可以把项目总用时里的80%用来做数据清理,这是科学的。无论是多高级的数据团队,数据清理始终是从业人员心中的巨大痛点,换个角度看,这也是你的机遇。如果你能证明自己在数据清理上面经验丰富,那你的价值实现指日可待。

为了锻炼这方面的能力,记得找一些混乱的数据集,多多练习,多多积累。

如果你用的编程语言是Python,Pandas是个好库;如果是R语言,dplyr包也是个不错的选择。换句话说,语言和库只是工具,但你用它们做的事是一样的:

导入数据

添加多个数据集

检测缺失值

检测异常值

填补缺失值

保证数据质量

2.探索性数据分析

数据科学的另一个重要技能是探索性数据分析(EDA)。当有人扔给你一份数据时,你对这份数据完全陌生,又没有足够的业务背景,会不会感觉无从下手?如果你什么都不管,直接把数据喂给各种模型,却发现效果不好,因为你没有好的特征,那么你可能需要的是数据探索。

EDA是对已有数据在尽可能少的假定下进行探索,通过各种可视化方法探明数据结构、规律的一种数据分析方法,它能让你建立起对数据的直觉。从效果上来看,EDA允许分析师从数据中得出结论以推动业务影响,这个影响可以是客户群分析,也可以是季节性销售趋势。让自己和公司获得意料之外的惊喜,这是EDA的魅力。

对于EDA,Python用户可以用Pandas和Matplotlib,R语言用户可以用ggplot2包。一个精通EDA的人需要熟练这些技巧:

为数据分析制定问题

表明趋势

表明变量间的协变

用可视化结果(散点图、直方图等)有效地传达结果

3.交互式数据可视化

交互式数据可视化包括仪表板等工具。这些工具对数据科学团队以及更多面向业务的终端用户都很有用。仪表板允许数据科学团队进行协作,并一起商议见解。更重要的是,它们为面向业务的客户提供了一种交互式工具,后者往往专注于战略目标,而非技术细节。一般情况下,数据科学项目的最终呈现应该是以仪表板的形式出现的。

对于Python用户,Bokeh和Plotly库非常适合创建仪表板。对于R用户,请务必查看RStudio的Shiny软件包。无论是那种,你的仪表板上都要遵循:

包含和客户需求相关的各项指标

创建有用的feature

布局合理(如F-pattern可以在客户扫视时,让他们记住大部分内容)

切换演示文稿频率合理

生成报告或其他自动操作

4.机器学习

机器学习是数据科学的重要组成部分。当然,这不是说你现在就得开始学习构建复杂的深度学习模型,事实上,大多数工作都不需要你有太高的机器学习知识水平。线性回归、逻辑回归,会用这些简单算法就够了,而且这些东西也更容易让你的领导理解,理解是沟通的基础。

如果要在这方面积累经验,记得做客户留存预测、贷款预测、欺诈检测这类项目。这不是说预测植物品种这类问题不好,只是前者能帮你积累更多业务常识。

如果你是Python用户,用Scikit-learn库。对于R用户,用Caret包。同样的,下面是必须要呈现的内容:

为什么要选这个特定模型

把数据拆成训练集和测试集(k倍交叉验证),避免过拟合

选择正确的评估指标(AUC、adj-R2、混淆矩阵等)

调整超参数

5.沟通

沟通是所有工作的必备技能。优秀数据科学家和普通数据科学家的区别在于前者能有效传达结果,而后者不能。无论展示的模型有多花哨,如果你看到客户后连嘴巴都张不开,他们又怎么会支持你的成果?PPT和笔记本电脑是沟通必备工具,你也可以用Jupyter Notebook或RMarkdown文件和客户交流项目。

确保了解你的目标听众是谁,向高管们展示和向机器学习专家展示完全不是一码事。一定要掌握这些技能:

了解目标受众

提供相关可视化

PPT不要过长

PPT演示流畅

结果和业务影响紧密结合(降低成本?增加收入?)

辛辛苦苦做完项目后,不要把文件随便乱丢,要养成收集、记录的好习惯。你可以用Github Pages把文件免费转成静态网页,为你的潜在雇主提供了解你的资料

最后,只要是入了数据的门,无论短时间内岗位是不是称心如意,接受了这份工作就保持积极态度,继续不断尝试项目,快乐工作,快乐找更好的工作!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据分析
    +关注

    关注

    2

    文章

    1408

    浏览量

    33982
  • 数据科学
    +关注

    关注

    0

    文章

    164

    浏览量

    10038

原文标题:想成为数据科学家?这是你必须重视5种技能

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    信息与计算科学专业实践教学改革研究

    【作者】:赵专政;【来源】:《计算机教育》2010年06期【摘要】:信息与计算科学专业是以信息技术与计算技术的数学基础为研究对象的理科类专业。文章从专业教学现状、培养目标、课程改革、教学实践等方面
    发表于 04-24 09:46

    C编程最佳实践.doc

    C编程最佳实践.doc
    发表于 08-17 14:37

    PyODPS开发中的最佳实践

    。总结利用 PyODPS,我们其实能挖掘更多更灵活、更高效操作 MaxCompute 数据方式最佳实践可以不光是我们提供的一些建议,如果
    发表于 01-29 13:51

    "AI+"进入科学界:人工智能将主导原子世界科学发现进程

    融入所赋能的领域,并转化为该领域自身的技术及能力,它将不仅是一种科研方式和手段,而是与科学研究结合形成新的“AI化学”、“AI物理学”等全新的学科。AI并不仅仅在变革科学,它正在进入
    发表于 04-27 15:58

    Dockerfile的最佳实践

    ”微服务一条龙“最佳指南-“最佳实践”篇:Dockerfile
    发表于 07-11 16:22

    虚幻引擎的纹理最佳实践

    纹理是游戏不可或缺的一部分。 这是一个艺术家可以直接控制的领域,以提高游戏的性能。 本最佳实践指南介绍了几种纹理优化,这些优化可以帮助您的游戏运行得更流畅、看起来更好。 最佳实践系列指
    发表于 08-28 06:39

    安捷伦LTE和WiMAX测试设备获最佳实践

    安捷伦LTE和WiMAX测试设备获最佳实践奖  安捷伦科技公司荣膺Frost & Sullivan(弗若斯特沙利文公司)颁发的“全球LTE和WiMAX测试设备市场领先份额最佳
    发表于 12-24 09:17 1040次阅读

    RE 'FLEKT获得Frost Sullivan最佳实践

    在沉浸式技术市场的风云变幻中,很容易让人迷失在混乱之中。很多公司都在努力创新,当一个人因为他们的努力而得到认可时,这总是件好事。 每年这个时候增长战略公司Frost & Sullivan会发
    发表于 03-11 16:08 503次阅读

    冰箱进入“海尔时代” 这是海尔冰箱原创科技实力世界第一的最佳证明

    多年来,海尔冰箱积极开展科技研发,在全球各市场、原创科技、标准专利等方面结出了硕果,实现了行业领先。据2018年全球冰箱业专利公开数显示:海尔冰箱凭借735专利再居世界第一,这也是在世界冰箱已
    发表于 03-01 17:05 2711次阅读

    什么是数据科学家的最佳编程语言?

    每个数据科学学习者都最常问的问题:“ 什么是数据科学家的最佳编程语言?”。
    的头像 发表于 07-05 11:32 2469次阅读

    数据科学和机器学习所需要的基本数学技能

    作为一切科学的基础,数学在数据科学领域也占据着重要地位。如果你是一名数据科学爱好者,一定想过这些问题: 我可以在几乎没有数学背景的情况下,成
    的头像 发表于 07-06 09:39 2541次阅读

    加快部署 5G 基站的最佳实践:RF 前端大规模 MIMO 入门

    加快部署 5G 基站的最佳实践:RF 前端大规模 MIMO 入门
    的头像 发表于 12-26 10:16 1715次阅读
    加快部署 <b class='flag-5'>5</b>G 基站的<b class='flag-5'>最佳</b><b class='flag-5'>实践</b>:RF 前端大规模 MIMO 入门

    部署Linux的最佳实践探索

    编者按:本文节选自节选自《基于Linux的企业自动化》第五章。“第5章,使用Ansible构建用于部署的虚拟机模板,通过构建虚拟机模板来探索部署Linux的最佳实践,虚拟机模板将以实际操作的
    的头像 发表于 05-16 09:35 526次阅读

    SAN设计和最佳实践指南

    电子发烧友网站提供《SAN设计和最佳实践指南.pdf》资料免费下载
    发表于 09-01 11:02 0次下载
    SAN设计和<b class='flag-5'>最佳</b><b class='flag-5'>实践</b>指南

    边缘计算架构设计最佳实践

    边缘计算架构设计最佳实践涉及多个方面,以下是一些关键要素和最佳实践建议: 一、核心组件与架构设计 边缘设备与网关 边缘设备 :包括各种嵌入式
    的头像 发表于 10-24 14:17 285次阅读