0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

下一代数据科学家必须掌握的领域:机器学习

如意 来源:读芯术微信公众号 作者:读芯术微信公众号 2020-09-15 14:07 次阅读

数据科学一直是个引人注目的领域,尤其是对于那些有计算机科学、统计、业务分析、工程管理、物理、数学等学科背景的年轻人。但雾里看花始终看不清晰,人们总是认为数据科学背后有许多神秘的地方,觉得它不仅仅是机器学习和统计。

多年来,我与许多专业人士讨论过该如何进入数据科学领域。为什么总有关于数据科学的炒作?能够帮助人们走进这一领域的仍然是统计数据和机器学习吗?未来也仍是如此吗?

两个月前,我从研究生院毕业后直接作为数据科学家加入了媒体巨头ViacomCBS。除了研究助理和实习之外,没有任何全职行业经验。我的工作职责包括从构想、开发到生产ML产品,使用过文中列出的大部分工作方式。希望本文能帮到所有有志于进军这一领域的数据科学家和机器学习工程师们。

为什么总有关于数据科学的炒作?

几乎人人都想要进入数据科学领域。几年前,数据科学领域存在供需问题:自从DJPatil博士和JeffHammerbacher创造了Data Science一词后,对数据科学家的需求大大增加,相关人才显得供不应求。

到了2020年,情况有所好转。受到过正规或者MOOC教育的数据科学爱好者的数量有所增加,人才需求也有所增加,但没达到前者的增长程度。这一术语所涵盖的领域越来越广泛,包含了人们进行数据科学工作所需的大多数功能。每个人都在谈论数据科学,但大多数却不得其法。

我认为数据科学总被炒作有以下几个原因:

前沿发展

工作满意度高

业务影响巨大

数据生成量增加

数据科学家头衔背后的神秘感

数据很好看!(不是字面意思~)

大量学校和训练营能提供数据科学学位

许多招聘网站将其评为最热门的工作(最近3年被Glassdoor评为美国最热门的工作)

自称是数据科学家的人?

总有人会这么介绍自己,所以让我就当前的行业状况讲一些真相。

由于职位需求的增加和数据科学家头衔的光鲜,许多公司已开始将产品分析师、商业情报分析师、业务分析师、供应链分析师、数据分析师和统计学家的职位改为数据科学家,因为许多人离职的原因便是去应聘数据科学家的职位,但实际上这些公司提供的工作内容往往是一样的。

许多人从职位头衔微小的字词变化中感到了被尊重。因此,公司们以相同的思路改变职位名称,使他们的职位显得更耀眼也更令人期待,例如数据科学家-分析方向、产品数据科学家、数据科学家-增长方向、数据科学家-供应链方向、数据科学家-可视化方向或数据科学家,还有什么不能加的方向?

大多数接受教育或者在线培训的人都有一个误区,认为所有数据科学家都会建立精致的机器学习模型,但这种认知并不完全正确。我刚开始攻读应用数据科学硕士时就是这样想的,以为大多数数据科学家都是做机器学习。

但是当我开始在美国实习和就业时,才逐渐了解真相。推动人们走向数据科学的力量,其实源自对人工智能及其业务影响的炒作。

下一代数据科学家——机器学习

在2020年,对于想要以数据科学家-ML方向(这样命名因为它不是数据科学家-分析方向)的身份进行应用机器学习,却又没有博士学位的人来说,除了人人都可做的将机器学习应用到数据集,可选的方法更多了。我将从自身经验出发分享一些关键点,或许有助于你的面试:

分布式数据处理/机器学习:掌握Apache Spark、ApacheHadoop、Dask等技术的实践经验能够证明你可以大规模创建Data / ML管道。有以上任何一种技术的应用经验都很加分,不过我还是建议使用Apache Spark(使用Python或Scala)。

生产环境机器学习/数据管道:如果可以亲身体验Apache Airflow就再好不过了。ApacheAirflow是用于创建数据和机器学习管道的标准开源作业编排工具。行业里已经在使用它,因此建议你学习并围绕它进行一些项目。

DevOps/Cloud:数据科学领域,很多人都过分忽视了DevOps。如果没有基础架构的话,要如何构建ML管道?构建在本地计算机上运行的笔记本或代码,并不像我们在课程中所做的那样容易。你编写的代码应该可跨自己或其他人可能在团队中创建的基础结构进行扩展。

许多公司可能尚未布局ML基础架构,正在寻找入门人员。即使在课程学习中,熟悉Docker,Kubernetes以及使用Flask之类的框架构建ML应用程序也应该是标准做法。我喜欢Docker,因为它具有可扩展性,可以构建基础架构映像,并在Kubernetes集群上的服务器/云上复制相同的内容。

数据库:必须了解数据库和查询语言。尽管SQL被严重忽略,但无论在任何云平台或数据库上,它仍然是行业标准。开始在leetcode上练习复杂的SQL将帮助到你应对在DS profiles中的某些编码面试部分,因为你要负责在预处理进行时从仓库中导入数据,这将简化你在运行ML模型前进行预处理。使用SQL将数据传输到模型中时,大多数功能工程可以随时随地完成,然而很多人会忽略这点。

编程语言:推荐用于数据科学的编程语言是Python、R语言、Scala和Java,了解他们中的任何一个都可以帮助你解决问题。对于ML类型的工作,面试过程中都将进行现场编码,因此你需要在自己觉得有效率的地方练习——Leetcode或者Hackerrank等。

如今,除非你足够幸运,在行业中有一些重要的关系(建立人际关系网非常重要!)或拥有署名的出色研究记录,否则只了解机器学习或统计学的话,你仍无法进入数据科学领域并学习ML。商业应用程序和领域知识往往需要工作经验,但是除了在相关行业进行实习之外,这些经验事先无从习得。

我也曾站在数据科学的路口徘徊,如今就要亲历下一代数据科学家进入领域的需求在当下成型。这个行业日新月异,需要你不断调整自己跟上它的脚步。
责编AJX

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7026

    浏览量

    89024
  • 机器学习
    +关注

    关注

    66

    文章

    8418

    浏览量

    132627
  • 数据科学
    +关注

    关注

    0

    文章

    165

    浏览量

    10059
收藏 人收藏

    评论

    相关推荐

    蚂蚁集团收购边塞科技,吴翼出任强化学习实验室首席科学家

    领域的研究与发展。令人瞩目的是,边塞科技的创始人吴翼已正式加入该实验室,并担任首席科学家职。 吴翼在其个人社交平台上对这变动进行了回应。他表示,自己最近接受了蚂蚁集团的邀请,负责大
    的头像 发表于 11-22 11:14 580次阅读

    下一代机器人技术:工业自动化的五大趋势

    随着人工智能(AI)技术的迅猛发展和全球制造业的转型升级,下一代机器人技术正在引领工业自动化领域的新轮变革。这些变革不仅深刻影响着生产模式,还为企业带来了前所未有的机遇和挑战。
    的头像 发表于 10-23 15:52 648次阅读

    AI for Science:人工智能驱动科学创新》第4章-AI与生命科学读后感

    了传统学科界限,使得科学家们能够从更加全面和深入的角度理解生命的奥秘。同时,AI技术的引入也催生了种全新的科学研究范式,即数据驱动的研究范式,这种范式强调从大量
    发表于 10-14 09:21

    《AI for Science:人工智能驱动科学创新》第章人工智能驱动的科学创新学习心得

    人工智能:科学研究的加速器 第章清晰地阐述了人工智能作为科学研究工具的强大功能。通过机器学习、深度
    发表于 10-14 09:12

    IaaS+on+DPU(IoD)+下一代高性能算力底座技术白皮书

    大规模生产环境落地应用的条件。某种程度上,IoD 技术已成为下一代高性能算力底座的核心技术与最佳实践。 白皮书下载:*附件:IaaS+on+DPU(IoD)+下一代高性能算力底座+技术白皮书(1).pdf
    发表于 07-24 15:32

    国科微AI首席科学家邢国良:打造全系边端AI芯片,赋能下一代自动驾驶

    7月4日,2024世界人工智能大会在上海开幕。香港中文大学教授、国科微AI首席科学家邢国良在智能汽车主题论坛发表《下一代自动驾驶技术:从嵌入式视觉到车路协同》演讲。他表示,智能网联为自动驾驶带来全新
    的头像 发表于 07-09 11:35 535次阅读
    国科微AI首席<b class='flag-5'>科学家</b>邢国良:打造全系边端AI芯片,赋能<b class='flag-5'>下一代</b>自动驾驶

    天津大学科学家突破人类大脑器官成功驱动机器

    在科技探索的征途上,天津大学的科研团队再次迈出了令人瞩目的步伐。7月5日,该校宣布了项革命性的成果——科学家们利用前沿的干细胞技术,成功培育出了高度模拟人类大脑的类脑器官,并创新性地将其与机器人系统通过先进的片上脑机接口技术紧
    的头像 发表于 07-08 16:00 610次阅读

    新华社:突破性成果!祝贺我国科学家成功研发这传感器!

    6月25日,新华社以《突破性成果!祝贺我国科学家》为标题,报道了由我国科学家研发的传感器成果。 我国科学家研发高通道神经探针实现猕猴全脑尺度神经活动监测 神经探针是种用来记录神经活动
    的头像 发表于 06-27 18:03 494次阅读
    新华社:突破性成果!祝贺我国<b class='flag-5'>科学家</b>成功研发这<b class='flag-5'>一</b>传感器!

    前OpenAI首席科学家创办新的AI公司

    在人工智能领域拥有丰富经验和卓越成就的深度学习专家伊尔亚·苏茨克维(Ilya Sutskever)周三宣布,他正在创办家名为Safe Superintelligence的新型人工智能公司。这
    的头像 发表于 06-21 10:42 524次阅读

    24芯M16插头在下一代技术中的潜力

      德索工程师说道随着科技的飞速发展,下一代技术正逐渐展现出其独特的魅力和潜力。在这背景下,24芯M16插头作为种高性能、多功能的连接器,将在下一代技术中发挥至关重要的作用。以下是
    的头像 发表于 06-15 18:03 336次阅读
    24芯M16插头在<b class='flag-5'>下一代</b>技术中的潜力

    东盟能源和华为主编的《东盟下一代数据中心建设白皮书》正式发布

    2024年5月17日,在2024全球数据中心产业论坛上,由东盟能源中心(ASEAN Center for Energy)和华为主编的《东盟下一代数据中心建设白皮书》(以下简称《白皮书》)重磅发布,旨在推动东盟数据中心产业加快绿色
    的头像 发表于 05-19 14:19 825次阅读
    东盟能源和华为主编的《东盟<b class='flag-5'>下一代数据</b>中心建设白皮书》正式发布

    使用NVIDIA Holoscan for Media构建下一代直播媒体应用

    NVIDIA Holoscan for Media 现已向所有希望在完全可重复使用的集群上构建下一代直播媒体应用的开发者开放。
    的头像 发表于 04-16 14:04 671次阅读

    科学家如何加速下一代微电子技术的发展

    扬声器、救生医疗设备和电动汽车等几乎任何用途的微小硅组件,而个由劳伦斯伯克利国家实验室(伯克利实验室)领导的新中心可以加速微芯片的下一次革命。 △Beihang Yu准备硅晶圆,以便在分子工厂的纳米制造设施进行检查。(图片来源:Marilyn Sargent/伯克利实
    的头像 发表于 01-23 13:42 369次阅读

    谷歌DeepMind科学家欲建AI初创公司

    据知情人士透露,谷歌人工智能部门DeepMind的两名杰出科学家Laurent Sifre和Karl Tuyls正在与投资者商讨在巴黎成立家新的人工智能初创公司的事宜。
    的头像 发表于 01-22 14:41 494次阅读

    芯原推出面向下一代数据中心的全新VC9800系列IP

    包括视频转码服务器、AI服务器、云桌面和云游戏等在内的下一代数据中心的先进需求。 VC9800系列视频处理器IP具备高性能、高吞吐量和服务器级别的多码流编解码能力,可支持最高256路码流,并兼容所有的主流视频格式,包括新一代先进格式VVC等。该系列IP可通过快
    的头像 发表于 01-09 13:18 385次阅读