下一代数据科学家必须掌握的领域：机器学习-电子发烧友网

数据科学一直是个引人注目的领域，尤其是对于那些有计算机科学、统计、业务分析、工程管理、物理、数学等学科背景的年轻人。但雾里看花始终看不清晰，人们总是认为数据科学背后有许多神秘的地方，觉得它不仅仅是机器学习和统计。

多年来，我与许多专业人士讨论过该如何进入数据科学领域。为什么总有关于数据科学的炒作？能够帮助人们走进这一领域的仍然是统计数据和机器学习吗？未来也仍是如此吗？

两个月前，我从研究生院毕业后直接作为数据科学家加入了媒体巨头ViacomCBS。除了研究助理和实习之外，没有任何全职行业经验。我的工作职责包括从构想、开发到生产ML产品，使用过文中列出的大部分工作方式。希望本文能帮到所有有志于进军这一领域的数据科学家和机器学习工程师们。

为什么总有关于数据科学的炒作？

几乎人人都想要进入数据科学领域。几年前，数据科学领域存在供需问题：自从DJPatil博士和JeffHammerbacher创造了Data Science一词后，对数据科学家的需求大大增加，相关人才显得供不应求。

到了2020年，情况有所好转。受到过正规或者MOOC教育的数据科学爱好者的数量有所增加，人才需求也有所增加，但没达到前者的增长程度。这一术语所涵盖的领域越来越广泛，包含了人们进行数据科学工作所需的大多数功能。每个人都在谈论数据科学，但大多数却不得其法。

我认为数据科学总被炒作有以下几个原因：

前沿发展

工作满意度高

业务影响巨大

数据生成量增加

数据科学家头衔背后的神秘感

数据很好看！（不是字面意思~）

大量学校和训练营能提供数据科学学位

许多招聘网站将其评为最热门的工作（最近3年被Glassdoor评为美国最热门的工作）

自称是数据科学家的人？

总有人会这么介绍自己，所以让我就当前的行业状况讲一些真相。

由于职位需求的增加和数据科学家头衔的光鲜，许多公司已开始将产品分析师、商业情报分析师、业务分析师、供应链分析师、数据分析师和统计学家的职位改为数据科学家，因为许多人离职的原因便是去应聘数据科学家的职位，但实际上这些公司提供的工作内容往往是一样的。

许多人从职位头衔微小的字词变化中感到了被尊重。因此，公司们以相同的思路改变职位名称，使他们的职位显得更耀眼也更令人期待，例如数据科学家-分析方向、产品数据科学家、数据科学家-增长方向、数据科学家-供应链方向、数据科学家-可视化方向或数据科学家，还有什么不能加的方向？

大多数接受教育或者在线培训的人都有一个误区，认为所有数据科学家都会建立精致的机器学习模型，但这种认知并不完全正确。我刚开始攻读应用数据科学硕士时就是这样想的，以为大多数数据科学家都是做机器学习。

但是当我开始在美国实习和就业时，才逐渐了解真相。推动人们走向数据科学的力量，其实源自对人工智能及其业务影响的炒作。

下一代数据科学家——机器学习

在2020年，对于想要以数据科学家-ML方向（这样命名因为它不是数据科学家-分析方向）的身份进行应用机器学习，却又没有博士学位的人来说，除了人人都可做的将机器学习应用到数据集，可选的方法更多了。我将从自身经验出发分享一些关键点，或许有助于你的面试：

分布式数据处理/机器学习：掌握Apache Spark、ApacheHadoop、Dask等技术的实践经验能够证明你可以大规模创建Data / ML管道。有以上任何一种技术的应用经验都很加分，不过我还是建议使用Apache Spark（使用Python或Scala）。

生产环境机器学习/数据管道：如果可以亲身体验Apache Ai rflow就再好不过了。ApacheAirflow是用于创建数据和机器学习管道的标准开源作业编排工具。行业里已经在使用它，因此建议你学习并围绕它进行一些项目。

DevOps/Cloud：数据科学领域，很多人都过分忽视了DevOps。如果没有基础架构的话，要如何构建ML管道？构建在本地计算机上运行的笔记本或代码，并不像我们在课程中所做的那样容易。你编写的代码应该可跨自己或其他人可能在团队中创建的基础结构进行扩展。

许多公司可能尚未布局ML基础架构，正在寻找入门人员。即使在课程学习中，熟悉Docker，Kubernetes以及使用Flask之类的框架构建ML应用程序也应该是标准做法。我喜欢Docker，因为它具有可扩展性，可以构建基础架构映像，并在Kubernetes集群上的服务器/云上复制相同的内容。

数据库：必须了解数据库和查询语言。尽管SQL被严重忽略，但无论在任何云平台或数据库上，它仍然是行业标准。开始在leetcode上练习复杂的SQL将帮助到你应对在DS profiles中的某些编码面试部分，因为你要负责在预处理进行时从仓库中导入数据，这将简化你在运行ML模型前进行预处理。使用SQL将数据传输到模型中时，大多数功能工程可以随时随地完成，然而很多人会忽略这点。

编程语言：推荐用于数据科学的编程语言是Python、R语言、Scala和Java，了解他们中的任何一个都可以帮助你解决问题。对于ML类型的工作，面试过程中都将进行现场编码，因此你需要在自己觉得有效率的地方练习——Leetcode或者Hackerrank等。

如今，除非你足够幸运，在行业中有一些重要的关系（建立人际关系网非常重要！）或拥有署名的出色研究记录，否则只了解机器学习或统计学的话，你仍无法进入数据科学领域并学习ML。商业应用程序和领域知识往往需要工作经验，但是除了在相关行业进行实习之外，这些经验事先无从习得。

我也曾站在数据科学的路口徘徊，如今就要亲历下一代数据科学家进入领域的需求在当下成型。这个行业日新月异，需要你不断调整自己跟上它的脚步。
责编AJX

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据

数据

+关注

关注
8

文章
7208

浏览量
89857
机器学习

机器学习

+关注

关注
66

文章
8455

浏览量
133186
数据科学

数据科学

+关注

关注
0

文章
168

浏览量
10118

百度李彦宏谈训练下一代大模型

“我们仍需对芯片、数据中心和云基础设施持续投入，以打造更好、更智能的下一代模型。”

发表于 02-12 10:38 •162次阅读

蚂蚁集团收购边塞科技，吴翼出任强化学习实验室首席科学家

领域的研究与发展。令人瞩目的是，边塞科技的创始人吴翼已正式加入该实验室，并担任首席科学家一职。吴翼在其个人社交平台上对这一变动进行了回应。他表示，自己最近接受了蚂蚁集团的邀请，负责大

发表于 11-22 11:14 •803次阅读

下一代机器人技术：工业自动化的五大趋势

随着人工智能(AI)技术的迅猛发展和全球制造业的转型升级，下一代机器人技术正在引领工业自动化领域的新一轮变革。这些变革不仅深刻影响着生产模式，还为企业带来了前所未有的机遇和挑战。

发表于 10-23 15:52 •805次阅读

AI for Science：人工智能驱动科学创新》第4章-AI与生命科学读后感

了传统学科界限，使得科学家们能够从更加全面和深入的角度理解生命的奥秘。同时，AI技术的引入也催生了一种全新的科学研究范式，即数据驱动的研究范式，这种范式强调从大量

发表于 10-14 09:21

《AI for Science：人工智能驱动科学创新》第一章人工智能驱动的科学创新学习心得

人工智能：科学研究的加速器第一章清晰地阐述了人工智能作为科学研究工具的强大功能。通过机器学习、深度学

发表于 10-14 09:12

IaaS+on+DPU(IoD)+下一代高性能算力底座技术白皮书

大规模生产环境落地应用的条件。某种程度上，IoD 技术已成为下一代高性能算力底座的核心技术与最佳实践。白皮书下载：*附件：IaaS+on+DPU(IoD)+下一代高性能算力底座+技术白皮书(1).pdf

发表于 07-24 15:32

国科微AI首席科学家邢国良：打造全系边端AI芯片，赋能下一代自动驾驶

7月4日，2024世界人工智能大会在上海开幕。香港中文大学教授、国科微AI首席科学家邢国良在智能汽车主题论坛发表《下一代自动驾驶技术：从嵌入式视觉到车路协同》演讲。他表示，智能网联为自动驾驶带来全新

发表于 07-09 11:35 •658次阅读

天津大学科学家突破人类大脑器官成功驱动机器人

在科技探索的征途上，天津大学的科研团队再次迈出了令人瞩目的步伐。7月5日，该校宣布了一项革命性的成果——科学家们利用前沿的干细胞技术，成功培育出了高度模拟人类大脑的类脑器官，并创新性地将其与机器人系统通过先进的片上脑机接口技术紧

发表于 07-08 16:00 •704次阅读

新华社：突破性成果！祝贺我国科学家成功研发这一传感器！

6月25日，新华社以《突破性成果！祝贺我国科学家》为标题，报道了由我国科学家研发的传感器成果。我国科学家研发高通道神经探针实现猕猴全脑尺度神经活动监测神经探针是一种用来记录神经活动

发表于 06-27 18:03 •565次阅读

前OpenAI首席科学家创办新的AI公司

在人工智能领域拥有丰富经验和卓越成就的深度学习专家伊尔亚·苏茨克维（Ilya Sutskever）周三宣布，他正在创办一家名为Safe Superintelligence的新型人工智能公司。这

发表于 06-21 10:42 •589次阅读

24芯M16插头在下一代技术中的潜力

　　德索工程师说道随着科技的飞速发展，下一代技术正逐渐展现出其独特的魅力和潜力。在这一背景下，24芯M16插头作为一种高性能、多功能的连接器，将在下一代技术中发挥至关重要的作用。以下是

发表于 06-15 18:03 •423次阅读

赛轮思与NVIDIA合作，利用生成式AI打造下一代车内体验

AI 驱动的移动出行创新企业与 NVIDIA 合作，打造下一代车内体验。

发表于 05-23 10:12 •1318次阅读

东盟能源和华为主编的《东盟下一代数据中心建设白皮书》正式发布

2024年5月17日，在2024全球数据中心产业论坛上，由东盟能源中心（ASEAN Center for Energy）和华为主编的《东盟下一代数据中心建设白皮书》（以下简称《白皮书》）重磅发布，旨在推动东盟数据中心产业加快绿色

发表于 05-19 14:19 •938次阅读

使用NVIDIA Holoscan for Media构建下一代直播媒体应用

NVIDIA Holoscan for Media 现已向所有希望在完全可重复使用的集群上构建下一代直播媒体应用的开发者开放。

发表于 04-16 14:04 •766次阅读

NVIDIA首席科学家Bill Dally：深度学习硬件趋势

Bill Dally于2009年1月加入NVIDIA担任首席科学家，此前在斯坦福大学任职12年，担任计算机科学系主任。Dally及其斯坦福团队开发了系统架构、网络架构、信号传输、路由和同步技术，在今天的大多数大型并行计算机中都可以找到。

发表于 02-25 16:16 •1343次阅读