0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Kaggle机器学习/数据科学现状调查

OaXG_jingzhengl 来源:未知 作者:胡薇 2018-06-29 09:11 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Kaggle是互联网上最著名的数据科学竞赛平台之一,今年3月8日,这家机构被谷歌收购,6月6日又宣布用户数量超过了100万人。最近,这一社区首次进行了机器学习/数据科学现状调查。在超过16,000名从业者的详尽答卷中,我们可以一窥目前业内的发展趋势。有趣的是,Kaggle也将调查结果封装成了匿名数据集以供大家自行分析。

有史以来第一次,Kaggle对人工智能领域进行了全行业深度调查,试图全面了解数据科学和机器学习概况。本次调查收到了超过16,000份回复,众多受调查者的数据向我们提供了有关从业者人群、业界最新动态以及如何进入该行业的洞见。以下报告包括本次调查的所有主要结果,其中包含的主要内容有:

虽然Python很可能是机器学习最常用的编程语言,但统计学家更多地使用R语言。

平均而言,数据科学家的年龄在30岁左右,但是这个数字在不同的国家有所不同。例如,印度的受访者要比澳大利亚的平均年轻9岁。

有关被调查者教育程度,最普遍的学位是硕士,但是工资最高的($150k+)人群中,拥有博士学位的人稍稍多一点。

Kaggle已经公开了该调查的匿名数据集,以供大家进行探究:https://www.kaggle.com/kaggle/kaggle-survey-2017。

如何定义数据工作者?

观察数据从业者的方式有很多,但本文将从有关数据科学从业者的工作和背景的人口统计学信息开始。

调查对象的年龄

如图可见,本次调查对象的平均年龄大约30岁,但这个值在各个国家之间有变动。例如印度的调查对象的平均年龄就比澳大利亚的小了9岁。

你目前的就业状况如何?

受调查者中,有65.7%表示自己有全职工作。

你的职位是什么?

尽管我们把数据科学家定义为使用代码分析数据的人,我们发现数据科学领域可涵盖的工作非常多。比如在伊朗和马来西亚,数据科学从业者最流行的工作头衔是「科学家或者研究者」。

你的全职年薪是多少?

中位数$55,441,不过由于很多人没有全职工作(收入为0),所以这一数字不甚准确。尽管在我们的调查中「补偿和福利」的重要性排序稍微比「职业发展机遇」的低一点,不过知道什么是合理的补偿依然不错。在美国,一般机器学习工程师带回家最多的是培根。

131个回复由于超出最大值而没有显示出来,但它们被算进了中位数。

你的最高学历是什么?

因此,你需要再获得一个学位吗?通常来讲,数据科学从业者中最普遍的学历是硕士,但是获取最高薪水($150K-$200K和$200k+)的那些人多是有着博士学位。

被调查者的平均水平是数据科学家职称,30岁左右,硕士学历,年薪$55,000左右。但实际情况并不如此平均。这些最初的几个人口统计学问题只是展示了复杂的Kaggle数据科学社区在年龄、性别、国籍、工作职称、薪水、经验和学历方面的表层差异。

数据科学家的工作内容是什么?

我们把数据科学家定义为写代码以分析数据的一群人。他们的日常工作内容是什么?以下是我们的调查结果。

工作中使用什么数据科学方法?

Logistic回归是工作之中最为常用的数据科学方法,不过神经网络使用更为频繁的国家安全领域除外。总的来说,数据科学中更常见的还是使用经典的机器学习算法,简单的线性与非线性分类器是数据科学中最常见的算法,而功能强大的集成方法也十分受欢迎。我们看到目前神经网络模型的使用频率要高于支持向量机,这可能是近来多层感知机要比使用带核函数的SVM更加广泛的表现。

工作中使用最多的语言是什么?

Python是数据科学家最常用的语言,也是最常用的数据分析工具。不过,还有很多数据科学家仍然保持着对R语言的忠诚。

以上仅展示了15个回答,还有38个回答被隐藏。

在工作中常用的数据类型是什么?

关系型数据是开发者在工作中最常用的数据类型,因为大多数产业工程师都十分关注于这种关系型数据。而学术研究者和国防安全产业则更注重于文本与图像。

如何分享工作中的代码?

尽管很多受访者(58.4%)使用Git在工作分享他们的代码。但大公司中的开发者更倾向于将代码保留在本地,并通过像Email那样的文件共享软件来分享他们的代码。而初创公司可能需要在云中共享以保持更加敏捷的反应。

工作中遇到的障碍主要是什么?

脏数据(dirtydata)显然是排在了第一位,也就是说数据科学家一般最常见的困扰就是需要对数据进行大量的预处理工程。除了数据预处理工程以外,还有很多问题困扰着数据科学家,比如说众多的机器学习算法各有各的擅长领域,所以理解它们的性能也会有一些困难。不过我们注意到向其他人解释数据科学是什么也会困扰着数据科学家,解决办法可以是推荐机器之心呀。

上图仅展示了前面的15个回答,还有7个回答没有展示。

此外,如果你们点击选择条件,那么就能按照条件过滤回答。很多行业的受访者表示他们缺少数据科学相关的人才,所以数据科学家目前是十分幸运的。

数据科学家新手如何入行?

当开始一个新的职业生涯的时候,看看别人的成功秘诀是很有帮助的。我们调查了在数据科学行业工作的人们,询问他们是如何做到的。以下是我们最喜欢的几条建议:

你们会推荐数据科学家新手最先学哪门语言?

每一位数据科学家都有自己的对选择第一门语言的想法。事实证明,那些仅使用Python或R语言的人们做出了正确的选择。不过如果你问一下使用过R和Python的人们,他们有两倍的可能会推荐Python给你。

你们使用哪些数据科学学习资源?

数据科学是一个快速变化的领域,有很多有价值的资源可以帮助你学习并保持业内的顶尖位置,从而不断提升你的竞争力。已经在数据科学领域中工作的人们会更多使用StackOverflowQ&A,Conferences和Podcasts,以对不断涌入这个领域的人们保持自己的优势。如果想要发布内容或开源软件,请时刻记住刚进入这个领域的人们通常更多使用官方的文档和观看Youtube视频。

你们在哪里获取开源数据?

没有数据,就没有数据科学。当需要学习数据科学技巧的时候,知道如何找到干净的开源数据集用于练习和开发项目相当重要。很高兴得知我们的数据集聚合器(datasetaggregators,https://www.kaggle.com/datasets)正发展为数据科学社区成员中最频繁使用的工具。

你们怎么找工作,怎么找到的?

找工作的时候,可能到公司网站上,或在指定技术方向的招聘信息上,但是根据已经在数据科学领域工作的人们的经验,这些方式是最差的选择。而直接联系招聘者或建立自己的网络以进入这个领域才是他们的首选。

Note:少于50名受访者的组别被合并进了「Other」类中。其中一些柱状图为了美观而做了缩放处理,希望查看所有问题和结果的原始数据可访问:https://www.kaggle.com/amberthomas/kaggle-2017-survey-results。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    67

    文章

    8570

    浏览量

    137381
  • python
    +关注

    关注

    59

    文章

    4891

    浏览量

    90388

原文标题:Kaggle首份机器学习大调查:最常用的算法、语言竟然是......

文章出处:【微信号:jingzhenglizixun,微信公众号:机器人博览】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    机器学习中的数据质量双保障:从“验证”到“标记”

    机器学习的世界里,有句老话尤为贴切:“garbagein,garbageout”(输入垃圾,输出垃圾)。无论模型架构多先进、算法多精妙,数据的质量始终是决定模型性能的核心。本文聚焦数据
    的头像 发表于 04-24 15:48 161次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>中的<b class='flag-5'>数据</b>质量双保障:从“验证”到“标记”

    机器学习特征工程:分类变量的数值化处理方法

    编码是机器学习流程里最容易被低估的环节之一,模型没办法直接处理文本形式的分类数据,尺寸(Small/Medium/Large)、颜色(Red/Blue/Green)、城市、支付方式等都是典型的分类
    的头像 发表于 02-10 15:58 519次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>特征工程:分类变量的数值化处理方法

    人工智能与机器学习在这些行业的深度应用

    自人工智能和机器学习问世以来,多个在线领域的数字化格局迎来了翻天覆地的变化。这些技术从诞生之初就为企业赋予了竞争优势,而在线行业正是受其影响最为显著的领域。人工智能(AI)与机器学习
    的头像 发表于 02-04 14:44 753次阅读

    Prudentia Sciences宣布完成由McKesson Ventures领投的A轮融资,加速生命科学交易的尽职调查

    生命科学交易领域AI原生尽职调查的先驱 Prudentia Sciences 今日宣布完成2000万美元A轮融资。本轮融资由McKesson Ventures领投,SignalFire参投。现有
    的头像 发表于 01-09 15:15 2620次阅读

    机器学习和深度学习中需避免的 7 个常见错误与局限性

    ,并验证输出结果,就能不断提升专业技能,养成优秀数据科学家的工作习惯。需避免的机器学习和深度学习数据
    的头像 发表于 01-07 15:37 390次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>和深度<b class='flag-5'>学习</b>中需避免的 7 个常见错误与局限性

    利用 Banana Pi BPI-CM5 Pro(ARMSoM CM5 SoM) 加速保护科学

    Cat M-1 用于遥测/连接。 用于边缘处理和机器学习的 ARMSoM 计算模块 (CM5)。 项目背景 []() 通过聆听自然界的声音,我们可以监测动物之间的交流方式,并获得基本的基线数据,从而
    发表于 10-27 09:18

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    AI被赋予了人的智能,科学家们希望在没有人类的引导下,AI自主的提出科学假设,诺贝尔奖级别的假设哦。 AI驱动科学被认为是科学发现的第五个范式了,与实验
    发表于 09-17 11:45

    XKCON祥控输煤皮带智能机器人巡检系统对监测数据进行挖掘分析

    XKCON祥控输煤皮带智能机器人巡检系统通过智能机器人在皮带运行过程中对皮带的运行状态和环境状况进行实时检测,在应用过程中,不但提升了巡视周期频次,还通过大数据分析和深度学习算法,对监
    的头像 发表于 09-15 11:22 830次阅读
    XKCON祥控输煤皮带智能<b class='flag-5'>机器</b>人巡检系统对监测<b class='flag-5'>数据</b>进行挖掘分析

    量子机器学习入门:三种数据编码方法对比与应用

    在传统机器学习数据编码确实相对直观:独热编码处理类别变量,标准化调整数值范围,然后直接输入模型训练。整个过程更像是数据清洗,而非核心算法组件。量子
    的头像 发表于 09-15 10:27 1048次阅读
    量子<b class='flag-5'>机器</b><b class='flag-5'>学习</b>入门:三种<b class='flag-5'>数据</b>编码方法对比与应用

    如何在机器视觉中部署深度学习神经网络

    人士而言往往难以理解,人们也常常误以为需要扎实的编程技能才能真正掌握并合理使用这项技术。事实上,这种印象忽视了该技术为机器视觉(乃至生产自动化)带来的潜力,因为深度学习并非只属于计算机科学家或程序员。 从头开始:什么
    的头像 发表于 09-10 17:38 1115次阅读
    如何在<b class='flag-5'>机器</b>视觉中部署深度<b class='flag-5'>学习</b>神经网络

    超小型Neuton机器学习模型, 在任何系统级芯片(SoC)上解锁边缘人工智能应用.

    Neuton 是一家边缘AI 公司,致力于让机器 学习模型更易于使用。它创建的模型比竞争对手的框架小10 倍,速度也快10 倍,甚至可以在最先进的边缘设备上进行人工智能处理。在这篇博文中,我们将介绍
    发表于 07-31 11:38

    FPGA在机器学习中的具体应用

    随着机器学习和人工智能技术的迅猛发展,传统的中央处理单元(CPU)和图形处理单元(GPU)已经无法满足高效处理大规模数据和复杂模型的需求。FPGA(现场可编程门阵列)作为一种灵活且高效的硬件加速平台
    的头像 发表于 07-16 15:34 3174次阅读

    任正非说 AI已经确定是第四次工业革命 那么如何从容地加入进来呢?

    处理,TensorFlow、PyTorch用于构建和训练神经网络。以Python为例,通过编写简单的程序来处理数据,如读取数据集、进行数据清洗和预处理,这是进入AI领域的基本技能。 学习机器
    发表于 07-08 17:44

    机器学习赋能的智能光子学器件系统研究与应用

    与应用 在人工智能与光子学设计融合的背景下,科研的边界持续扩展,创新成果不断涌现。从理论模型的整合到光学现象的复杂模拟,从数据驱动的探索到光场的智能分析,机器学习正以前所未有的动力推动光子学领域的革新。据
    的头像 发表于 06-04 17:59 806次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>赋能的智能光子学器件系统研究与应用

    地物光谱仪+林地调查,精准掌握森林生长与病变数据

    高光谱遥感的核心地面工具,正在与林地调查深度融合,为森林监测提供第一手的高精度数据支持。 一、森林调查为何需要地物光谱仪 传统森林调查方法依赖于人工测量,如树高、胸径、物种识别和样方
    的头像 发表于 05-23 15:00 1088次阅读
    地物光谱仪+林地<b class='flag-5'>调查</b>,精准掌握森林生长与病变<b class='flag-5'>数据</b>