0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

帮助我们创建数据科学领域的下一代数据可视化工具

Tableau社区 来源:Tableau社区 作者:ANA CRISAN 2021-03-19 10:11 次阅读

数据科学在过去十年里蓬勃发展,改变了我们的商业模式,同时对于新一代的年轻人来说,提供了一个未来的职业方向。但在数据科学快速发展的同时,人们对它的理解也在逐步演变,这导致了不同的人对于如何更好地从数据中获取洞察有了不同的观点。对于我来说,数据科学的发展重塑了我的职业生涯,接下来我想深入研究数据科学是什么、数据科学的研究工作是什么以及数据科学家是谁等问题。我查阅了大量的文献,将数据科学和数据科学家的各种研究和分析关联汇总到一起,从而试图来回答了这些问题。我在一篇题为 “Passing the Data Baton: A Retrospective Analysis on Data Science Work and Workers” 的研究出版物中说明了以上结果。

这项研究的部分动机是作为未来研究和开发的基础,这样我可能可以找到一个可视化分析工具还未满足其需求的领域。而另一个动机是,我希望对十多年前我刚开始学习计算机科学时还不存在的这个领域进行自我反思和回顾。在这篇文章中,我总结了这篇研究论文的几个关键收获,并分享了这些发现将如何帮助我们创建数据科学领域的下一代数据可视化工具。

什么是数据科学?

数据科学对不同的人来说是不一样的。对某些人来说,数据科学并不是什么新鲜事,只是统计技术的实际应用,并且已经存在了很长一段时间。对其他人来说,数据科学不仅需要统计方法的知识,而且还需要计算技术使这些方法得到应用。例如,一个数据科学家仅仅理解线性回归是不够的,他们还需要知道如何在大规模的数据中应用线性回归——这不是传统统计学教育的一部分。尽管如此,即使是那些认为数据科学不仅仅是应用统计学的人,也可能并不认为它是一件新事物。收集和分析数据的做法,长期以来一直是科学研究的一部分,例如生物学或物理学;许多人认为,数据科学只是经验科学中对已经存在的研究的延伸。

eee32ca0-879b-11eb-8b86-12bb97331649.png

但其实还有第三种观点,即数据科学确实是一件新的事物,既不同于统计学,也不同于科学家在研究原子和基因时使用的方法。数据科学将统计学、计算机科学以及其他必要的学科专业知识结合起来,带来了数据科学所独有的、由数据科学家所应对的全新挑战。此外,数据科学家开展的工作与其他类型的数据分析不同,它需要更广泛的跨学科技能。我们和其他人的研究都认为数据科学确实是一件全新的、不同的事物,基于这点,我们创建了一个关于数据科学的定义,作为我们工作的基础:

数据科学是一个跨学科领域,旨在通过统计和计算技术的结构化应用,从现实世界的数据中得到新的见解。 这一定义很重要,因为它帮助我们了解数据科学工作者面临的挑战和未满足的需求,它们主要来自于处理真实数据的挑战(而不是模拟数据),以及大规模应用统计和计算方法的挑战。

什么是数据科学工作?

efed810e-879b-11eb-8b86-12bb97331649.png

重要的是,数据科学的有效定义缩小了研究范围。我们并没有包含人们可能希望进行研究的所有类型的数据分析,而是仔细研究那些数据科学家进行研究的分析类型。这种区别很重要,因为实验物理学家分析数据所采取的具体步骤与数据科学家可能采取的分析步骤不同,尽管它们有共同点。这就引出了一个重要的后续问题:究竟什么是数据科学的研究工作? 有好几个行业标准来分解数据科学的研究工作。第一种是 KDD(数据发现中的知识)方法,随着时间的推移,其他人会对该方法进行修改和扩展。基于这些推论,以及采访数据科学家,我们创建了一个框架,其中包括四个高阶过程(准备、分析、部署和通信)和 14 个低阶过程。使用红色笔划轮廓,我们还强调了数据可视化在数据科学工作中已经发挥突出作用的具体领域。在我们的研究文章中,我们提供了这些过程的详细定义和示例。

谁是数据科学工作者?

我们在与数据科学家进行的 12 项深入研究中发现了 9 个数据科学角色。这些年来,我听到了许多关于数据科学家的不同看法。我喜欢的一个例子是,数据科学家是“比统计学家更擅长软件工程,比软件工程师更擅长统计学” 的人。我最近听到的一个直白的说法是,数据科学家是“西海岸的统计学家”。

然而,当我们深入研究现有的数据科学家的研究时,我们没想到发现了一个重要且一致的特征,即 “数据科学家” 的多样性以及它们在特定数据科学过程中的作用如何变化。您可能已经注意到数据工程师的崛起,例如,作为一个独特但仍然相邻的数据科学角色。随着数据科学工作的复杂性的增加,数据科学家变得更专业,往往从事数据科学研究工作的具体方面。Harris 等人的访谈早在 2012 年就已经确定了这一趋势,这种趋势只是随着时间的推移而加速。他们敏锐地发现,数据科学角色之间的这种多样性导致了 “数据科学家和寻求帮助的人之间的交流不畅”。

我们根据 Harris 的研究结果,对 12 项研究进行了调查,共有数千名被认定为数据科学家的个体。通过对这些研究的分析,我们能够识别出 9 个不同的数据角色。这些人有不同的技能和背景,我们以统计、计算机科学和领域专业知识为轴心来说明。我们还将以人为中心的设计纳入了我们对数据科学技能的描述,因为考虑到数据产品的影响,就像面部识别应用程序一样,越来越重要。我们要强调的是,这些角色不是绝对的范畴,它们的边界是不固定的,同时这些角色的技术技能也符合类似的规律。相反,提出这些角色类别的目的是提供一个指导,从而帮助研究人员对于正在交谈的人以及他们的背景有一个直观的认识。

这将如何改变我们创建可视化

和数据分析工具的方式?

当然,最重要的是我们对数据科学的定义以及我们的数据科学工作框架和工作人员如何帮助我们构建更好的数据可视化工具。首先也是最重要的一点是,它有助于提供一个清晰的标准,从而明确了数据科学研究工作的多样性和对应的工作人员。我们已经使用这个框架创建了更清晰的标准来分解数据科学中的 Tableau 客户体验。我们可以更精确地确定他们正试图做什么,并可以就这些过程提出更深入的问题。

已知 “数据科学家” 这个角色本身包含了大量的多样性,我们可以通过将与我们交谈的个人归类到九个数据科学的角色,从而更好地确定谁在执行这项工作。这样的分类使得我们更容易理解可视化系统需要支持的任务以及在什么级别上支持这些任务。例如,技术分析员和 ML/AI 工程师是我们描述的两个数据科学角色,他们都可以参与模型构建的共同任务,但需求截然不同;如果我们忽略这些差异,我们就有可能为这两个角色创建错误的工具。

但也许对我来说最重要的是,这个框架还帮助我思考当前可视化分析工具生态系统中缺少的东西。我得出的一个令人担忧的结论是,现有工具对可视化机器学习模型的关注范围很窄,缺乏支持数据科学研究工作的其他关键方面的工具,如数据准备、部署或通信。这种工具的缺乏不仅增加了数据科学研究工作的开销,还使得数据科学家无论担任什么角色,都更难让他们的工作影响到组织的决策和实践。这项关于数据科学工作和工作者的研究帮助我面对以上挑战,同时为构建更好的工具来帮助人们查看和理解他们的数据提供了机会。

原文标题:数据科学的十年回顾与可视化工具的未来

文章出处:【微信公众号:Tableau社区】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    6792

    浏览量

    88725
  • 机器学习
    +关注

    关注

    66

    文章

    8340

    浏览量

    132281

原文标题:数据科学的十年回顾与可视化工具的未来

文章出处:【微信号:TableauChina,微信公众号:Tableau社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    博世Logistics Cockpit软件平台这套神秘引擎把数据可视化玩得很酷

    数据的呈现方式, 你更喜欢哪种?谁会有耐心从密密麻麻的数据中挖掘信息呢?相比之下,图表、趋势图等视觉化呈现更易于理解与分析。 你看,当纷繁复杂的行行数据被 「
    的头像 发表于 08-13 10:40 407次阅读
    博世Logistics Cockpit软件平台这套神秘引擎把<b class='flag-5'>数据</b><b class='flag-5'>可视化</b>玩得很酷

    大屏数据可视化 开源

    在当今信息爆炸的时代,数据已经成为各个行业决策制定和业务发展的关键。为了更直观、准确地理解和利用海量数据, 大屏数据可视化 成为种强大的
    的头像 发表于 06-27 16:06 339次阅读
    大屏<b class='flag-5'>数据</b><b class='flag-5'>可视化</b> 开源

    物联网时代,为什么需要可视化数据大屏

    在互联网和大数据时代,工业领域日益增长的数据量越来越离不开数据分析的支持,可视化数据大屏便是集中
    的头像 发表于 06-18 13:53 295次阅读
    物联网时代,为什么需要<b class='flag-5'>可视化</b><b class='flag-5'>数据</b>大屏

    态势数据可视化技术有哪些

    智慧华盛恒辉态势数据可视化技术是种将数据以图形、图像、动画等视觉形式展现出来的技术,特别是在处理和分析态势数据时,该技术能够将复杂的
    的头像 发表于 06-11 15:47 322次阅读

    智慧大屏是如何实现数据可视化的?

    智慧大屏,作为数据可视化的重要载体,已在城市管理、交通监控、商业运营等领域广泛应用。本文旨在阐述智慧大屏实现数据可视化的关键技术和方法,包括
    的头像 发表于 06-04 15:02 514次阅读
    智慧大屏是如何实现<b class='flag-5'>数据</b><b class='flag-5'>可视化</b>的?

    大屏数据可视化的作用和意义

    大屏数据可视化则是将这些数据以更加直观、易懂的方式展现出来,帮助用户快速做出决策、发现问题、分析趋势,具有重要的作用和意义。 大屏数据
    的头像 发表于 06-03 17:56 591次阅读

    大屏数据可视化是什么?运用了什么技术

    大屏数据可视化种利用大屏幕设备展示数据可视化结果的技术,旨在以更生动、直观的方式呈现数据
    的头像 发表于 05-24 15:35 770次阅读

    东盟能源和华为主编的《东盟下一代数据中心建设白皮书》正式发布

    2024年5月17日,在2024全球数据中心产业论坛上,由东盟能源中心(ASEAN Center for Energy)和华为主编的《东盟下一代数据中心建设白皮书》(以下简称《白皮书》)重磅发布,旨在推动东盟数据中心产业加快绿色
    的头像 发表于 05-19 14:19 732次阅读
    东盟能源和华为主编的《东盟<b class='flag-5'>下一代数据</b>中心建设白皮书》正式发布

    贼拉好用的个嵌入式数据可视化工具

    相关内容。SerialStudio概述SerialStudio从名称就可以看的出来,它是款串口(Serial)可视化(Studio)工具:主要用于嵌入式开发者的跨平台数据
    的头像 发表于 03-07 08:09 442次阅读
    贼拉好用的<b class='flag-5'>一</b>个嵌入式<b class='flag-5'>数据</b><b class='flag-5'>可视化工具</b>

    个嵌入式数据可视化工具——Serial Studio

    Serial Studio从名称就可以看的出来,它是款串口(Serial)可视化(Studio)工具:主要用于嵌入式开发者的跨平台数据可视化工具
    的头像 发表于 03-04 10:12 5441次阅读

    数据可视化的未来:2024 年及以后

    随着我们进入数据驱动决策的下一个时代,数据可视化领域即将迎来
    的头像 发表于 01-25 11:52 456次阅读

    芯原推出面向下一代数据中心的全新VC9800系列IP

    包括视频转码服务器、AI服务器、云桌面和云游戏等在内的下一代数据中心的先进需求。 VC9800系列视频处理器IP具备高性能、高吞吐量和服务器级别的多码流编解码能力,可支持最高256路码流,并兼容所有的主流视频格式,包括新一代先进格式VVC等。该系列IP可通过快
    的头像 发表于 01-09 13:18 343次阅读

    键生成可视化图表/大屏 这13款数据可视化工具很强大

    选择何种数据可视化工具。那么你来对地方了,往下看。 什么是数据可视化? 数据可视化
    的头像 发表于 12-19 17:27 5021次阅读
    <b class='flag-5'>一</b>键生成<b class='flag-5'>可视化</b>图表/大屏 这13款<b class='flag-5'>数据</b><b class='flag-5'>可视化工具</b>很强大

    有奖问卷 | 下一代开发工具,由你定义!

    我们正在进行项关于下一代开发者体验的研究,旨在深入了解和优化未来的开发工作流程和工具。在全部数据回收后, 将抽取
    的头像 发表于 12-15 15:50 382次阅读

    Molex莫仕Mirror Mezz Pro屡获殊荣,为下一代数据中心提供224G解决方案

    Mirror Mezz Pro和Mirror Mezz Enhanced 高速扣板连接器荣获物联网年度产品奖。 为下一代人工智能(AI)和高密度应用的下一代数据中心提供多种创新性能优势。 近日,由
    的头像 发表于 11-09 15:05 1370次阅读
    Molex莫仕Mirror Mezz Pro屡获殊荣,为<b class='flag-5'>下一代数据</b>中心提供224G解决方案