0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用Dask和NVIDIA推动无障碍加速分析

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-04-20 15:48 次阅读

在 NVIDIA ,我们正在推动数据科学、机器学习人工智能的变革。推动我们前进的一些主要趋势如下:

Python 作为最常用的数据分析语言的崛起

对高可用性分布式计算的需求增加

需要更多的计算能力

开源软件成为业界主流

这些趋势的交叉点是 达斯克。 ,一个开源库,旨在为现有的 Python 堆栈提供并行性。在这篇文章中,我们将讨论 Dask ,它是什么,我们如何在 NVIDIA 中使用它,以及为什么它在大型企业中有如此大的潜力。最后,我们强调了对企业 Dask 支持的日益增长的需求,以及像 盘绕 、 水蟒 和 全视距 这样的公司正在满足小型和大型客户的需求。

Dask :应对伸缩 Python 的历史挑战

蟒蛇很慢。 Python 最初是由 Guido Van Rossum 在 1989 年作为一个假日爱好项目开发的,它并不打算处理它今天在一些计算量最大的组织中所做的 tb 级生产工作负载。怎么搞的?

Python 是一种高度可用的语言,它将 Fortran 和 CUDA 等高性能语言和 api 与轻量级、用户友好的 api 相连接。通过将可访问性与性能相结合,它已被科学家、主题专家和其他可能没有传统计算机科学背景的数据从业人员所采用。成功的项目如 NumPy 、 学习工具 scikit ,尤其是 [ZBK5 号] 改变了我们对数据科学和机器学习的可访问性的看法。

在大数据用例变得如此流行之前,这些项目并没有一个强大的并行解决方案。 Python 是单核计算的选择,但是用户不得不为多核或多机器并行寻找其他解决方案。这导致了用户体验的中断和挫折感。

许多伟大的开发人员试图解决这种挫折。类似 Hadoop 的 mrjob 和 Apache 的 PySpark 这样的库允许您将计算与 Python 并行化,但用户体验与 NumPy 、 pandas 和 scikit Learning 等收藏夹的体验不同。这就创建了一种模式,工作必须两次完成:在 pandas 中开发您的想法,然后在 PySpark 和 MLlib 公司 中重构,以实现规模化工作。通常,这项工作由两个独立的团队完成,在不同团队通信以排除错误时,会减慢部署速度并创建开销。

输入 Dask 。 这种在 Python 中扩展工作负载的日益增长的需求导致了 Dask 在过去五年中的自然增长。同样受到 web 开发人员的欢迎, Python 有一个健壮的网络栈, Dask 利用它来构建一个灵活、高效、分布式的计算系统,能够扩展各种工作负载。 Dask 的灵活性有助于它在其他大数据解决方案(如 Hadoop 或 ApacheSpark )中脱颖而出。其对本机代码的支持使得它特别容易用于 Python 用户和 C / C ++ +/ CUDA 开发人员。

Dask 很快被 Python 开发人员社区采用。今天, Dask 是由一个开发人员社区管理的,他们跨越了几十个机构和 PyData 项目,比如 pandas 、 Jupyter 和 scikitlearn 。 Dask 与这些流行工具的集成使得采用率迅速上升,在需要 Pythonic 大数据工具的开发人员中,采用率约为 20% 。

poYBAGJfuwqAQLGAAABhYMnv58A493.png

图 1 Python 开发人员使用的大数据工具(》 100%

Dask 和 NVIDIA :推动无障碍加速分析

NVIDIA 了解 GPUs 提供给数据分析的能力。这就是为什么我们一直在努力帮助你从数据中获得最大的信息。在了解 Dask 的强大功能和可访问性之后,我们开始在 RAPIDS 项目上使用 Dask ,目标是将加速数据分析工作负载水平扩展到多个 GPUs 和 GPU – 系统。

由于可访问的 Python 接口和数据科学以外的多功能性, Dask 在整个 NVIDIA 中扩展到其他项目,成为从解析 JSON 到管理端到端深度学习工作流的新应用程序的自然选择。以下是我们使用 Dask 的许多正在进行的项目和合作中的一些。

RAPIDS

RAPIDS 是一套开源软件库和 api ,用于完全在 GPUs 上执行数据科学管道,通常将培训时间从几天缩短到几分钟。基于 NVIDIA CUDA -X AI , RAPIDS 结合了多年来在图形、机器学习、高性能计算( HPC )等领域的发展。

虽然 CUDA -X 的功能非常强大,但大多数数据分析从业者更喜欢使用 Python 工具集(如 NumPy 、 pandas 和 scikit learn )进行实验、构建和培训模型。 Dask 是 RAPIDS 生态系统的重要组成部分,通过基于 Python 的舒适用户体验,使您更容易利用加速计算。

NVTabular

NVTabular 是一个功能工程和预处理库,旨在快速、轻松地操作 TB 的表格数据集。它建立在 Dask-cuDF 库之上,提供了一个高级抽象层,简化了大规模高性能 ETL 操作的创建。通过使用 RAPIDS 和 Dask , NVTabular 可以扩展到数千个 GPUs ,消除了等待 ETL 进程完成的瓶颈。

BlazingsQL

BlazingsQL 是 GPUs 上的一个非常快速的分布式 SQL 引擎,也是基于 Dask-cuDF 构建的。它使数据科学家能够轻松地将大型数据湖连接到 GPU —加速分析 。只需几行代码,就可以在 HDFS 和 Amazon S3 这样的数据湖中直接查询原始文件格式,如 CSV 和 apacheparquet ,然后直接将结果导入 GPU 内存。

BlazingDB , Inc 。是 BlazingSQL 背后的公司,是 RAPIDS 的核心贡献者,并与 NVIDIA 进行了大量合作。

库斯特里姆

在 NVIDIA ,我们在内部使用 Dask 为我们的部分产品和业务运营提供燃料。使用 斯特雷姆兹 、 Dask 和 RAPIDS ,我们构建了 库斯特里姆 ,一个使用 100% 原生 Python 的加速流数据平台。有了 cuStreamz ,我们可以对一些最苛刻的应用程序进行实时分析,比如 GeForce NOW 、 NVIDIA GPU Cloud ( NGC )和 NVIDIA Drive SIM 。虽然这是一个年轻的项目,但我们已经看到使用支持 Dask 的 cuStreamz 的其他流媒体数据平台的总体拥有成本显著降低。

Dask 和 RAPIDS :促进企业创新

许多公司都在采用 Dask 和 RAPIDS 来扩展其一些最重要的业务。 NVIDIA 的一些最大的合作伙伴,行业的领导者,正在使用 Dask 和 RAPIDS 来支持他们的数据分析。下面是一些最近令人兴奋的例子。

大写一

Capital One 以“改变银行业为己任”,在大规模数据分析方面投入巨资,为客户提供更好的产品和服务,提高整个企业的运营效率。借助一个对 Python 友好的大型数据科学家社区, 大写一使用 Dask 和 RAPIDS 可以扩展和加速传统上难以并行化的 Python 工作负载,并显著减少大数据分析的学习曲线。

国家能源研究科学计算中心

致力于为基础科学研究提供计算资源和专业知识, NERSC 是通过计算加速科学发现的世界领先者。这项任务的一部分是让研究人员能够使用超级计算机来推动科学探索。有了 Dask 和 RAPIDS , 他们最新的超级计算机“ Perlmutter ” 的不可思议的功能就可以很容易地被那些在超级计算方面背景有限的研究人员和科学家所利用。通过使用 Dask 创建一个熟悉的界面,他们将超级计算的能力交给了科学家,推动了跨领域的潜在突破。

橡树岭国家实验室

在全球大流行的情况下,橡树岭国家实验室( ORNL )正在通过建立一个“虚拟实验室”来推动创新的边界,以对抗 COVID-19 的药物发现。 使用 Dask 、 RAPIDS 、 BlazingSQL 和 NVIDIA GPUs , 研究人员可以利用他们笔记本电脑上的 Summit 超级计算机来筛选小分子化合物,以确定它们与 SARS-CoV-2 主要蛋白酶结合的能力。有了这样一个灵活的工具集,工程师们能够在不到两周的时间内启动并运行这个定制的工作流,并且可以看到次秒级的查询结果。

沃尔玛实验室

作为零售业的巨头,沃尔玛利用大量的数据集来更好地为客户服务,预测产品需求,提高内部效率。依靠大规模数据分析来实现这些目标, 沃尔玛实验室转向了达斯克、 XGBoost 和 RAPIDS 可将培训时间减少 100 倍,从而实现快速模型迭代和精度改进,以进一步推动其业务。利用 Dask ,他们向数据科学家开放了 NVIDIA GPUs 的能力,以解决他们最棘手的问题。

企业中的达斯克:一个成长中的市场

虽然企业中的实践者通常很容易尝试开源软件,但在生产中使用该软件则更具挑战性。随着新兴的、有希望的开源技术,企业可能会推出自己的部署来解决现实世界中的业务问题。随着开源软件的成熟和发展,公司纷纷涌现,开始满足企业级部署、集成和支持的需求。

随着其在大型机构中的日益成功,我们已经开始看到更多的公司满足企业对 Dask 产品和服务的需求。以下是一些正在满足企业需求的公司,标志着一个成熟市场的开始。

水蟒

与 SciPy 生态系统的一大部分一样, Dask 从 水蟒公司, 开始,在那里它获得了发展,并逐渐发展成为一个更大的开源社区。随着社区的发展和企业开始采用 Dask , Anaconda 开始提供咨询服务、培训和开源支持,以简化企业的使用。作为开源软件的主要支持者, Anaconda 还雇佣了许多 Dask 维护人员,为企业客户提供了对软件的深入理解。

盘绕

由 Dask 项目负责人和前 NVIDIA 员工 Matthew Rocklin 等 Dask 维护人员创建, 盘绕 提供了一个围绕 Dask 的托管解决方案,使其在云环境和企业环境中都变得容易,同时还提供企业支持,帮助优化机构内的 Python 分析。最近 正式发布 ,他们的 公共托管托管部署产品 为今天使用 Dask 和 RAPIDS 提供了一种既健壮又直观的方法。

全视距

致力于帮助企业从其数据中创造价值, 全视距 提供多种服务,推动跨行业的数据分析。与 Anaconda 一样, Quansight 为使用 Dask 的企业提供咨询服务和培训。 Quansight 拥有 PyData 和 NumFOCUS 生态系统,它还为需要在开源软件中进行增强或缺陷修复的企业提供支持。

结论

Dask 是一个功能强大且可访问的开源项目,它允许数据分析从业者轻松地扩展 Python 工作负载。由于它的承诺和易用性, Dask 已经在数据科学家中引起了极大的兴趣,并且开始在企业环境中显示出惊人的结果。在 NVIDIA 上,我们相信 Dask 的变革能力,我们将其作为 RAPIDS 套件中的一个主要组件根深蒂固,允许通过 Python 接口访问加速计算的能力。

随着 Dask 的不断成熟,我们开始看到越来越多的公司满足对 Dask 管理部署和对企业支持的需求。这一成熟标志着数据分析行业的重大进步,推动更广泛的受众获得可访问的高性能分析,并使改变游戏规则、数据驱动的创新成为必然。

关于作者

Jacob Schmitt 是 NVIDIA 企业数据科学产品团队的产品营销经理,他帮助企业用户连接到强大的数据科学解决方案。在加入 NVIDIA 之前,他是 Capital One 机器学习中心的产品经理,推动了诸如 Dask 和 RAPIDS 等强大开源库的采用和扩展。

Matthew Rocklin 是 Coiled 的首席执行官,这家公司使 Python 更容易扩展以解决数据科学和机器学习问题。 Matt 还是一个长期的开源维护者,特别关注 Dask 。在开始盘绕之前,马特带领 Dask + RAPIDS 团队进入 NVIDIA 。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4949

    浏览量

    102839
  • 机器学习
    +关注

    关注

    66

    文章

    8382

    浏览量

    132455
收藏 人收藏

    评论

    相关推荐

    NVIDIA加速全球大多数超级计算机推动科技进步

    HPCwire 读者和编辑选择奖。 自 2006 年发布 CUDA 以来,NVIDIA 不断推动 AI 和加速计算的进步,最新发布的全球最强超级计算机 TOP500 榜单突显了该公司在超算领域取得的瞩目成就
    的头像 发表于 11-24 14:38 246次阅读
    <b class='flag-5'>NVIDIA</b><b class='flag-5'>加速</b>全球大多数超级计算机<b class='flag-5'>推动</b>科技进步

    NVIDIA加速计算如何推动医疗健康

    近日,NVIDIA 企业平台副总裁 Bob Pette 在 AI Summit 一场演讲中重点谈论了 NVIDIA 加速计算如何推动医疗健康、网络安全和制造等行业实现转型。他表示,
    的头像 发表于 11-20 09:10 236次阅读

    日本企业借助NVIDIA产品加速AI创新

    日本领先企业和大学正在使用 NVIDIA NeMo、NIM 微服务和 NVIDIA Isaac 加速 AI 创新。
    的头像 发表于 11-19 14:34 220次阅读

    HarmonyOS NEXT应用元服务开发标注屏幕朗读内容的场景

    控件包含显示文本(text)、无障碍文本(accessibilityText)2个属性,其中,显示文本为用户界面上呈现的信息,无障碍文本为无障碍专有的朗读信息,不在界面上显示。屏幕朗读提取信息进行
    发表于 10-12 15:52

    开发者大会成功举办 vivo用科技搭建人与数字世界的无障碍桥梁

    盲人协会主席李庆忠出席论坛,与资深用户、合作伙伴们分享vivo信息无障碍建设最新成果,共同展望信息无障碍美好未来。 vivo副总裁、vvQ AI全球研究院院长周围与中国残疾人联合会理事,中国盲人协会主席李庆忠出席论坛 以科技创新推动
    发表于 10-12 14:18 114次阅读
    开发者大会成功举办 vivo用科技搭建人与数字世界的<b class='flag-5'>无障碍</b>桥梁

    HarmonyOS NEXT应用元服务开发Accessibility(信息无障碍)介绍

    Accessibility(信息无障碍),是指任何人在任何情况下都能平等、方便地获取信息并利用信息。其目的是缩小全社会不同阶层、不同地区、不同年龄、不同健康状况的人群在信息理解、信息交互、信息利用
    发表于 10-09 10:29

    NVIDIA加速计算和生成式AI领域的创新

    在最新发布的公司 2024 财年可持续发展报告开篇的一封信中,NVIDIA 创始人兼首席执行官黄仁勋介绍了 NVIDIA加速计算和生成式 AI 领域的创新,以及 AI 技术在提高生产力、减少浪费和节约能源方面的潜力。他坚信,
    的头像 发表于 09-09 09:18 505次阅读

    华为致力于推动无障碍技术发展

    的智能生活新纪元。这场聚焦前沿科技的盛会并未止步于技术的展示,而是进一步拓展至人文情怀与平等包容,用一场“湖畔对谈”无障碍活动以及TECH4ALL数字包容展馆,为我们呈现了一次科技与人文的对话。   今年已经是第三年,华为在HDC现场举办与华为无障碍用户交流
    的头像 发表于 06-29 16:13 698次阅读

    鸿蒙ArkTS声明式开发:跨平台支持列表【无障碍属性】 通用属性

    组件可以设置相应的无障碍属性和事件来更好地使用无障碍能力。
    的头像 发表于 06-11 17:30 372次阅读
    鸿蒙ArkTS声明式开发:跨平台支持列表【<b class='flag-5'>无障碍</b>属性】 通用属性

    革命性的图形分析NVIDIA cuGraph 加速的下一代架构

    在我们的 先前的图分析探索 中,我们使用 NVIDIA cuGraph 揭示了 GPU-CPU 融合的变革力量。基于这些见解,我们现在引入了一种革命性的新架构,它重新定义了图处理的边界。 图形处理
    的头像 发表于 06-04 17:54 7514次阅读
    革命性的图形<b class='flag-5'>分析</b>: <b class='flag-5'>NVIDIA</b> cuGraph <b class='flag-5'>加速</b>的下一代架构

    交通运输部大力推广适老化无障碍交通服务

    4月3日,交通运输部发布了关于2024年适老化无障碍交通出行服务扩容提质增效的实施方案。方案明确了出租车电动召回和网络预约车辆的“一键召唤”服务要在地级市以上的所有城市实现全区覆盖;
    的头像 发表于 04-03 16:15 875次阅读

    基于STM32H743IIT6开发的代码,是否能不经修改无障碍地运行在STM32H753IIT6上?

    基于 STM32H743IIT6 开发的代码,是否能不经修改无障碍地运行在STM32H753IIT6上?
    发表于 03-29 06:19

    苹果iOS 18和macOS 15无障碍功能升级

    Adaptive Voice Shortcuts功能可让用户把独特的口语短语绑定到无障碍设定中。用户能自行设定定制化短语,只需讲述这段话便能启动他们所需的辅助功能设置; 例如VoiceOver,语音控制,缩放等诸多现有辅助功能都能用此方法进行快速切换。
    的头像 发表于 03-08 11:08 683次阅读

    2023“科技无障碍”不谈价值观

    “实用”只是无障碍改造的第一步
    的头像 发表于 12-06 09:35 875次阅读
    2023“科技<b class='flag-5'>无障碍</b>”不谈价值观

    NVIDIA 初创加速计划 Omniverse 加速

    新的 AI 技术和迅速发展的应用正在改变各行各业,生成式 AI 已经展示出在艺术、设计、影视动画、互娱、建筑等领域加速内容创作的价值,助力实现高质量、高效率、多样化的内容生产,成为推动数字生产力变革
    的头像 发表于 12-04 20:35 622次阅读
    <b class='flag-5'>NVIDIA</b> 初创<b class='flag-5'>加速</b>计划 Omniverse <b class='flag-5'>加速</b>营