0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

又一个数据分析神器并行的计算库——dask横空出现!

人工智能与大数据技术 来源:菜鸟编程大本营 作者:菜鸟编程大本营 2021-06-26 14:34 次阅读

对于数据分析的工具,想必大家都或多或少的有一定的了解,常见的像是numpy和pandas更是大家日常使用的数据分析工具。但是面对大数据的处理时,像是numpy和pandas的在加载数据时,会看到内存用量的飙升,而dask却可以将这些大的数据进行并行计算。

今天小编就带领大家学习一个并行的计算库——dask。dask可以帮助我们并行化处理pandas的DataFrame和numpy的计算,甚至是并行化处理机器学习算法

01.dask库的使用介绍

dask库可以很好的兼容pandas的DataFrame数据和numpy的array数据,此外,像是Sklearn、XGBoost等机器学习库,dask也能够支持。dask的官网(https://dask.org/)对于支持的库有一个全面的展示。

dask库的强大之处在于它拥有丰富的已有库的兼容性,而且只需要改动很少的程序,就可以在自己的电脑上使用并行计算。

02.dask的安装

对于dask库的安装,也非常的简单,大家只需要在anaconda环境下运行conda install dask即可安装。

03.dask库的使用介绍

1).Numpy的array数据dask库对于numpy的array数组操作也非常的简洁。dask是将numpy的数组进行切分,切分成许多的block进行操作,对于小数据来说,可能优势不明显,但是当数据集达到几十G后,就能显示出dask的优势。

上图是利用dask进行array的操作,可以看到dask对于numpy数组的处理与numpy的操作并没有很大的区别,如果对于numpy数组操作熟悉的话,那么上手dask的numpy数组也是非常简单的。

2).Pandas的DataFrame数据

对于DataFrame数据,dask的操作同样与pandas非常的类似。需要注意的是,当求分组的“x“列均值时,dask并没有直接输出结果,而是在运行s的compute()函后,才得到结果,这是与pandas不同的一点。

04.dask的Delayed

对于dask库,Delayed模块是它进行并行计算的核心,delayed 通过将需要计算的任务记录在计算图中,并在之后,将其并行运行在硬件上得到结果。由于不能立即得到结果,所以该模块被称为delayed。对于delayed模块的使用。

可以看到,通过delayed装饰器来修饰函数,在下一个计算框图中定义z的计算,然后通过visualize函数来查看z的计算图,如上图右侧所示。同时可以看到z的计算图只需要不到1ms的时间即可完成。而z值的计算,同样采用z.compute()进行计算即可。

05.对于机器学习算法的支持

对于dask机器学习的应用,可以安装Dask-ML,Dask-ML是将Dask与流行的机器学习库(例如sklearn,XGBoost等)进行结合,提供的并行化机器学习处理库。可以利用pip install dask-ml进行安装。

有兴趣的小伙伴可以安装试一下,用惯了Pandas ,也可以试试换个口味了!

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7026

    浏览量

    89025
  • 函数
    +关注

    关注

    3

    文章

    4331

    浏览量

    62605
  • 机器学习
    +关注

    关注

    66

    文章

    8418

    浏览量

    132627

原文标题:再见Numpy,Pandas!又一个数据分析神器横空出现!

文章出处:【微信号:TheBigData1024,微信公众号:人工智能与大数据技术】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    Mathematica 在数据分析中的应用

    数据分析是现代科学研究和商业决策中不可或缺的部分。随着数据量的爆炸性增长,对数据分析工具的需求也在不断增加。Mathematica,作为
    的头像 发表于 12-26 15:41 55次阅读

    数据可视化与数据分析的关系

    在当今这个信息爆炸的时代,数据无处不在。无论是企业运营、科学研究还是个人决策,我们都需要从海量的数据中提取有价值的信息。数据分析数据可视化作为两
    的头像 发表于 12-06 17:09 341次阅读

    如何使用SQL进行数据分析

    使用SQL进行数据分析强大且灵活的过程,它涉及从数据库中提取、清洗、转换和聚合数据,以便进行进
    的头像 发表于 11-19 10:26 284次阅读

    eda与传统数据分析的区别

    EDA(Exploratory Data Analysis,探索性数据分析)与传统数据分析之间存在显著的差异。以下是两者的主要区别: 分析目的和方法论 EDA 目的 :EDA的主要
    的头像 发表于 11-13 10:52 323次阅读

    为什么选择eda进行数据分析

    数据科学领域,数据分析复杂且多步骤的过程,它涉及到数据的收集、清洗、探索、建模和解释。在这些步骤中,探索性
    的头像 发表于 11-13 10:41 235次阅读

    raid 在大数据分析中的应用

    的具体应用: 、提高性能 并行读写 :RAID技术通过并行读写多个磁盘,可以显著提高数据的读写速度。在大数据分析环境中,
    的头像 发表于 11-12 09:44 249次阅读

    emc技术在大数据分析中的角色

    在当今这个数据驱动的世界中,大数据分析已经成为企业获取洞察力、优化业务流程和提高竞争力的关键工具。随着数据量的爆炸性增长,企业面临着如何有效存储、处理和分析这些
    的头像 发表于 11-01 15:22 282次阅读

    计算在大数据分析中的应用

    计算在大数据分析中的应用广泛且深入,它为用户提供了存储、计算分析和预测的强大能力。以下是对云计算在大
    的头像 发表于 10-24 09:18 453次阅读

    数据分析除了spss还有什么

    Sciences)是款非常流行的统计分析软件,但除了SPSS之外,还有许多其他数据分析工具和方法。 引言 数据分析
    的头像 发表于 07-05 15:01 620次阅读

    数据分析的工具有哪些

    数据分析涉及收集、处理、分析和解释数据以得出有意义见解的过程。在这个过程中,使用正确的工具至关重要。以下是
    的头像 发表于 07-05 14:54 856次阅读

    数据分析有哪些分析方法

    数据分析种重要的技能,它可以帮助我们从大量的数据中提取有价值的信息,从而做出更明智的决策。在这篇文章中,我们将介绍数据分析的各种方法,包括描述性
    的头像 发表于 07-05 14:51 583次阅读

    机器学习在数据分析中的应用

    随着大数据时代的到来,数据量的爆炸性增长对数据分析提出了更高的要求。机器学习作为种强大的工具,通过训练模型从数据中学习规律,为企业和组织提
    的头像 发表于 07-02 11:22 627次阅读

    数据分析平台网站

    数据分析平台是种用于处理和分析大规模数据集的系统,旨在从海量数据中提取有价值的信息和洞察。以下是大
    的头像 发表于 06-28 15:46 668次阅读

    STM32F0xx_HAL_Driver的串口接收数据个数,是不是只能写成1,一个一个数据接收?

    ,uint8_t *pData, uint16_tSize, uint32_tTimeout ) 函数的第三参数是接收数据个数。 问题是: 如果不知道接收数据
    发表于 05-14 06:39

    求助,关于AD采集到的数据分析问题

    问题描述:使用AD采集10Hz到2MHz的脉冲,脉冲底部可能大于零,由采集到的数据分析出该脉冲的上升时间,幅值和占空比。 备注:在分析的时候已经知道脉冲的频率,精度为2X10^-
    发表于 05-09 07:40