0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

又一个数据分析神器并行的计算库——dask横空出现!

人工智能与大数据技术 来源:菜鸟编程大本营 作者:菜鸟编程大本营 2021-06-26 14:34 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

对于数据分析的工具,想必大家都或多或少的有一定的了解,常见的像是numpy和pandas更是大家日常使用的数据分析工具。但是面对大数据的处理时,像是numpy和pandas的在加载数据时,会看到内存用量的飙升,而dask却可以将这些大的数据进行并行计算。

今天小编就带领大家学习一个并行的计算库——dask。dask可以帮助我们并行化处理pandas的DataFrame和numpy的计算,甚至是并行化处理机器学习算法

01.dask库的使用介绍

dask库可以很好的兼容pandas的DataFrame数据和numpy的array数据,此外,像是Sklearn、XGBoost等机器学习库,dask也能够支持。dask的官网(https://dask.org/)对于支持的库有一个全面的展示。

dask库的强大之处在于它拥有丰富的已有库的兼容性,而且只需要改动很少的程序,就可以在自己的电脑上使用并行计算。

02.dask的安装

对于dask库的安装,也非常的简单,大家只需要在anaconda环境下运行conda install dask即可安装。

03.dask库的使用介绍

1).Numpy的array数据dask库对于numpy的array数组操作也非常的简洁。dask是将numpy的数组进行切分,切分成许多的block进行操作,对于小数据来说,可能优势不明显,但是当数据集达到几十G后,就能显示出dask的优势。

上图是利用dask进行array的操作,可以看到dask对于numpy数组的处理与numpy的操作并没有很大的区别,如果对于numpy数组操作熟悉的话,那么上手dask的numpy数组也是非常简单的。

2).Pandas的DataFrame数据

对于DataFrame数据,dask的操作同样与pandas非常的类似。需要注意的是,当求分组的“x“列均值时,dask并没有直接输出结果,而是在运行s的compute()函后,才得到结果,这是与pandas不同的一点。

04.dask的Delayed

对于dask库,Delayed模块是它进行并行计算的核心,delayed 通过将需要计算的任务记录在计算图中,并在之后,将其并行运行在硬件上得到结果。由于不能立即得到结果,所以该模块被称为delayed。对于delayed模块的使用。

可以看到,通过delayed装饰器来修饰函数,在下一个计算框图中定义z的计算,然后通过visualize函数来查看z的计算图,如上图右侧所示。同时可以看到z的计算图只需要不到1ms的时间即可完成。而z值的计算,同样采用z.compute()进行计算即可。

05.对于机器学习算法的支持

对于dask机器学习的应用,可以安装Dask-ML,Dask-ML是将Dask与流行的机器学习库(例如sklearn,XGBoost等)进行结合,提供的并行化机器学习处理库。可以利用pip install dask-ml进行安装。

有兴趣的小伙伴可以安装试一下,用惯了Pandas ,也可以试试换个口味了!

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7347

    浏览量

    95005
  • 函数
    +关注

    关注

    3

    文章

    4421

    浏览量

    67822
  • 机器学习
    +关注

    关注

    67

    文章

    8561

    浏览量

    137208

原文标题:再见Numpy,Pandas!又一个数据分析神器横空出现!

文章出处:【微信号:TheBigData1024,微信公众号:人工智能与大数据技术】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    MySQL数据库慢查询分析与优化实战

    在讨论MySQL慢查询之前,需要先明确关键前提:什么是慢查询? 不同业务场景下,慢查询的定义差异巨大。个数据报表后台的SQL执行30秒可能属于正常范围,但
    的头像 发表于 04-02 09:38 153次阅读

    API数据分析:淘宝流量来源分析,渠道优化!

    优化渠道策略。我们将使用Python作为工具,结合数据分析和统计方法,确保过程真实可靠。 1. 理解淘宝流量来源 淘宝流量主要来自多个渠道,包括: 直接访问 :用户直接输入淘宝网址或从收藏夹访问。 搜索引擎 :如百度或淘宝内搜索,贡献
    的头像 发表于 01-23 13:42 362次阅读
    API<b class='flag-5'>数据分析</b>:淘宝流量来源<b class='flag-5'>分析</b>,渠道优化!

    利用拼多多用户API进行粉丝数据分析,有效提升用户粘性

    这些API进行粉丝数据分析,并基于分析结果制定增强用户粘性的策略。 、 拼多多用户API概览 拼多多开放平台提供了丰富的API接口,涵盖商品、交易、用户、物流等多个维度。对于粉丝数据分析
    的头像 发表于 12-30 10:38 360次阅读
    利用拼多多用户API进行粉丝<b class='flag-5'>数据分析</b>,有效提升用户粘性

    淘宝数据分析API:用户行为洞察,精准营销决策!

    。本文将探讨如何利用这些API实现用户行为的深度洞察,并转化为实际的营销价值。 、用户行为数据的价值:从流量到洞察 用户进入店铺或浏览商品的每一个动作,都蕴含着丰富的信息。传统的数据分析
    的头像 发表于 12-25 14:12 393次阅读
    淘宝<b class='flag-5'>数据分析</b>API:用户行为洞察,精准营销决策!

    串行通讯与并行通讯介绍

    、16、32及64根或更多的数据线进行传输的通讯方式,并行通讯就像多个车道的公路, 可以同时传输多个数据位的数据,而串行通讯,而串行通讯就像单个车道的公路,同
    发表于 12-11 06:52

    经营数据分析可以通过哪些方式

    套系统的、科学的、符合商业规律的数据分析知识。这些数据分析都要基于数据质量,所以通常我们还会需要有个数据质量管理的相关体系来配合。  经营
    的头像 发表于 12-05 16:31 722次阅读

    广立微DE-G零断档重构智能数据分析

    近日,数据分析领域被则消息推上风口浪尖:家老牌软件巨头将撤出中国。在此背景下,其旗下以灵活著称的数据分析软件,在中国市场的未来将面临极大的不确定性。
    的头像 发表于 11-07 10:39 790次阅读

    电能质量分析软件可以提供哪些数据分析功能?

    电能质量分析软件通过对电力系统的实时数据采集和深度算法处理,可提供覆盖 “稳态指标评估、暂态事件溯源、故障预测诊断、合规性验证” 全链条的数据分析功能。以下结合行业标准与前沿工具(如福禄克、华盛昌
    的头像 发表于 10-10 17:12 929次阅读

    普迪飞 Exensio®数据分析平台 | Test Operations解锁半导体测试新纪元

    TestOperations是Exensio数据分析平台的四主要模块之。T-Ops模块旨在帮助集成器件制造商(IDM)、无晶圆厂半导体公司(Fabless)和外包半导体(产品)封测厂(OSAT
    的头像 发表于 08-19 13:53 1615次阅读
    普迪飞 Exensio®<b class='flag-5'>数据分析</b>平台 | Test Operations解锁半导体测试新纪元

    如何通过数据分析识别设备故障模式?

    通过数据分析识别设备故障模式,本质是从声振温等多维数据中提取故障特征,建立 “数据特征 - 故障类型” 的映射关系,核心可通过特征提取、模式匹配、趋势分析三步实现,精准定位故障根源与发
    的头像 发表于 08-19 11:14 1099次阅读
    如何通过<b class='flag-5'>数据分析</b>识别设备故障模式?

    Oracle数据恢复—格式化分区导致Oracle数据库报错的数据恢复案例

    台服务器上一个分区存放Oracle数据库数据。由于管理员误操作不小心删除了该分区,数据库报错,无法使用。 北亚企安
    的头像 发表于 07-22 14:06 519次阅读
    Oracle<b class='flag-5'>数据</b>恢复—格式化分区导致Oracle<b class='flag-5'>数据库</b>报错的<b class='flag-5'>数据</b>恢复案例

    构建自定义电商数据分析API

      在电商业务中,数据是驱动决策的核心。随着数据量的增长,企业需要实时、灵活的分析工具来监控销售、用户行为和库存等指标。自定义电商
    的头像 发表于 07-17 14:44 718次阅读
    构建自定义电商<b class='flag-5'>数据分析</b>API

    AI数据分析仪设计原理图:RapidIO信号接入 平板AI数据分析

    AI数据分析仪, 平板数据分析仪, 数据分析仪, AI边缘计算, 高带宽数据输入
    的头像 发表于 07-17 09:20 854次阅读
    AI<b class='flag-5'>数据分析</b>仪设计原理图:RapidIO信号接入 平板AI<b class='flag-5'>数据分析</b>仪

    如何使用协议分析仪进行数据分析与可视化

    使用协议分析仪进行数据分析与可视化,需结合数据捕获、协议解码、统计分析及可视化工具,将原始数据转化为可解读的图表和报告。以下是详细步骤及关键
    发表于 07-16 14:16

    东芝24TB超大容量CMR硬盘评测

    大模型的横空出世不仅改变了计算行业,也深刻影响了存储行业。
    的头像 发表于 07-10 09:46 2762次阅读
    东芝24TB超大容量CMR硬盘评测