0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

盘点Pandas的100个常用函数

数据分析与开发 来源:数据分析1480 作者:刘顺祥 2021-04-01 09:52 次阅读

经过一段时间的整理,本期将分享我认为比较常规的100个实用函数,这些函数大致可以分为六类,分别是统计汇总函数、数据清洗函数、数据筛选、绘图与元素级运算函数、时间序列函数和其他函数。

一、统计汇总函数数据分析过程中,必然要做一些数据的统计汇总工作,那么对于这一块的数据运算有哪些可用的函数可以帮助到我们呢?具体看如下几张表。

96410908-9247-11eb-8b86-12bb97331649.png

96624186-9247-11eb-8b86-12bb97331649.png

import pandas as pd import numpy as np x = pd.Series(np.random.normal(2,3,1000)) y = 3*x + 10 + pd.Series(np.random.normal(1,2,1000)) # 计算x与y的相关系数 print(x.corr(y)) # 计算y的偏度 print(y.skew()) # 计算y的统计描述值 print(x.describe()) z = pd.Series([‘A’,‘B’,‘C’]).sample(n = 1000, replace = True) # 重新修改z的行索引 z.index = range(1000) # 按照z分组,统计y的组内平均值 y.groupby(by = z).aggregate(np.mean)

968a6328-9247-11eb-8b86-12bb97331649.png

96a9b8b8-9247-11eb-8b86-12bb97331649.jpg

# 统计z中个元素的频次 print(z.value_counts()) a = pd.Series([1,5,10,15,25,30]) # 计算a中各元素的累计百分比 print(a.cumsum() / a.cumsum()[a.size - 1])

96cea812-9247-11eb-8b86-12bb97331649.png

二、数据清洗函数同样,数据清洗工作也是必不可少的工作,在如下表格中罗列了常有的数据清洗的函数。

96e2916a-9247-11eb-8b86-12bb97331649.jpg

x = pd.Series([10,13,np.nan,17,28,19,33,np.nan,27]) #检验序列中是否存在缺失值 print(x.hasnans) # 将缺失值填充为平均值 print(x.fillna(value = x.mean())) # 前向填充缺失值 print(x.ffill())

96f12176-9247-11eb-8b86-12bb97331649.png

96f9eba8-9247-11eb-8b86-12bb97331649.png

income = pd.Series([‘12500元’,‘8000元’,‘8500元’,‘15000元’,‘9000元’]) # 将收入转换为整型 print(income.str[:-1].astype(int)) gender = pd.Series([‘男’,‘女’,‘女’,‘女’,‘男’,‘女’]) # 性别因子化处理 print(gender.factorize()) house = pd.Series([‘大宁金茂府 | 3室2厅 | 158.32平米 | 南 | 精装’, ‘昌里花园 | 2室2厅 | 104.73平米 | 南 | 精装’, ‘纺大小区 | 3室1厅 | 68.38平米 | 南 | 简装’]) # 取出二手房的面积,并转换为浮点型 house.str.split(‘|’).str[2].str.strip().str[:-2].astype(float)

9740314e-9247-11eb-8b86-12bb97331649.png

三、数据筛选数据分析中如需对变量中的数值做子集筛选时,可以巧妙的使用下表中的几个函数,其中部分函数既可以使用在序列身上,也基本可以使用在数据框对象中。

976a23fa-9247-11eb-8b86-12bb97331649.png

np.random.seed(1234) x = pd.Series(np.random.randint(10,20,10)) # 筛选出16以上的元素 print(x.loc[x 》 16]) print(x.compress(x 》 16)) # 筛选出13~16之间的元素 print(x[x.between(13,16)]) # 取出最大的三个元素 print(x.nlargest(3)) y = pd.Series([‘ID:1 name:张三 age:24 income:13500’, ‘ID:2 name:李四 age:27 income:25000’, ‘ID:3 name:王二 age:21 income:8000’]) # 取出年龄,并转换为整数 print(y.str.findall(‘age:(d+)’).str[0].astype(int))

97983e3e-9247-11eb-8b86-12bb97331649.png

四、绘图与元素级函数

97adf68e-9247-11eb-8b86-12bb97331649.png

np.random.seed(123) import matplotlib.pyplot as plt x = pd.Series(np.random.normal(10,3,1000)) # 绘制x直方图 x.hist() # 显示图形 plt.show() # 绘制x的箱线图 x.plot(kind=‘box’) plt.show() installs = pd.Series([‘1280万’,‘6.7亿’,‘2488万’,‘1892万’,‘9877’,‘9877万’,‘1.2亿’]) # 将安装量统一更改为“万”的单位 def transform(x): if x.find(‘亿’) != -1: res = float(x[:-1])*10000 elif x.find(‘万’) != -1: res = float(x[:-1]) else: res = float(x)/10000 return res installs.apply(transform)

97fc5bbc-9247-11eb-8b86-12bb97331649.png

981dfbdc-9247-11eb-8b86-12bb97331649.png

983ede6a-9247-11eb-8b86-12bb97331649.png

五、时间序列函数

98644f1a-9247-11eb-8b86-12bb97331649.png

987f2696-9247-11eb-8b86-12bb97331649.png

98daee0e-9247-11eb-8b86-12bb97331649.png

六、其他函数

9912aa10-9247-11eb-8b86-12bb97331649.png

import numpy as np import pandas as pd np.random.seed(112) x = pd.Series(np.random.randint(8,18,6)) print(x) # 对x中的元素做一阶差分 print(x.diff()) # 对x中的元素做降序处理 print(x.sort_values(ascending = False)) y = pd.Series(np.random.randint(8,16,100)) # 将y中的元素做排重处理,并转换为列表对象 y.unique().tolist()

9955e87a-9247-11eb-8b86-12bb97331649.png

9977d3ae-9247-11eb-8b86-12bb97331649.png

原文标题:100 个 pandas 数据分析函数总结

文章出处:【微信公众号:数据分析与开发】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 函数
    +关注

    关注

    3

    文章

    4329

    浏览量

    62576

原文标题:100 个 pandas 数据分析函数总结

文章出处:【微信号:DBDevs,微信公众号:数据分析与开发】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    RAPIDS cuDF将pandas提速近150倍

    在 NVIDIA GTC 2024 上,NVIDIA 宣布,RAPIDS cuDF 当前已能够为 950 万 pandas 用户带来 GPU 加速,且无需修改代码。
    的头像 发表于 11-20 09:52 165次阅读
    RAPIDS cuDF将<b class='flag-5'>pandas</b>提速近150倍

    常用SQL函数及其用法

    SQL(Structured Query Language)是一种用于管理和操作关系数据库的编程语言。SQL 提供了丰富的函数库,用于数据检索、数据更新、数据删除以及数据聚合等操作。以下是一些常用
    的头像 发表于 11-19 10:18 238次阅读

    Python常用函数大全

    在 Python 世界里,有一些宝藏函数和模块,它们可以让你编程更轻松、代码更高效。这篇文章将带你一一认识这些神器,让你的开发生活瞬间轻松不少!
    的头像 发表于 10-27 17:20 238次阅读

    什么叫系统的频率响应函数?它和传递函数有何关系

    工具。它是一复数函数,通常用H(jω)表示,其中ω是角频率,j是虚数单位。频率响应函数可以提供系统在频域内的行为特征,包括系统的增益、相位以及共振频率等信息。 频率响应
    的头像 发表于 10-18 09:29 1539次阅读

    labview常用的基本函数

    电子发烧友网站提供《labview常用的基本函数.pdf》资料免费下载
    发表于 10-15 17:29 7次下载

    labview中常用的字符串函数有哪些?

    ) : 功能:该函数用于返回字符串所包含的字符个数。 应用场景:常用于需要计算字符串长度的场景,如文件命名、数据处理等。 连接字符串(String Concatenate) : 功能:将两或多个字符串连接成一
    的头像 发表于 09-04 15:43 672次阅读

    简述socket编程中的常用函数

    Socket编程是一种基于TCP/IP协议的网络编程技术,它允许应用程序通过网络进行通信。在Socket编程中,有许多常用函数,它们用于创建、配置、连接、发送和接收数据等操作。以下是对这些常用
    的头像 发表于 08-16 10:49 363次阅读

    函数信号发生器怎么调频率

    函数信号发生器是一种常用的电子测试设备,它能够产生各种波形、频率和幅度的信号,广泛应用于科研、教学、生产和维修等领域。在使用函数信号发生器时,调整频率是其中一非常重要的步骤。本文将详
    的头像 发表于 05-20 18:23 1615次阅读

    MATLAB信号处理常用函数详解

    MATLAB是一款功能强大的数学软件,尤其在信号处理领域,它提供了众多的函数和工具箱,使得信号的分析、处理、仿真变得简单而高效。本文将详细介绍MATLAB在信号处理中常用函数,并通过具体示例来阐述其应用。
    的头像 发表于 05-17 14:31 2138次阅读

    回调函数(callback)是什么?回调函数的实现方法

    回调函数是一种特殊的函数,它作为参数传递给另一函数,并在被调用函数执行完毕后被调用。回调函数
    发表于 03-12 11:46 2905次阅读

    函数指针与回调函数的应用实例

    通常我们说的指针变量是指向一整型、字符型或数组等变量,而函数指针是指向函数函数指针可以像一般函数一样,用于调用
    的头像 发表于 03-07 11:13 400次阅读
    <b class='flag-5'>函数</b>指针与回调<b class='flag-5'>函数</b>的应用实例

    ROUND函数的使用方法

    ROUND函数是一种常用的数学函数,在各种程序和计算机语言中都有广泛的应用。它的作用是对一给定的数字进行四舍五入运算,可以根据指定的小数位数进行精确的舍入操作。本文将详细介绍ROUN
    的头像 发表于 01-14 11:19 1916次阅读

    系统函数怎么判断低通高通

    判断一系统函数是低通还是高通,可以通过多种方法和指标来进行分析。下面将介绍常用的几种判断方法,并详细解释每种方法的原理和应用。 频率响应分析法 通过分析系统函数的频率响应特性,可以判
    的头像 发表于 01-12 11:06 3530次阅读

    函数指针和指针函数是不是一东西?

    函数指针的本质是指针,就跟整型指针、字符指针一样,函数指针指向的是一函数
    的头像 发表于 01-03 16:35 526次阅读
    <b class='flag-5'>函数</b>指针和指针<b class='flag-5'>函数</b>是不是一<b class='flag-5'>个</b>东西?

    盘点 | 飞凌嵌入式这5款100%全国产核心板值得推荐

    飞凌嵌入式有5款核心板产品通过了中国赛宝实验室的权威认证,实现了100%的电子元器件国产化率,本篇文章小编就带大家盘点一下这5款产品。
    的头像 发表于 12-29 08:01 1978次阅读
    <b class='flag-5'>盘点</b> | 飞凌嵌入式这5款<b class='flag-5'>100</b>%全国产核心板值得推荐