↓推荐关注↓
[ 引言 ] 虽然目前dask,cudf等包的出现,使得我们的数据处理大大得到了加速,但是并不是每个人都有比较好的gpu,非常多的朋友仍然还在使用pandas工具包,但有时候真的很无奈,pandas的许多问题我们都需要使用apply函数来进行处理,而apply函数是非常慢的,本文我们就介绍如何加速apply函数600倍的技巧。
实验对比01Apply(Baseline) 我们以Apply为例,原始的Apply函数处理下面这个问题,需要18.4s的时间。
importpandasaspd
importnumpyasnp
df=pd.DataFrame(np.random.randint(0,11,size=(1000000,5)),columns=('a','b','c','d','e'))
deffunc(a,b,c,d,e):
ife==10:
returnc*d
elif(e< 10) and (e>=5):
returnc+d
elife< 5:
returna+b
%%time
df['new']=df.apply(lambdax:func(x['a'],x['b'],x['c'],x['d'],x['e']),axis=1)
CPUtimes:user17.9s,sys:301ms,total:18.2s
Walltime:18.4s
02Swift加速 因为处理是并行的,所以我们可以使用Swift进行加速,在使用Swift之后,相同的操作在我的机器上可以提升到7.67s。
%%time
#!pipinstallswifter
importswifter
df['new']=df.swifter.apply(lambdax:func(x['a'],x['b'],x['c'],x['d'],x['e']),axis=1)
HBox(children=(HTML(value='DaskApply'),FloatProgress(value=0.0,max=16.0),HTML(value='')))
CPUtimes:user329ms,sys:240ms,total:569ms
Walltime:7.67s
03向量化 使用Pandas和Numpy的最快方法是将函数向量化。如果我们的操作是可以直接向量化的话,那么我们就尽可能的避免使用:
- for循环;
- 列表处理;
- apply等操作
%%time
df['new']=df['c']*df['d']#defaultcasee==10
mask=df['e']< 10
df.loc[mask,'new']=df['c']+df['d']
mask=df['e']< 5
df.loc[mask,'new']=df['a']+df['b']
CPUtimes:user134ms,sys:149ms,total:283ms
Walltime:421ms
04类别转化+向量化 我们先将上面的类别转化为int16型,再进行相同的向量化操作,发现时间缩短为:116 ms。
forcolin('a','b','c','d'):
df[col]=df[col].astype(np.int16)
%%time
df['new']=df['c']*df['d']#defaultcasee==10
mask=df['e']< 10
df.loc[mask,'new']=df['c']+df['d']
mask=df['e']< 5
df.loc[mask,'new']=df['a']+df['b']
CPUtimes:user71.3ms,sys:42.5ms,total:114ms
Walltime:116ms
05转化为values处理 在能转化为.values的地方尽可能转化为.values,再进行操作。
- 此处先转化为.values等价于转化为numpy,这样我们的向量化操作会更加快捷。
%%time
df['new']=df['c'].values*df['d'].values#defaultcasee==10
mask=df['e'].values< 10
df.loc[mask,'new']=df['c']+df['d']
mask=df['e'].values< 5
df.loc[mask,'new']=df['a']+df['b']
CPUtimes:user64.5ms,sys:12.5ms,total:77ms
Walltime:74.9ms
实验汇总 通过上面的一些小的技巧,我们将简单的Apply函数加速了几百倍,具体的:
- Apply: 18.4 s
- Apply + Swifter: 7.67 s
- Pandas vectorizatoin: 421 ms
- Pandas vectorization + data types: 116 ms
- Pandas vectorization + values + data types: 74.9ms
审核编辑 :李倩
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
SWIFT
+关注
关注
0文章
116浏览量
23798 -
函数
+关注
关注
3文章
4327浏览量
62569 -
向量
+关注
关注
0文章
55浏览量
11662
原文标题:Pandas 中 Apply 函数加速百倍的技巧
文章出处:【微信号:DBDevs,微信公众号:数据分析与开发】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
使用LIS2DW12TR加速度传感器可以计算物体重力方向运动的距离吗
我先计算静止状态下的物体加速度,判断加速度大于静止的1.01倍时,开始计时间。通过实时加速度和初始加速度的差值更新速度,通过积分,计算每一段
发表于 12-12 16:21
SUMIF函数与SUMIFS函数的区别
SUMIF函数和SUMIFS函数都是Excel中用于条件求和的函数,它们可以帮助用户根据特定的条件对数据进行求和。尽管它们的基本功能相似,但在使用场景和功能上存在一些差异。以下是对这两个函数
OPA847输入600Khz,600mv正弦波,放大5倍,输出在+5v附近出现类似三角波的波形,为什么?
各位高人,你们好:
我现在用DDS 产生600Khz,600mv正弦波作为OPA847输入,放大5倍,输出在+5v附近出现类似三角波的波形,换了R114值多次,没用,求高人指点。用TINA仿真完全正常,在板子上就是不输出!!附
发表于 09-12 07:14
请问OPA690可以用作5倍或者10倍的放大吗?电阻如何选择?
这是OPA690数据手册中典型电路,我按照其电阻值的设置,焊接了一个电路。由于我们实验室的信号发生器的输出能力不行,输入端的50ohm的电阻会将我的信号幅度拉低,我将其换成600ohm左右的电阻
发表于 09-12 06:10
PSoC 6 MCUBoot和mbedTLS是否支持加密硬件加速?
。 使用 MCUBoot 验证两个应用程序时,运行时间大约需要五秒钟。
在 README.md 的 \"安全 \"一栏中写道
与软件实现相比,硬件加速加密技术将启动时间缩短了四倍多
发表于 05-29 08:17
回调函数(callback)是什么?回调函数的实现方法
回调函数是一种特殊的函数,它作为参数传递给另一个函数,并在被调用函数执行完毕后被调用。回调函数通常用于事件处理、异步编程和处理各种操作系统和
发表于 03-12 11:46
•2902次阅读
TC264有矩阵库或三角函数的加速库吗?
在 illd 上搜索了很长时间,并使用了 Google 等搜索引擎。我似乎没有找到矩阵库或相关的三角函数库。不过,我倒是找到了一个类似于 atan2 的反正切加速函数。
发表于 03-05 07:47
评论