0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

TransBigData与数据中的预处理

马哥Linux运维 来源:马哥Linux运维 作者:马哥Linux运维 2022-09-29 09:39 次阅读

1、TransBigData简介

TransBigData是一个为交通时空大数据处理、分析和可视化而开发的Python包。TransBigData为处理常见的交通时空大数据(如出租车GPS数据、共享单车数据和公交车GPS数据等)提供了快速而简洁的方法。TransBigData为交通时空大数据分析的各个阶段提供了多种处理方法,代码简洁、高效、灵活、易用,可以用简洁的代码实现复杂的数据任务。

目前,TransBigData主要提供以下方法:

数据预处理:对数据集提供快速计算数据量、时间段、采样间隔等基本信息的方法,也针对多种数据噪声提供了相应的清洗方法。

数据栅格化:提供在研究区域内生成、匹配多种类型的地理栅格(矩形、三角形、六边形及geohash栅格)的方法体系,能够以向量化的方式快速算法将空间点数据映射到地理栅格上。

数据可视化:基于可视化包keplergl,用简单的代码即可在Jupyter Notebook上交互式地可视化展示数据。

轨迹处理:从轨迹数据GPS点生成轨迹线型,轨迹点增密、稀疏化等。

地图底图、坐标转换与计算:加载显示地图底图与各类特殊坐标系之间的坐标转换。

特定处理方法:针对各类特定数据提供相应处理方法,如从出租车GPS数据中提取订单起讫点,从手机信令数据中识别居住地与工作地,从地铁网络GIS数据构建网络拓扑结构并计算最短路径等。

TransBigData可以通过pip或者conda安装,在命令提示符中运行下面代码即可安装:

pipinstall-Utransbigdata

安装完成后,在Python中运行如下代码即可导入TransBigData包。

importtransbigdataastbd

2、数据预处理

TransBigData与数据处理中常用的Pandas和GeoPandas包能够无缝衔接。首先我们引入Pandas包并读取出租车GPS数据:

importpandasaspd

#读取数据
data=pd.read_csv('TaxiData-Sample.csv',header=None)
data.columns=['VehicleNum','time','lon','lat','OpenStatus','Speed']
data.head()

结果如图2所示:

04615a28-3f35-11ed-9e49-dac502259ad0.png▲图2 出租车GPS数据

然后,引入GeoPandas包,读取研究范围的区域信息并展示:

importgeopandasasgpd

#读取研究范围区域信息
sz=gpd.read_file(r'sz/sz.shp')
sz.plot()

结果如图3所示:

0494d718-3f35-11ed-9e49-dac502259ad0.png▲图3 研究范围的区域信息

TransBigData包集成了交通时空数据的一些常用预处理方法。其中,tbd.clean_outofshape方法输入数据和研究范围区域信息,能够剔除研究范围外的数据。而tbd.clean_taxi_status方法则可以剔除出租车GPS数据中载客状态瞬间变化的记录。在使用预处理方法时需要传入数据表中重要信息列所对应的列名,代码如下:

#数据预处理

#剔除研究范围外的数据,计算原理是在方法中先栅格化后栅格匹配研究范围后实现对应。因此这里需要同时定义栅格大小,越小则精度越高
data=tbd.clean_outofshape(data,sz,col=['lon','lat'],accuracy=500)

#剔除出租车数据中载客状态瞬间变化的数据
data=tbd.clean_taxi_status(data,col=['VehicleNum','time','OpenStatus'])

经过上面代码的处理,我们就已经将出租车GPS数据中研究范围以外的数据和载客状态瞬间变化的数据予以剔除。

3、数据栅格化

栅格形式(地理空间上相同大小的网格)是表达数据分布最基本的方法,GPS数据经过栅格化后,每个数据点都含有其所在的栅格信息。采用栅格表达数据的分布时,其表示的分布情况与真实情况接近。

TransBigData工具为我们提供了一套完整、快速、便捷的栅格处理体系。用TransBigData进行栅格划分时,首先需要确定栅格化的参数(可以理解为定义了一个栅格坐标系),参数可以帮助我们快速进行栅格化:

#定义研究范围边界
bounds=[113.75,22.4,114.62,22.86]

#通过边界获取栅格化参数
params=tbd.area_to_params(bounds,accuracy=1000)
params

输出:

{'slon': 113.75,
'slat': 22.4,
'deltalon': 0.00974336289289822,
'deltalat': 0.008993210412845813,
'theta': 0,
'method': 'rect',
'gridsize': 1000}

此时输出的栅格化参数params的内容存储了栅格坐标系的原点坐标(slon、slat)、单个栅格的经纬度长宽 (deltalon、deltalat)、栅格的旋转角度(theta)、栅格的形状(method参数,其值可以是方形rect、三角形tri和六边形hexa)以及栅格的大小(gridsize参数,单位为米)。

取得栅格化参数后,我们便可以用TransBigData中提供的方法对GPS数据进行栅格匹配、生成等操作。

完整的栅格处理方法体系如图4所示:

04d40ac8-3f35-11ed-9e49-dac502259ad0.png▲图4 TransBigData所提供的栅格处理体系

使用tbd.GPS_to_grid方法能够为每一个出租车GPS点生成,该方法会生成编号列LONCOL与 LATCOL,由这两列共同指定所在的栅格:

#将GPS数据对应至栅格,将生成的栅格编号列赋值到数据表上作为新的两列
data['LONCOL'],data['LATCOL']=tbd.GPS_to_grids(data['lon'],data['lat'],params)

下一步,聚合集计每一栅格内的数据量,并为栅格生成地理几何图形,构建GeoDataFrame:

#聚合集计栅格内数据量

grid_agg=data.groupby(['LONCOL','LATCOL'])['VehicleNum'].count().reset_index()

#生成栅格的几何图形
grid_agg['geometry']=tbd.grid_to_polygon([grid_agg['LONCOL'],grid_agg['LATCOL']],params)

#转换为GeoDataFrame
grid_agg=gpd.GeoDataFrame(grid_agg)

#绘制栅格
grid_agg.plot(column='VehicleNum',cmap='autumn_r')

结果如图5所示:

04e91670-3f35-11ed-9e49-dac502259ad0.png▲图5 数据栅格化的结果

对于一个正式的数据可视化图来说,我们还需要添加底图、色条、指北针和比例尺。TransBigData也提供了相应的功能,代码如下:

importmatplotlib.pyplotasplt
fig=plt.figure(1,(8,8),dpi=300)
ax=plt.subplot(111)
plt.sca(ax)

#添加行政区划边界作为底图
sz.plot(ax=ax,edgecolor=(0,0,0,0),facecolor=(0,0,0,0.1),linewidths=0.5)

#定义色条位置
cax=plt.axes([0.04,0.33,0.02,0.3])
plt.title('Datacount')
plt.sca(ax)

#绘制数据
grid_agg.plot(column='VehicleNum',cmap='autumn_r',ax=ax,cax=cax,legend=True)

#添加指北针和比例尺
tbd.plotscale(ax,bounds=bounds,textsize=10,compasssize=1,accuracy=2000,rect=[0.06,0.03],zorder=10)
plt.axis('off')
plt.xlim(bounds[0],bounds[2])
plt.ylim(bounds[1],bounds[3])
plt.show()

结果如图6所示:

051eefb6-3f35-11ed-9e49-dac502259ad0.png▲图6 tbd包绘制的出租车GPS数据分布

4、订单起讫点OD提取与聚合集计

针对出租车GPS数据,TransBigData提供了直接从数据中提取出出租车订单起讫点(OD)信息的方法,代码如下:

#从GPS数据提取OD

oddat=tbd.taxigps_to_od(data,col=['VehicleNum','time','Lng','Lat','OpenStatus'])
oddata

结果如图7所示:

05c7584a-3f35-11ed-9e49-dac502259ad0.png▲图7 tbd包提取的出租车OD

TransBigData包提供的栅格化方法可以让我们快速地进行栅格化定义,只需要修改accuracy参数,即可快速定义不同大小粒度的栅格。我们重新定义一个2km*2km的栅格坐标系,将其参数传入tbd.odagg_grid方法对OD进行栅格化聚合集计并生成GeoDataFrame:

#重新定义栅格,获取栅格化参数
params=tbd.area_to_params(bounds,accuracy=2000)

#栅格化OD并集计
od_gdf=tbd.odagg_grid(oddata,params)
od_gdf.plot(column='count')

结果如图8所示:

05fa8184-3f35-11ed-9e49-dac502259ad0.png▲图8 tbd集计的栅格OD

添加地图底图,色条与比例尺指北针:

#创建图框
importmatplotlib.pyplotasplt
fig=plt.figure(1,(8,8),dpi=300)
ax=plt.subplot(111)
plt.sca(ax)

#添加行政区划边界作为底图
sz.plot(ax=ax,edgecolor=(0,0,0,1),facecolor=(0,0,0,0),linewidths=0.5)

#绘制colorbar
cax=plt.axes([0.05,0.33,0.02,0.3])
plt.title('Datacount')
plt.sca(ax)

#绘制OD
od_gdf.plot(ax=ax,column='count',cmap='Blues_r',linewidth=0.5,vmax=10,cax=cax,legend=True)

#添加比例尺和指北针
tbd.plotscale(ax,bounds=bounds,textsize=10,compasssize=1,accuracy=2000,rect=[0.06,0.03],zorder=10)
plt.axis('off')
plt.xlim(bounds[0],bounds[2])
plt.ylim(bounds[1],bounds[3])
plt.show()

结果如图9所示:

06162510-3f35-11ed-9e49-dac502259ad0.png▲ 图9 TransBigData绘制的栅格OD数据

同时,TransBigData包也提供了将OD直接聚合集计到区域间的方法:

#OD集计到区域

#方法1:在不传入栅格化参数时,直接用经纬度匹配
od_gdf=tbd.odagg_shape(oddata,sz,round_accuracy=6)

#方法2:传入栅格化参数时,程序会先栅格化后匹配以加快运算速度,数据量大时建议使用
od_gdf=tbd.odagg_shape(oddata,sz,params=params)
od_gdf.plot(column='count')

结果如图10所示:

063860bc-3f35-11ed-9e49-dac502259ad0.png▲图10 tbd集计的小区OD

加载地图底图并调整出图参数:

#创建图框
importmatplotlib.pyplotasplt
importplot_map
fig=plt.figure(1,(8,8),dpi=300)
ax=plt.subplot(111)
plt.sca(ax)

#添加行政区划边界作为底图
sz.plot(ax=ax,edgecolor=(0,0,0,0),facecolor=(0,0,0,0.2),linewidths=0.5)

#绘制colorbar
cax=plt.axes([0.05,0.33,0.02,0.3])
plt.title('count')
plt.sca(ax)

#绘制OD
od_gdf.plot(ax=ax,vmax=100,column='count',cax=cax,cmap='autumn_r',linewidth=1,legend=True)

#添加比例尺和指北针
tbd.plotscale(ax,bounds=bounds,textsize=10,compasssize=1,accuracy=2000,rect=[0.06,0.03],zorder=10)
plt.axis('off')
plt.xlim(bounds[0],bounds[2])
plt.ylim(bounds[1],bounds[3])
plt.show()

结果如图11所示:

065ce5f4-3f35-11ed-9e49-dac502259ad0.png▲ 图11区域间OD可视化结果

5、交互可视化

在TransBigData中,我们可以对出租车数据使用简单的代码在jupyter notebook中快速进行交互可视化。这些可视化方法底层依托了keplergl包,可视化的结果不再是静态的图片,而是能够与鼠标响应交互的地图应用。

tbd.visualization_data方法可以实现数据分布的可视化,将数据传入该方法后,TransBigData会首先对数据点进行栅格集计,然后生成数据的栅格,并将数据量映射至颜色上。代码如下:

#可视化数据点分布
tbd.visualization_data(data,col=['lon','lat'],accuracy=1000,height=500)

结果如图12所示:

0680fc1e-3f35-11ed-9e49-dac502259ad0.gif▲ 图12数据分布的栅格可视化

对于出租车数据中所提取出的出行OD,也可使用tbd.visualization_od方法实现OD的弧线可视化。该方法也会对OD数据进行栅格聚合集计,生成OD弧线,并将不同大小的OD出行量映射至不同颜色。代码如下:

#可视化数据点分布
tbd.visualization_od(oddata,accuracy=2000,height=500)

结果如图13所示:

07876774-3f35-11ed-9e49-dac502259ad0.gif▲ 图13 OD分布的弧线可视化

对个体级的连续追踪数据,tbd.visualization_trip方法可以将数据点处理为带有时间戳的轨迹信息并动态地展示,代码如下:

#动态可视化轨迹

tbd.visualization_trip(data,col=['lon','lat','VehicleNum','time'],height=500)

结果图14所示。点击其中的播放键,可以看到出租车运行的动态轨迹效果。

0e230d0e-3f35-11ed-9e49-dac502259ad0.gif▲ 图14出租车轨迹动态可视化

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gps
    gps
    +关注

    关注

    22

    文章

    2873

    浏览量

    165888
  • 数据
    +关注

    关注

    8

    文章

    6786

    浏览量

    88705
  • 存储
    +关注

    关注

    13

    文章

    4202

    浏览量

    85533

原文标题:酷炫,Python实现交通数据可视化!

文章出处:【微信号:magedu-Linux,微信公众号:马哥Linux运维】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    机器学习为什么需要数据预处理

    数据预处理是准备原始数据并使其适合机器学习模型的过程。这是创建机器学习模型的第一步也是关键的一步。 创建机器学习项目时,我们并不总是遇到干净且格式化的数据。在对
    的头像 发表于 08-24 09:20 1749次阅读
    机器学习为什么需要<b class='flag-5'>数据</b><b class='flag-5'>预处理</b>

    请教大家一下关于数据预处理

    一般将获得的加速度数据得进行数据预处理,常见的预处理方法有去掉趋势相、还得将离散的数值积分获得振幅。请问有做过的没,请教一下。
    发表于 06-07 11:16

    拿到数据后的数据理解和预处理工作

    深度解析数据挖掘数据理解和预处理
    发表于 04-19 16:51

    Python数据预处理方法

    机器学习-Python实践Day3(特征工程--数据预处理2)
    发表于 06-03 15:55

    数据探索与数据预处理

    目录1数据探索与数据预处理21.1 赛题回顾21.2 数据探索性分析与异常值处理21.3 相关性分析52特征工程82.1 光伏发电领域特征8
    发表于 07-12 08:37

    使用Bionconductor完成基因芯片预处理的流程

    的整体框架,自行学习其他厂商或种类(例如SNP芯片或CHIP-chip芯片)的芯片处理方法5.1快速入门例5-1 从数据包CLL载入芯片数据,完成
    发表于 07-23 07:38

    数据预处理故障信息获取

    数据预处理故障信息获取1.目前,常用的故障诊断参数有电流、电压、功率、转矩、磁通、温度、振动等物理量。其中定子电流信号相对于其它参数受环境等外界影响最小,也因为电流传感器安装方便而最容易获取,因此
    发表于 09-06 08:43

    C预处理与C语言基本数据类型

    嵌入式系统设计师学习笔记二十九:嵌入式程序设计④——C预处理预处理指令表:(编码规范:GB/T 28169-2011)关于宏定义 #denfine 详解可点击连接查看博主的另一篇文章 预定义宏预处理
    发表于 12-21 08:29

    C语言的编译预处理

    在将一个C源程序转换为可执行程序的过程, 编译预处理是最初的步骤. 这一步骤是由预处理器(preprocessor)来完成的. 在源流程序被编译器处理之前,
    发表于 09-20 18:17 47次下载

    Web使用挖掘数据预处理模块、实现方法及发展前景

    数据预处理是Web使用挖掘的第一个环节。预处理的对象是Web 日志文件。由于Web 日志文件的格式是半结构化的,且日志数据不够完整,因此
    的头像 发表于 11-06 09:32 3519次阅读
    Web使用挖掘<b class='flag-5'>中</b>的<b class='flag-5'>数据</b><b class='flag-5'>预处理</b>模块、实现方法及发展前景

    什么是大数据采集和预处理

    一般情况下,大数据处理的流程为:数据采集和预处理数据存储、数据分析和数据可视化。
    的头像 发表于 02-15 14:22 3806次阅读

    PyTorch教程之数据预处理

    电子发烧友网站提供《PyTorch教程之数据预处理.pdf》资料免费下载
    发表于 06-02 14:11 0次下载
    PyTorch教程之<b class='flag-5'>数据</b><b class='flag-5'>预处理</b>

    图像预处理方法研究

    图像预处理的主要目的是消除图像无关的信息,恢复有用的真实信息,增强有关信息的可检测性、最大限度地简化数据,从而改进特征提取、图像分割、匹配和识别的可靠性。一般的预处理流程为:1灰度化
    发表于 09-20 09:35 480次阅读

    C语言有哪些预处理操作?

    C语言的预处理是在编译之前对源代码进行处理的阶段,它主要由预处理器完成。预处理器是一个独立的程序,它负责对源代码进行一些文本替换和处理,生成
    的头像 发表于 12-08 15:40 560次阅读
    C语言有哪些<b class='flag-5'>预处理</b>操作?

    机器学习数据预处理与特征工程

    在机器学习的整个流程数据预处理与特征工程是两个至关重要的步骤。它们直接决定了模型的输入质量,进而影响模型的训练效果和泛化能力。本文将从数据预处理
    的头像 发表于 07-09 15:57 259次阅读