基于随机分区的超快并行DBSCAN算法介绍-电子发烧友网

DBSCAN是一种基于密度的空间聚类算法。如在点p邻域范围内的点达到一定数量则点p称为核心点，若点q在p的邻域范围内，则p直接密度可达q，且p、q属于同一密集区域。由这种关系连接的最大数据点集形成一个簇。DBSCAN算法有检测任意形状的簇、不需要提前知道检测簇的数量等优点。随着近年来大规模并行化的热潮，又出现了许多并行DBSCAN算法。大多数并行DBSCAN算法中，为并行地发现直接密度可达关系，相邻的点被分配到相同的数据分区中进行并行处理，以方便计算相邻点的密度。但是，这种数据分区方案会导致一些问题，如分割成本大、子区域重叠、数据分区之间的负载不平衡等，其中负载问题在分布不均匀的数据集中尤为体现。

为了解决这些问题，本文提出了一种新的并行DBSCAN算法，随机分区DBSCAN，简称RP-DBSCAN，它使用伪随机划分和两级单元格字典。伪随机划分是一种基于单元格的数据划分方案，它可以随机采样小的单元格，而不是点本身。无论数据如何分布，它都可以实现负载平衡，同时保持DBSCAN所需的数据连续性。两级单元格字典是整个数据集的一个高度凝炼的摘要，来表示每个随机分区。该算法能够实现同时找到每个数据分区的局部聚类，然后将这些局部聚类合并得到全局聚类。

一．伪随机划分

本文定义d维空间中的一个单元格是一个对角线长度为ε 的d维超立方体，ε 是一个表示邻域半径的参数。如果至少有一个数据点位于一个密集区域内，则可以保证该单元格中的所有数据点都属于同一簇。这大大简化了之后的聚类合并过程。在进行数据分区时，我们随机采样单元格，而不是采样数据点，因此称为伪随机划分。然后，将相同颜色的单元格及其内部的数据点划分为同一个分区。由于ε 远小于整个空间的长度，这种划分也可以实现真正的随机划分的效果。图 1 说明了伪随机分区的思想，不同颜色代表不同分区。

图1 伪随机划分

二．两级单元格字典

两级单元格字典是整个数据集的一个摘要。本质上它是一个两级的树。第一级的节点对应单元格，第二级的节点对应子单元格，其边长为单元格的h分之一，其中h由用户给出以指定近似度。每个节点编码每个（子）单元格的密度及其位置。密度是其内部的点数，而位置可以用它们所属单元内的子单元的顺序来表示，故只用d(h− 1)位。（d是维度，h是字典级数）如图 2，h = 2，d= 2，只需两位来表示子单元格位置（00，01，10，11）。

图2 两级单元格字典的构建

因此，可以得出两级单元格字典总大小为

如果数据集非常大，由于内存的限制，有可能无法立即加载整个两级单元格字典，因此把字典划分成较小的子字典，它由根节点集合的一个子集以及与它们连接的叶节点组成。

三. 算法实现的三个阶段

1. 数据分区

通过伪随机划分对整个数据集进行分区，并构建两级单元格字典，为并行处理做好准备。向并行系统中的每个工作者发送一个分区和对应的两级单元格字典。如图3，整个空间被划分为诸多单元格，其中没有为空区域创建单元格。将黄色和绿色单元格划分到两个不同的分区P1和P2中。然后为每个分区生成一个两级单元格字典。

图3 数据分区

2. 单元格图的构造

通过(ε, ρ)区域查询的方式区分单元格是否为核心单元格，构造单元格图时将排除非核心单元格。如图3中的Cnc1-Cnc5判断为非核的，它们在图4中将被排除。然后，从每个分区的每个核心单元搜索其所有完全或部分直接可达的单元格来构建一个单元图。这些单独的关系可以在单元格级别上进行聚合，从而生成一个单元格图。单元格图的顶点是单元格，边是单元格之间的可达性关系。总的来说，一个单元格图表示从一个给定的分区中获得的局部聚类。

图4 单元格图构造

(ε, ρ)区域查询：

如图5所示，若点p与子单元格中心scn的距离小于ε ，那么，就将这个子单元格加入到点p的邻居集合当中。当点p的邻居点数大于等于设定的参数minPts，就把包含p的单元格标记为核心单元格。

图5 (ε,ρ)区域查询

3. 单元格图的合并

这一部分主要包括渐进式图合并和点标记两个过程。首先，结合从每个工作者返回的对应每个分区的单元格图，确认每条边直接可达性关系，以合并成全局单元格图。之后，根据合并后的图对聚类进行扩展，并根据最终的聚类结果来标记所有的点。整个过程就是由局部聚类产生全局聚类。例如在图 6 中，单元格图简单合并后要进行边类型检测，即判断是完全边(深色实线)，部分边（实线箭头）还是未知边（虚线箭头），还要进行减边操作，根据树的结构去除冗余边，最终得到一个树式的全局单元格图。然后，图 7 中进行点标记，图4中位于P1和P2左下角的单元格在图 7 中形成了一个C1簇，将单元格其中的点标记为同一个颜色，即为最终聚类的结果。

图6 渐进式图合并

图7 点标记

四. 总结

本文提出采用随机划分策略并行运行DBSCAN。为此，提出了一种基于单元格的数据分割策略，即伪随机划分，它具有区域划分策略和随机划分策略的优点。为了能够在随机分割上执行区域查询，本文设计了两级单元格字典，它是整个数据集的一个高度凝炼的摘要。将它们放在一起，开发了一个高效的并行DBSCAN算法RP-DBSCAN。本文使用GeoLife，Cosmo50，OpenStreetMap等大规模数据集进行实验，将RP-DBSCAN与SPARK-DBSCAN，ESP-DBSCAN等其它6种算法进行效率和精确度的对比。结果显示，RP-DBSCAN更快，更精准，更高效且可扩展性强。RP-DBSCAN显著地超过了最先进的并行DBSCAN算法高达180倍。此外，只有RP-DBSCAN可以处理最大的362GB数据集，而其他算法则不能，有力地验证了其性能的优越性。本文的研究工作显著地提高了DBSCAN算法在大数据时代的可用性。

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

编码

编码

+关注

关注
6

文章
945

浏览量
54850
DBSCAN

DBSCAN

+关注

关注
0

文章
7

浏览量
10430
DBSCAN算法

DBSCAN算法

+关注

关注
0

文章
3

浏览量
1249

【「从算法到电路—数字芯片算法的电路实现」阅读体验】+介绍基础硬件算法模块

作为嵌入式开发者往往比较关注硬件和软件的协调。本书介绍了除法器，信号发生器，滤波器，分频器等基本算法的电路实现，虽然都是基础内容，但是也是最常用到的基本模块。随着逆全球化趋势的出现，过去的研发

发表于 11-21 17:05

迅为RK3568开发板传统分区和定制扩展分区镜像对比

适应硬件的动态变化。 (2)启动速度快：直接加载设备树和内核，减少了启动过程中的延迟。 (3)基础 OTA 更新：支持远程更新，但不支持增量更新，更新需重构镜像。 (4)存储效率低：由于设计传统，分区

发表于 11-19 10:50

Linux磁盘分区扩容方法

linux分区常用命令：fdisk，修改MBR分区表，MBR格式，被修改的分区大小最大为2T。

发表于 10-23 11:46 •525次阅读

有奖问卷：随机抽取 30 名用户送出快充数据线

非常重要。该问卷大约只需 5 分钟即可完成。我们将随机抽取 30 名用户送出快充数据线。十分感谢您能帮助我们改善您在 TI 的用户体验。 TI 用户体验设计团队

发表于 10-09 08:08

使用FAL分区管理与easyflash变量管理

1.FAL组件1.1什么是FALFAL（FlashAbstractionLayer）Flash抽象层，是对Flash及基于Flash的分区进行管理、操作的抽象层，对上层统一了Flash及分区操作

发表于 10-01 08:10 •1141次阅读

使用FAL<b class='flag-5'>分区</b>管理与easyflash变量管理

换电要被超快充淘汰了？

当超快充已经可以实现「充电5分钟，续航增加200多公里」时，就会出现一种声音：超快充技术发展这么快换电马上就要被淘汰了？ —— 错！蔚

发表于 09-13 11:20 •455次阅读

合科泰超快恢复二极管ES1JL产品介绍

超快恢复二极管具有开关特性好、反向恢复时间超短等特点，在开关电源、PWM脉宽调制器、变频器等中作为开关和整流器件。本期，合科泰给大家介绍一款超快

发表于 08-05 10:02 •484次阅读

刚刚，国内超快光纤激光器获重要进展

来源：激光行业观察编辑：感知芯视界 Link 华南师范大学光电科学与工程学院研究员罗智超和教授徐文成团队在国家自然科学基金、广东省自然科学基金等项目的资助下，在超快孤子光纤激光器的研究方面取得重要

发表于 08-05 09:12 •283次阅读

如何采用分区架构提升车辆的简易性

各种车辆功能推陈出新，传统的域架构 (Domain Architecture)也面临挑战。本文将介绍交通运输行业如何采用分区架构 (Zonal Architecture)来提升车辆的简易性、效率

发表于 07-11 15:59 •676次阅读

超快恢复二极管ES1GF的应用介绍

一、前言我们都知道，二极管主要作用是整流和开关，超快恢复二极管是一种具有开关特性好、反向恢复时间超短的半导体二极管，常用来给高频逆变装置的开关器件作续流、吸收、箝位、隔离、输出和输入

发表于 06-14 17:28 •720次阅读

CO2通快与百超聚焦镜选择方法

CO2通快与百超聚焦镜选择方法

发表于 04-23 11:56 •0次下载

GGII：新上市快充车型超15款，中国快充版车型销量有望超5万辆

GGII预计2024年中国新上市快充车型（平均充电倍率大于2C）超15款，中国快充版车型销量有望超5万辆。

发表于 04-15 09:17 •828次阅读

什么是超快激光器？

一、超快激光器的概念超快激光器通常指用于发射超短脉冲的锁模激光器，例如，持续时间为飞秒或皮秒的脉冲。更精确的叫法应为超短脉冲激光器。而超短脉冲激光器几乎都是锁模激光器，然而增益开关效

发表于 04-08 06:33 •828次阅读

昊铂超充站已超1200座，15分钟快充续航450km

根据官方介绍，昊铂超级充换电站单枪最大功率为640kW，配备长驻于1000V高压电源的超充桩，与800V特高压快充技术相适应，15min充电可满足450km的续航要求。

发表于 04-01 15:39 •622次阅读

什么是随机森林？随机森林的工作原理

随机森林使用名为“bagging”的技术，通过数据集和特征的随机自助抽样样本并行构建完整的决策树。虽然决策树基于一组固定的特征，而且经常过拟合，但随机性对森林的成功至关重要。

发表于 03-18 14:27 •3602次阅读