Spark分布式下的模糊C均值算法
大小:0.88 MB 人气: 2017-12-23 需要积分:2
针对聚类算法需要处理数据集的规模越来越大、时效性要求越来越高,对算法的大数据适应能力和性能要求更高的问题,提出一种在Spark分布式内存计算平台下的模糊C均值(FCM)算法Spark-FCM。首先对矩阵通过水平分割实现分布式存储,不同向量存储在不同节点;然后基于FCM算法的计算特点,设计了分布式和缓存敏感的常用矩阵操作,包括乘法、转置和加法等;最后基于矩阵操作和Spark平台特点,设计了Spark-FCM算法,主要数据结构采用分布式矩阵存储,具有节点间数据移动少和每个步骤分布式计算特点。通过在单机和集群环境下测试,算法具有良好的可扩展性,并可以适应大规模数据集,算法性能与数据量成线性关系,集群环境下性能比单机提高2-3倍。
非常好我支持^.^
(0) 0%
不好我反对
(0) 0%
下载地址
Spark分布式下的模糊C均值算法下载
相关电子资料下载
- 天数智芯主导的DeepSpark开源社区发布百大应用开放平台24.06版本 436
- spark运行的基本流程 91
- Spark基于DPU的Native引擎算子卸载方案 180
- 百度前高管景鲲与朱凯华创立AI搜索公司,Genspark产品惊艳上线 458
- 关于Spark的从0实现30s内实时监控指标计算 111
- “Spark+Hive”在DPU环境下的性能测评 | OLAP数据库引擎选型白皮书(24版)DPU部分 212
- 芯科科技和Arduino合作创建SparkFun Thing Plus Matter板 234
- Sparkle撼与科技发布TBX-750FA-V2显卡坞,支持3.5槽厚显 243
- 如何注册星闪Sparklink设备媒体接入层标识、地址码? 246
- 如何利用DPU加速Spark大数据处理? | 总结篇 661