基于MapReduce的聚类算法在大数据运行速度
大小:1.30 MB 人气: 2017-11-10 需要积分:0
随着信息技术的进步以及信息化社会的发展,出现各式各样的海量数据,大量的数据累积在数据库和数据仓库中,理解它们已远远超出了人的能力。如何将这些堆积的“数据”转变成人们理解的“知识”,数据挖掘技术应运而生o”。从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的、看似杂乱的实际数据中,提取隐含在其中的、人们不知道的,但又是潜在有用的信息和知识的过程。聚类分析是一项非常实用的数据挖掘技术。但面对庞大的数据集规模,计算的效率受限于单机处理能力。如何提高海量数据下的聚类分析能力是迫切需要解决的问题。Google实验室提出的分布式并行编程模型或框架MapReducer3],它通过集群来处理海量数据,是云计算平台主流的并行数据处理模型。
Apache推出的Hadoop平台用Java实现了MapReduce模型。Mahout是Hadoop平台的组件之一,是一个机器学习和数据挖掘库,它利用MapReduce编程模型实现了数据挖掘中的众多算法,且具有良好的可扩展性。本文在此基础上,并基于Mahout进行了聚类实例研究。
非常好我支持^.^
(0) 0%
不好我反对
(0) 0%
下载地址
基于MapReduce的聚类算法在大数据运行速度下载
相关电子资料下载
- 数据分析工具有哪几种模式 83
- 中交兴路入选2024北京“数据要素×”典型案例集 886
- 中国铁塔与海康威视达成战略合作 216
- spark运行的基本流程 91
- 季丰电子与孤波科技携手合作为车规量产提供大数据支持 740
- 智慧园区综合安防系统解决方案 83
- 大数据采集系统分为几类 269
- 如何在数字化时代实现精益生产的创新发展? 117
- 智慧水文监测系统 87
- 大数据分析平台网站 96