网页链接分类的并行算法
大小:0.72 MB 人气: 2018-01-19 需要积分:1
1998年4月,在第七届国际WWW( World Wide Web)大会上,Page等提出了PageRank算法。这是一种基于网页链接的排序算法,根据网页之间的链接结构来计算网页的重要性,从而实现网页排序。Google搜索引擎使用该算法对网页进行了准确的排名。
随着信息技术的发展,网页数量急剧增加,采用串行PageRank算法迭代计算网页排名时,需要消耗大量的存储和计算资源,且计算效率相当低下,寻求一种高效排名算法势在必行。Hadoop是Apache公司提出的开源分布式计算框架,该框架下的MapReduce并行编程模型非常适合于海量数据的并行计算。
针对串行PageRank算法在处理海量网页数据时效率低下的问题,提出一种基于网页链接分类的PageRank并行算法。首先,将网页按照网页所属网站分类,为来自不同站点的网页设置不同的权重;其次,利用Hadoop并行计算框架,结合MapReduce分而治之的特点,并行计算网页排名;最后,采用一种包含3层:数据层、预处理层、计算层的数据压缩方法,对并行算法进行优化。实验结果表明,与串行PageRank算法相比,所提算法在最好情况下结果准确率提高了12%,计算效率提高了33%。
非常好我支持^.^
(0) 0%
不好我反对
(0) 0%
下载地址
网页链接分类的并行算法下载
相关电子资料下载
- 人工神经网络模型的分类有哪些 134
- 一文快速了解RFID技术的构成及分类 109
- 车载无线技术分类介绍 412
- 机器视觉光源的作用、分类及实际应用 118
- 神经元的分类包括哪些 234
- 卷积神经网络分类方法有哪些 102
- cnn卷积神经网络分类有哪些 106
- 什么神经网络模型适合做分类 114
- 卷积神经网络在文本分类领域的应用 152
- 风华贴片电容的分类详细介绍 86