资料介绍
在手机、平板电脑等电子媒介的人均持有率大于一的今天,网络自媒体的传播达到了前所未有的巅峰。本文通过基于Hadoop平台的mahout数据挖掘框架,选用经过Canopy算法优化后的K-means聚类分析算法,对数据进行聚类分析,对内涵众多信息的网络自媒体推文进行数据挖掘,以发现微博数据中蕴含的与当下社会和生活相关的热点词,后通过ArcGIS,对文本类簇进行核密度分析,再做渔网栅格化分析,使离散的类簇样本具备邻接性,能在可视化中直观地看到类簇主题的主要分布情况,以研究人们日常生活中的习惯、了解单一个人的喜好,以及对某个社会事件的评价等日常生活中隐含着关于社会和生活相关的信息。
在互联网技术快速发展的今天,网络自媒体在近些年得到了爆炸式的增长,它以病毒传播的形式快速地渗透到了各行各业中,给予了所有人展示自我和了解他人的途径[1]。新浪微博作为国内大型网络自媒体平台之一,它具有庞大的用户基础,以及由这基数庞大的用户群体所产生的与个人生活或社会现象等与各行各业相关的大量信息;随着Web2.0 时代的发展成熟,微博除了基于常规数据的数据挖掘以外,还有大量的包含有经纬度位置属性的数据;这些空间位置数据可以很好地将我们的信息挖掘结果通过各大地图的前端API 很直观地展示出来,让我们能很好地发现各种个人生活或社会现象等与各行各业、个人相关的话题或者感兴趣的商品等事物的空间分布规律等的空间信息,因此基于微博的数据挖掘研究是十分有价值的科研方向。
空间数据挖掘与知识发现(SDMKD, Spatial Data Mining and Knowledge Discovery)是数据挖掘和知识发现的分支学科,它通过对空间数据集进行一系列的处理,最终得到空间特征规则、空间聚类规则以及空间分布规律等能够直观展现空间实体的信息。最早开始关注、了解空间数据挖掘这一领域的人,是李德仁院士,他曾经在二十世纪末期召开的国际地理信息系统学术会议上,由他首次提出空间数据挖掘和知识发现理论,且研究并提出了空间数据挖掘和知识发现的理论框架。在现存的空间数据库里蕴含着巨量的信息,其中包括山高、河宽等可以使用地理信息系统的查询工具发现的浅层信息;但除了浅层信息以外还有很多深层次的,如空间分类规则、空间偏差等信息则难以利用地理信息系统的查询方法来获取,只能通过运算或者挖掘等手段才能够发现这些信息。
由于云计算的迅速崛起,为我们在解决机器学习中的聚类问题时面临的复杂、大量的迭代计算提供了出色的解决方案;其中在众多的分布式计算框架中,开源框架Hadoop 以其稳定的性能和廉价的成本被众多企业和科研机构所青睐,与传统并行框架相比,它具有高效、高可用、易部署等特点;apache 组织在该平台基础上开发了一个针对机器学习算法的计算框架——mahout;本文将以使用mahout 加上Hadoop组成的平台为基础:Hadoop 生态中的HDFS 为数据存储系统;Hadoop 生态中的MapReduce 为分布式计算框架;然后选用Canopy 算法优化后的K-means 聚类分析算法,利用搭载在Hadoop 集群上的Mahout数据挖掘框架来实现并行的聚类算法操作,最后,使用可视化分析的手段,将带有主题的类簇展示在地图上,用这种更直观的方式来分析这些微博数据所蕴含的信息,以研究网络舆论中隐含着关于社会和生活中相关的信息,为社会的和谐、稳定的发展提供支持。
- 基于Oracle-Spatial空间数据共享系统设计
- 如何使用数据库技术实现空间数据共享系统的设计 13次下载
- 海量空间数据库应该如何进行实施策略 4次下载
- 如何使用K-Means聚类算法改进的特征加权算法详细资料概述 10次下载
- 如何使用多维网格空间进行改进K-means聚类算法资料概述 1次下载
- 什么是空间数据库?有什么特点?如何进行空间数据库的设计? 21次下载
- 基于ORDB的空间数据库的研究 0次下载
- GML空间数据压缩技术研究 0次下载
- 论空间数据处理与空间数据挖掘 0次下载
- 改进的k-means聚类算法在供电企业CRM中的应用
- 基于Agent的分布式空间数据挖掘系统
- 基于MapObjcts的空间数据历史管理研究
- 空间数据插件技术研究
- 基于改进演化算法的空间数据聚类方法
- 面向网络的海量影像空间数据在线分发技术
- 深入理解 Sora 的技术原理 1721次阅读
- GIS可处理非地理空间数据吗 388次阅读
- 赋能现代时空数据:PIE-Engine Server全面支持STAC时空资产目录规范 1448次阅读
- 基于距离的聚类算法K-means的设计实现 2088次阅读
- 基于GIs和webGIS技术实现区域空间资源综合管理系统的子系统设计 1307次阅读
- 基本的k-means算法流程 1.9w次阅读
- 基于FPGA上的仿真分析确定适合空间应用的AES算法设计详解 908次阅读
- K-Means算法的简单介绍 4835次阅读
- Python无监督学习的几种聚类算法包括K-Means聚类,分层聚类等详细概述 3w次阅读
- K-means算法原理理论+opencv实现 6031次阅读
- K-means的优缺点及改进 3.1w次阅读
- k-means算法原理解析 8260次阅读
- 关联规则挖掘——Apriori算法的基本原理以及改进 9325次阅读
- 怎么学习数据挖掘_如何系统地学习数据挖掘 4725次阅读
- 什么叫数据挖掘_数据挖掘技术解析 1.9w次阅读
下载排行
本周
- 1TC358743XBG评估板参考手册
- 1.36 MB | 330次下载 | 免费
- 2开关电源基础知识
- 5.73 MB | 11次下载 | 免费
- 3嵌入式linux-聊天程序设计
- 0.60 MB | 3次下载 | 免费
- 4DIY动手组装LED电子显示屏
- 0.98 MB | 3次下载 | 免费
- 5基于FPGA的C8051F单片机开发板设计
- 0.70 MB | 2次下载 | 免费
- 651单片机窗帘控制器仿真程序
- 1.93 MB | 2次下载 | 免费
- 751单片机大棚环境控制器仿真程序
- 1.10 MB | 2次下载 | 免费
- 8基于51单片机的RGB调色灯程序仿真
- 0.86 MB | 2次下载 | 免费
本月
- 1OrCAD10.5下载OrCAD10.5中文版软件
- 0.00 MB | 234315次下载 | 免费
- 2555集成电路应用800例(新编版)
- 0.00 MB | 33566次下载 | 免费
- 3接口电路图大全
- 未知 | 30323次下载 | 免费
- 4开关电源设计实例指南
- 未知 | 21549次下载 | 免费
- 5电气工程师手册免费下载(新编第二版pdf电子书)
- 0.00 MB | 15349次下载 | 免费
- 6数字电路基础pdf(下载)
- 未知 | 13750次下载 | 免费
- 7电子制作实例集锦 下载
- 未知 | 8113次下载 | 免费
- 8《LED驱动电路设计》 温德尔著
- 0.00 MB | 6656次下载 | 免费
总榜
- 1matlab软件下载入口
- 未知 | 935054次下载 | 免费
- 2protel99se软件下载(可英文版转中文版)
- 78.1 MB | 537798次下载 | 免费
- 3MATLAB 7.1 下载 (含软件介绍)
- 未知 | 420027次下载 | 免费
- 4OrCAD10.5下载OrCAD10.5中文版软件
- 0.00 MB | 234315次下载 | 免费
- 5Altium DXP2002下载入口
- 未知 | 233046次下载 | 免费
- 6电路仿真软件multisim 10.0免费下载
- 340992 | 191186次下载 | 免费
- 7十天学会AVR单片机与C语言视频教程 下载
- 158M | 183279次下载 | 免费
- 8proe5.0野火版下载(中文版免费下载)
- 未知 | 138040次下载 | 免费
评论
查看更多