资料介绍
XML 业已成为WEB 数据发布与交换的标准,包装器技术为数据挖掘提供了重要实
现步骤,智能代理技术以其智能、代理特性在控制协调挖掘上起着重要作用。本文将这三项标准和技术进行有机结合,应用于WEB 数据挖掘上,借助J2EE 三层体系结构思想,给出了智能WEB 信息提取实现方案,并简要阐述了该系统处理用户挖掘请求的流程,体现了该系统较强的智能理解和概括能力。
随着Internet 技术的迅速发展,网上各种信息呈指数式增长,形成了这样的难堪局面:
一方面,信息量大得惊人;另一方面,人们为找到所需的信息得花上大量的时间和精力。由此看来,对于海量信息的挖掘提取工作具有重大的意义。
本文提出了一个能够从超大数据密集型WEB站点自动提取数据的系统。流行电子商务、
金融、某些科学组织协会或者新闻娱乐等站点不仅信息量大,而且数据更新也特快,。这些站点大都由很多包含复杂超链接的HTML 页面构成,实现了完全左键操作、所点即所得(这也是当前“网络桌面环境”的出发点),获取信息相当简易快捷。但由于WEB 页面自身的表示逻辑和网页之间复杂链接的缘故,使构建基于以上信息源的大型应用程序或系统存在很大的技术难点,那么考虑换种页面表示形式能否解决这个难题呢?
就此问题,最近人们提出了一些解决方案,主要从数据挖掘角度取得突破性的进展。
经过长期细致的观察,发现当前许多WEB 站点包含大量结构非常相似的WEB 页面,而且预测在将来一段时间内上述站点还会保持这种结构不变。针对这种事实,一些研究人员验证了相关的技术,并提出能够从HTML 页面提取数据的WEB 包装器[1,2,3]以及包装器库[4],即输入有公共模板的一组WEB 页面后,可得到能从前述有公共模板的WEB 页面集提取核心数据的包装器。
以上研究成果给本文提供一个局部解决方案。文章将XML[5,6,8]、包装器、智能代理
(Agent)[7]三项技术或标准有机结合,并应用于数据挖掘上,改进文[7]的多Agent 联合协作理论,给出了智能提取数据实现方案。
现步骤,智能代理技术以其智能、代理特性在控制协调挖掘上起着重要作用。本文将这三项标准和技术进行有机结合,应用于WEB 数据挖掘上,借助J2EE 三层体系结构思想,给出了智能WEB 信息提取实现方案,并简要阐述了该系统处理用户挖掘请求的流程,体现了该系统较强的智能理解和概括能力。
随着Internet 技术的迅速发展,网上各种信息呈指数式增长,形成了这样的难堪局面:
一方面,信息量大得惊人;另一方面,人们为找到所需的信息得花上大量的时间和精力。由此看来,对于海量信息的挖掘提取工作具有重大的意义。
本文提出了一个能够从超大数据密集型WEB站点自动提取数据的系统。流行电子商务、
金融、某些科学组织协会或者新闻娱乐等站点不仅信息量大,而且数据更新也特快,。这些站点大都由很多包含复杂超链接的HTML 页面构成,实现了完全左键操作、所点即所得(这也是当前“网络桌面环境”的出发点),获取信息相当简易快捷。但由于WEB 页面自身的表示逻辑和网页之间复杂链接的缘故,使构建基于以上信息源的大型应用程序或系统存在很大的技术难点,那么考虑换种页面表示形式能否解决这个难题呢?
就此问题,最近人们提出了一些解决方案,主要从数据挖掘角度取得突破性的进展。
经过长期细致的观察,发现当前许多WEB 站点包含大量结构非常相似的WEB 页面,而且预测在将来一段时间内上述站点还会保持这种结构不变。针对这种事实,一些研究人员验证了相关的技术,并提出能够从HTML 页面提取数据的WEB 包装器[1,2,3]以及包装器库[4],即输入有公共模板的一组WEB 页面后,可得到能从前述有公共模板的WEB 页面集提取核心数据的包装器。
以上研究成果给本文提供一个局部解决方案。文章将XML[5,6,8]、包装器、智能代理
(Agent)[7]三项技术或标准有机结合,并应用于数据挖掘上,改进文[7]的多Agent 联合协作理论,给出了智能提取数据实现方案。
下载该资料的人也在下载
下载该资料的人还在阅读
更多 >
- 一种自适应网页结构化信息提取方法 2次下载
- 高压电气设备局部放电信息提取 1次下载
- 散乱点云数据特征信息提取算法 0次下载
- 基于同态系统的高分辨率遥感图像河流信息提取 2次下载
- 基于单DOM的自适应WEB信息抽取方法 5次下载
- 面向Web服务的电力系统信息集成平台框架的研究白雨 0次下载
- 脉冲多普勒雷达识别中的信号调制信息提取 13次下载
- 短时傅立叶变换在阵列声波信息提取中的应用 9次下载
- GPS定位信息提取及应用 67次下载
- 基于VB6.0的点阵字模信息提取方法
- 异构网络下的Web监控系统设计研究
- 基于Web平台的智能信息管理系统设计
- 基于HTMLParser 信息提取的网络爬虫设计Design
- Web元数据信息提取技术的研究
- Web权威信息自动提取技术的研究及应用
- 基于显式证据推理的few-shot关系抽取CoT 636次阅读
- Web开播系统的技术演进 576次阅读
- Web的应用基础 645次阅读
- 基于统一语义匹配的通用信息抽取框架USM 960次阅读
- 互联网web3.0如何理解 Web3.0在商业的五大优势 1915次阅读
- 基于eBPF技术实现TLS加密的明文捕获 2013次阅读
- 基于完整文件系统提取和密钥链解密 871次阅读
- 基于SAA6752HS芯片和TMS32VC5502实现MPEG-2视频编码系统的设计 2439次阅读
- 基于嵌入式操作系统与Internet网络实现智能终端控制系统的设计 1045次阅读
- 基于嵌入式系统的Web服务器建立设计 3223次阅读
- 如何使用Python编写能够从原始文本提取信息的程序 1w次阅读
- 人工智能使用的数据集多存在性别歧视和种族主义 5147次阅读
- 携程信息安全部在web攻击识别方面的机器学习实践之路 5540次阅读
- 利用μC/OS-II的嵌入式激光测距系统 1993次阅读
- 多普勒流量测量概述-信号解调方法等 4857次阅读
下载排行
本周
- 1电子电路原理第七版PDF电子教材免费下载
- 0.00 MB | 1490次下载 | 免费
- 2单片机典型实例介绍
- 18.19 MB | 93次下载 | 1 积分
- 3S7-200PLC编程实例详细资料
- 1.17 MB | 27次下载 | 1 积分
- 4笔记本电脑主板的元件识别和讲解说明
- 4.28 MB | 18次下载 | 4 积分
- 5开关电源原理及各功能电路详解
- 0.38 MB | 11次下载 | 免费
- 6100W短波放大电路图
- 0.05 MB | 4次下载 | 3 积分
- 7基于AT89C2051/4051单片机编程器的实验
- 0.11 MB | 4次下载 | 免费
- 8基于单片机的红外风扇遥控
- 0.23 MB | 3次下载 | 免费
本月
- 1OrCAD10.5下载OrCAD10.5中文版软件
- 0.00 MB | 234313次下载 | 免费
- 2PADS 9.0 2009最新版 -下载
- 0.00 MB | 66304次下载 | 免费
- 3protel99下载protel99软件下载(中文版)
- 0.00 MB | 51209次下载 | 免费
- 4LabView 8.0 专业版下载 (3CD完整版)
- 0.00 MB | 51043次下载 | 免费
- 5555集成电路应用800例(新编版)
- 0.00 MB | 33562次下载 | 免费
- 6接口电路图大全
- 未知 | 30320次下载 | 免费
- 7Multisim 10下载Multisim 10 中文版
- 0.00 MB | 28588次下载 | 免费
- 8开关电源设计实例指南
- 未知 | 21539次下载 | 免费
总榜
- 1matlab软件下载入口
- 未知 | 935053次下载 | 免费
- 2protel99se软件下载(可英文版转中文版)
- 78.1 MB | 537791次下载 | 免费
- 3MATLAB 7.1 下载 (含软件介绍)
- 未知 | 420026次下载 | 免费
- 4OrCAD10.5下载OrCAD10.5中文版软件
- 0.00 MB | 234313次下载 | 免费
- 5Altium DXP2002下载入口
- 未知 | 233046次下载 | 免费
- 6电路仿真软件multisim 10.0免费下载
- 340992 | 191183次下载 | 免费
- 7十天学会AVR单片机与C语言视频教程 下载
- 158M | 183277次下载 | 免费
- 8proe5.0野火版下载(中文版免费下载)
- 未知 | 138039次下载 | 免费
评论
查看更多