0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

什么是高维数据_高维数据如何定义

PoisonApple 来源:网络整理 2018-02-12 14:31 次阅读

高维数据的概念其实不难,简单的说就是多维数据的意思。平时我们经常接触的是一维数据或者可以写成表形式的二维数据,高维数据也可以类推,不过维数较高的时候,直观表示很难。

目前高维数据挖掘是研究重点,

这是它的特点:

高维数据挖掘是基于高维度的一种数据挖掘,它和传统的数据挖掘最主要的区别在于它的高维度。目前高维数据挖掘已成为数据挖掘的重点和难点。随着技术的进步使得数据收集变得越来越容易,导致数据库规模越来越大、复杂性越来越高,如各种类型的贸易交易数据、Web 文档、基因表达数据、文档词频数据、用户评分数据、WEB使用数据及多媒体数据等,它们的维度(属性)通常可以达到成百上千维,甚至更高。

由于高维数据存在的普遍性,使得对高维数据挖掘的研究有着非常重要的意义。但由于“维灾”的影响,也使得高维数据挖掘变得异常地困难,必须采用一些特殊的手段进行处理。 随着数据维数的升高,高维索引结构的性能迅速下降,在低维空间中,我们经常采用欧式距离作为数据之间的相似性度量,但在高维空间中很多情况下这种相似性的概念不复存在,这就给高维数据挖掘带来了很严峻的考验,一方面引起基于索引结构的数据挖掘算法的性能下降,另一方面很多基于全空间距离函数的挖掘方法也会失效。解决的方法可以有以下几种:可以通过降维将数据从高维降到低维,然后用低维数据的处理办法进行处理;对算法效率下降问题可以通过设计更为有效的索引结构、采用增量算法及并行算法等来提高算法的性能;对失效的问题通过重新定义使其获得新生。

高维数据挖掘是基于高维度的一种数据挖掘,它和传统的数据挖掘最主要的区别在于它的高维度。目前高维数据挖掘已成为数据挖掘的重点和难点。随着技术的进步使得数据收集变得越来越容易,导致数据库规模越来越大、复杂性越来越高,如各种类型的贸易交易数据、Web 文档、基因表达数据、文档词频数据、用户评分数据、WEB使用数据及多媒体数据等,它们的维度(属性)通常可以达到成百上千维,甚至更高。

由于高维数据存在的普遍性,使得对高维数据挖掘的研究有着非常重要的意义。但由于“维灾”的影响,也使得高维数据挖掘变得异常地困难,必须采用一些特殊的手段进行处理。 随着数据维数的升高,高维索引结构的性能迅速下降,在低维空间中,我们经常采用欧式距离作为数据之间的相似性度量,但在高维空间中很多情况下这种相似性的概念不复存在,这就给高维数据挖掘带来了很严峻的考验,一方面引起基于索引结构的数据挖掘算法的性能下降,另一方面很多基于全空间距离函数的挖掘方法也会失效。解决的方法可以有以下几种:可以通过降维将数据从高维降到低维,然后用低维数据的处理办法进行处理;对算法效率下降问题可以通过设计更为有效的索引结构、采用增量算法及并行算法等来提高算法的性能;对失效的问题通过重新定义使其获得新生。

高维数据处理

PCA

非监督

利用协方差矩阵寻找投射函数ω使得投射到低维空间后的最大离散(方差)使用拉格朗日解不等式

根据求得的特征值进行特征向量的选择

一般求信息率90%以上的特征向量集

对于N远大于D的数据,使用SVD(奇异值)进行求解

先进行一次自乘降维再进行训练

LDA

监督性

寻求使得类内方差最小并且类间差异性最大的投射空间

SOM

聚类方法

- 取差异性对周围范围的邻居进行更新

MDS

非监督降维

注重数据的相对距离(关系),有利于流型数据的降维和可视化

但对原数据整体结构破坏严重

三个基本步骤:

计算stress

更新投射函数

检查disparity

ReliefF

ReliefF处理多分类的情况,Relief只能处理两分类

用于对特征进行赋权,通过权值进行过滤

算法输入: 数据集D, 包含c类样本,子集采样数m,权值阈值δ, kNN系数k算法步骤:

什么是高维数据_高维数据如何定义

LLE和ISOMAP

一些总结

高纬度数据建模的基本思想是寻找函数f(x):

f(x)将数据投射到一个低维的空间

在低维空间中数据的某些特征可以保持

方法的选择:

注重降低维度并提高数据的可分析性则使用PCA,对于大量数据使用SVD

注重类间区分和类内区分,则使用LDA

注重数据的相互关联,并且数据复杂不可分,则使用MDS

对于流形,使用LLE和IOSMAP

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    6867

    浏览量

    88799
  • 数据挖掘
    +关注

    关注

    1

    文章

    406

    浏览量

    24201
  • 高维数据
    +关注

    关注

    1

    文章

    1

    浏览量

    1404
收藏 人收藏

    评论

    相关推荐

    如何让tSNE在大型、数据库上实时进行可视化的详细资料概述

    tSNE是目前最为流行的一种数据的算法。在大数据时代,数据不仅越来越多,而且变得越来越复
    的头像 发表于 06-10 10:06 2.2w次阅读

    labview里面实现矩阵

    新手刚接触labview,打算用labview实现算法的通信部分,用matlab实现计算部分,但是在matlab程序中我使用了矩阵:三矩阵,但是labview只支持2-D array,请教labview里面有没有实现
    发表于 10-05 10:23

    数据根据条件提取某几行数据组成一数据

    有个二数组,假设有20行2列字符串数组,第一列的字符串都是不一样的。现在提取其中几行的第二列数据组成一数组。现在我用的方法是for加条件结构,但中间会有很多零。请问一下,哪里出错了?
    发表于 03-16 17:13

    什么让三扫描数据栩栩如生

    `什么让三扫描数据栩栩如生1.应用需求描述利用三扫描仪扫描三数据,并贴上色彩,可以用将产品三
    发表于 08-02 10:18

    数据集中频繁闭合模式的挖掘

    数据集对现有的数据挖掘算法提出了挑战。该文把挖掘任务分解为挖掘频繁长模式与短模式2 个子问题,提出一种在
    发表于 04-17 08:41 27次下载

    基于单元区域的数据聚类算法

    提出一种数据集合聚类算法(CAHD)。采用双向搜索策略在指定的n维空间或其子空间上发现数据点密集的单元区域,采用逐位相与的方法为这些密集单元区域聚类。双向搜索策略能
    发表于 04-22 09:55 14次下载

    基于相似性度量的聚类算法的研究

    针对数据相似度难以定义的问题,本文提出了一种新的数据
    发表于 01-27 13:31 5次下载

    小样本分类问题中特征选择研究综述

    随着生物信息学、基因表达谱微阵列、图像识别等技术的发展,小样本分类问题成为数据挖掘(包括机器学习、模式识别)中的一项挑战性任务,容易引发数灾难和过拟合问题。针对这个问题,特征选择
    发表于 11-27 16:38 0次下载
    <b class='flag-5'>高</b><b class='flag-5'>维</b>小样本分类问题中特征选择研究综述

    数据相似性连接查询算法

    为了解决数据相似性连接查询中存在的维度灾难和计算代价高等问题,基于p一稳态分布,将数据
    发表于 12-15 17:13 0次下载

    如何使用FPGA实现光谱图像奇异值分解降技术

    了解决光谱图像数据量巨大、实时处理技术实现难的问题,提出了光谱图像实时处理降技术。
    发表于 03-11 16:07 10次下载
    如何使用FPGA实现<b class='flag-5'>高</b>光谱图像奇异值分解降<b class='flag-5'>维</b>技术

    数据挖掘的改进k近邻分类算法综述

    信息采集技术日益发展导致的、大规模教据,给据挖掘带来了巨大挑战,针对K近邻分类算法在数据分类中存在效率低、时间成本
    发表于 05-08 13:57 0次下载

    针对大规模数据的最近邻检索方法

    本文针对大规模数据近邻检索中的瓶颈问题,提岀基于向量量化的一种检索方法一簇內乘积量化树方法。该方法运用向量量化和乘积量化的多层树状结构高效表征大规模
    发表于 05-10 16:45 3次下载

    可对海量数据进行有效的聚类分析算法

    随着大数据时代的来临,如何对海量数据进行有效的聚类分析并充分利用,已成为当下的热门研究课题。传统的聚类算法在处理
    发表于 05-28 16:26 0次下载

    可对海量数据进行有效的聚类分析算法

    随着大数据时代的来临,如何对海量数据进行有效的聚类分析并充分利用,已成为当下的热门研究课题。传统的聚类算法在处理
    发表于 05-28 16:26 3次下载

    基于稀疏数据的增量模糊聚类算法

    基于稀疏数据的增量模糊聚类算法
    发表于 06-25 15:49 10次下载